Javaslatok kötetekben és munkaterületfájlokban lévő fájlokhoz
Amikor adatokat vagy fájlokat tölt fel vagy ment az Azure Databricksbe, dönthet úgy, hogy Unity Catalog-kötetek vagy munkaterületfájlok használatával tárolja ezeket a fájlokat. Ez a cikk a helyek használatára vonatkozó javaslatokat és követelményeket tartalmazza. A kötetekkel és a munkaterületfájlokkal kapcsolatos további részletekért lásd : Mik azok a Unity Catalog-kötetek? és mik azok a munkaterületfájlok?.
A Databricks a Unity Catalog-kötetek használatát javasolja az adatok, kódtárak és összetevők létrehozásához. Jegyzetfüzeteket, SQL-lekérdezéseket és kódfájlokat tárol munkaterületfájlokként. A munkaterület fájlkönyvtárait Git-mappákként konfigurálhatja a távoli Git-adattárakkal való szinkronizáláshoz. Tekintse meg a Databricks Git-mappák Git-integrációját. A tesztforgatókönyvekhez használt kis adatfájlok munkaterületfájlokként is tárolhatók.
Az alábbi táblázatok konkrét javaslatokat nyújtanak a fájlokra vonatkozóan, a fájltípustól vagy a szolgáltatás igényeitől függően.
Fontos
A Databricks fájlrendszer (DBFS) fájltároláshoz is elérhető, de nem ajánlott, mivel minden munkaterület-felhasználó hozzáfér a DBFS fájljaihoz. Lásd: DBFS.
Fájltípusok
Az alábbi táblázat tárolási javaslatokat tartalmaz a fájltípusokhoz. A Databricks számos fájlformátumot támogat a táblázatban szereplő példákon túl.
Fájltípus | Ajánlás |
---|---|
Databricks-objektumok, például jegyzetfüzetek és lekérdezések | Tárolás munkaterület-fájlokként |
Strukturált adatfájlok, például Parquet-fájlok és ORC-fájlok | Az adatok tárolása Unity Catalog kötetekben |
Részben strukturált adatfájlok, például szövegfájlok (.csv , .txt ) és JSON-fájlok (.json ) |
Az Unity Catalog-kötetekben történő tárolás |
Strukturálatlan adatfájlok, például képfájlok (.png , .svg hangfájlok (.mp3 ) és dokumentumfájlok (.pdf , .docx ) |
Tárolás az Unity Catalog köteteiben |
Adhoc vagy korai adatfeltáráshoz használt nyers adatfájlok | Tárolás Unity Catalog kötetekben |
Működési adatok, például naplófájlok | Tárolás a Unity Catalog köteteiben |
Nagyméretű archív fájlok, például ZIP-fájlok (.zip ) |
Tárolás az Unity Catalog-kötetekben |
Forráskódfájlok, például Python-fájlok (.py ), Java-fájlok (.java ) és Scala-fájlok (.scala ) |
Szükség esetén munkaterületfájlként tárolhatja más kapcsolódó objektumokkal, például jegyzetfüzetekkel és lekérdezésekkel. A Databricks azt javasolja, hogy ezeket a fájlokat egy Git-mappában kezelje a fájlok verziókövetéséhez és változáskövetéséhez. |
Összetevők és kódtárak, például Python-kerekek (.whl ) és JAR-fájlok (.jar ) létrehozása |
Az Unity Catalog-kötetekben való tárolás |
Konfigurációs fájlok | A unitykatalógus köteteiben tárolja a munkaterületeken szükséges konfigurációs fájlokat, de ha projektfájlok egy Git-mappában, akkor munkaterületfájlként tárolja őket. |
Funkciók összehasonlítása
Az alábbi táblázat összehasonlítja a munkaterület-fájlok és a Unity Catalog-kötetek szolgáltatásajánlatait.
Funkció | Munkaterület fájljai | Unity Catalog-kötetek |
---|---|---|
Fájlhozzáférés | A munkaterület fájljai csak ugyanazon a munkaterületen belül érhetők el egymás számára. | A fájlok globálisan elérhetők a munkaterületeken. |
Szoftveres hozzáférés | A fájlok az alábbiak használatával érhetők el:
|
A fájlok az alábbiak használatával érhetők el: |
Databricks-eszközcsomagok | Alapértelmezés szerint egy csomag összes fájlja, beleértve a kódtárakat és a Databricks-objektumokat, például a jegyzetfüzeteket és a lekérdezéseket, biztonságosan lesz üzembe helyezve munkaterületfájlokként. Az engedélyek a csomagkonfigurációban vannak meghatározva. | A csomagok testre szabhatók úgy, hogy a már kötetekben lévő kódtárakat is tartalmazzák, ha a tárak túllépik a munkaterületfájlok méretkorlátját. Lásd a Databricks Asset Bundles-kódtár függőségeit. |
Fájlengedélyek szintje | Az engedélyek a Git-mappa szintjén vannak, ha a fájl Git-mappában van, ellenkező esetben az engedélyek a fájl szintjén vannak beállítva. | Az engedélyek a kötet szintjén érhetők el. |
Engedélyek kezelése | Az engedélyeket munkaterület-ACL-ek kezelik , és csak az azt tartalmazó munkaterületre korlátozódnak. | A metaadatokat és az engedélyeket a Unity Katalógus kezeli. Ezek az engedélyek a katalógushoz hozzáféréssel rendelkező összes munkaterületre érvényesek. |
Külső tároló csatlakoztatása | Nem támogatja a külső tároló csatlakoztatását | Lehetővé teszi, hogy külső kötet létrehozásával mutasson a külső tárterületen meglévő adathalmazokra. Lásd Mik azok a Unity Catalog-kötetek?. |
UDF-támogatás | Nem támogatott | Az UDF-ek írása a Volumes FUSE használatával támogatott |
Fájlméret | Tároljon kisebb fájlokat 500 MB alatt, például a forráskódfájlokat (.py , .md , .yml ) amelyek a jegyzetfüzetek mellett szükségesek. |
Nagy méretű adatfájlokat a felhőszolgáltatók által meghatározott korlátokon tárol. |
Feltöltés > letöltés | Legfeljebb 10 MB-os feltöltési és letöltési támogatás. | Legfeljebb 5 GB-os feltöltési és letöltési támogatás. |
Táblalétrehozás támogatása | A táblák nem hozhatók létre munkaterületfájlokkal helyként. | A kötet fájljaiból táblák hozhatók létre a COPY INTO , Autoloader vagy a című cikkben ismertetett egyéb beállítások futtatásával, amely az adatok Azure Databricks lakehouse-ba történő beviteléről szól. |
Könyvtárstruktúra & fájl útvonalak | A fájlok beágyazott könyvtárakba vannak rendezve, amelyek mindegyike saját engedélymodellel rendelkezik:
|
A fájlok beágyazott könyvtárakba vannak rendezve egy köteten belül Lásd: Hogyan érheti el az adatokat a Unity Katalógusban?. |
Fájlelőzmények | A munkaterületeken belüli Git-mappa segítségével követheti nyomon a fájlmódosításokat. | Ellenőrzési naplók érhetők el. |