Megosztás a következőn keresztül:


Javaslatok kötetekben és munkaterületfájlokban lévő fájlokhoz

Amikor adatokat vagy fájlokat tölt fel vagy ment az Azure Databricksbe, dönthet úgy, hogy Unity Catalog-kötetek vagy munkaterületfájlok használatával tárolja ezeket a fájlokat. Ez a cikk a helyek használatára vonatkozó javaslatokat és követelményeket tartalmazza. A kötetekkel és a munkaterületfájlokkal kapcsolatos további részletekért lásd : Mik azok a Unity Catalog-kötetek? és mik azok a munkaterületfájlok?.

A Databricks a Unity Catalog-kötetek használatát javasolja az adatok, kódtárak és összetevők létrehozásához. Jegyzetfüzeteket, SQL-lekérdezéseket és kódfájlokat tárol munkaterületfájlokként. A munkaterület fájlkönyvtárait Git-mappákként konfigurálhatja a távoli Git-adattárakkal való szinkronizáláshoz. Tekintse meg a Databricks Git-mappák Git-integrációját. A tesztforgatókönyvekhez használt kis adatfájlok munkaterületfájlokként is tárolhatók.

Az alábbi táblázatok konkrét javaslatokat nyújtanak a fájlokra vonatkozóan, a fájltípustól vagy a szolgáltatás igényeitől függően.

Fontos

A Databricks fájlrendszer (DBFS) fájltároláshoz is elérhető, de nem ajánlott, mivel minden munkaterület-felhasználó hozzáfér a DBFS fájljaihoz. Lásd: DBFS.

Fájltípusok

Az alábbi táblázat tárolási javaslatokat tartalmaz a fájltípusokhoz. A Databricks számos fájlformátumot támogat a táblázatban szereplő példákon túl.

Fájltípus Ajánlás
Databricks-objektumok, például jegyzetfüzetek és lekérdezések Tárolás munkaterület-fájlokként
Strukturált adatfájlok, például Parquet-fájlok és ORC-fájlok Az adatok tárolása Unity Catalog kötetekben
Részben strukturált adatfájlok, például szövegfájlok (.csv, .txt) és JSON-fájlok (.json) Az Unity Catalog-kötetekben történő tárolás
Strukturálatlan adatfájlok, például képfájlok (.png, .svghangfájlok (.mp3) és dokumentumfájlok (.pdf, .docx) Tárolás az Unity Catalog köteteiben
Adhoc vagy korai adatfeltáráshoz használt nyers adatfájlok Tárolás Unity Catalog kötetekben
Működési adatok, például naplófájlok Tárolás a Unity Catalog köteteiben
Nagyméretű archív fájlok, például ZIP-fájlok (.zip) Tárolás az Unity Catalog-kötetekben
Forráskódfájlok, például Python-fájlok (.py), Java-fájlok (.java) és Scala-fájlok (.scala) Szükség esetén munkaterületfájlként tárolhatja más kapcsolódó objektumokkal, például jegyzetfüzetekkel és lekérdezésekkel.
A Databricks azt javasolja, hogy ezeket a fájlokat egy Git-mappában kezelje a fájlok verziókövetéséhez és változáskövetéséhez.
Összetevők és kódtárak, például Python-kerekek (.whl) és JAR-fájlok (.jar) létrehozása Az Unity Catalog-kötetekben való tárolás
Konfigurációs fájlok A unitykatalógus köteteiben tárolja a munkaterületeken szükséges konfigurációs fájlokat, de ha projektfájlok egy Git-mappában, akkor munkaterületfájlként tárolja őket.

Funkciók összehasonlítása

Az alábbi táblázat összehasonlítja a munkaterület-fájlok és a Unity Catalog-kötetek szolgáltatásajánlatait.

Funkció Munkaterület fájljai Unity Catalog-kötetek
Fájlhozzáférés A munkaterület fájljai csak ugyanazon a munkaterületen belül érhetők el egymás számára. A fájlok globálisan elérhetők a munkaterületeken.
Szoftveres hozzáférés A fájlok az alábbiak használatával érhetők el:
A fájlok az alábbiak használatával érhetők el:
Databricks-eszközcsomagok Alapértelmezés szerint egy csomag összes fájlja, beleértve a kódtárakat és a Databricks-objektumokat, például a jegyzetfüzeteket és a lekérdezéseket, biztonságosan lesz üzembe helyezve munkaterületfájlokként. Az engedélyek a csomagkonfigurációban vannak meghatározva. A csomagok testre szabhatók úgy, hogy a már kötetekben lévő kódtárakat is tartalmazzák, ha a tárak túllépik a munkaterületfájlok méretkorlátját. Lásd a Databricks Asset Bundles-kódtár függőségeit.
Fájlengedélyek szintje Az engedélyek a Git-mappa szintjén vannak, ha a fájl Git-mappában van, ellenkező esetben az engedélyek a fájl szintjén vannak beállítva. Az engedélyek a kötet szintjén érhetők el.
Engedélyek kezelése Az engedélyeket munkaterület-ACL-ek kezelik , és csak az azt tartalmazó munkaterületre korlátozódnak. A metaadatokat és az engedélyeket a Unity Katalógus kezeli. Ezek az engedélyek a katalógushoz hozzáféréssel rendelkező összes munkaterületre érvényesek.
Külső tároló csatlakoztatása Nem támogatja a külső tároló csatlakoztatását Lehetővé teszi, hogy külső kötet létrehozásával mutasson a külső tárterületen meglévő adathalmazokra. Lásd Mik azok a Unity Catalog-kötetek?.
UDF-támogatás Nem támogatott Az UDF-ek írása a Volumes FUSE használatával támogatott
Fájlméret Tároljon kisebb fájlokat 500 MB alatt, például a forráskódfájlokat (.py, .md, .yml) amelyek a jegyzetfüzetek mellett szükségesek. Nagy méretű adatfájlokat a felhőszolgáltatók által meghatározott korlátokon tárol.
Feltöltés > letöltés Legfeljebb 10 MB-os feltöltési és letöltési támogatás. Legfeljebb 5 GB-os feltöltési és letöltési támogatás.
Táblalétrehozás támogatása A táblák nem hozhatók létre munkaterületfájlokkal helyként. A kötet fájljaiból táblák hozhatók létre a COPY INTO, Autoloader vagy a című cikkben ismertetett egyéb beállítások futtatásával, amely az adatok Azure Databricks lakehouse-ba történő beviteléről szól.
Könyvtárstruktúra & fájl útvonalak A fájlok beágyazott könyvtárakba vannak rendezve, amelyek mindegyike saját engedélymodellel rendelkezik:
  • Felhasználói kezdőkönyvtárak, egyet a munkaterület minden felhasználója és szolgáltatási főfelhasználója számára.
  • Git-mappák
  • Megosztott
A fájlok beágyazott könyvtárakba vannak rendezve egy köteten belül
Lásd: Hogyan érheti el az adatokat a Unity Katalógusban?.
Fájlelőzmények A munkaterületeken belüli Git-mappa segítségével követheti nyomon a fájlmódosításokat. Ellenőrzési naplók érhetők el.