Tárterület felfedezése és adatfájlok keresése
Ez a cikk a Unity Catalog-kötetekkel kezelt könyvtárak és adatfájlok felderítésére és felderítésére összpontosít, beleértve a kötetek katalóguskezelővel való felderítésére vonatkozó felhasználói felületi utasításokat is. Ez a cikk példákat is tartalmaz a felhőobjektum-tárolóban lévő adatok mennyiségi útvonalak és felhőalapú URI-k használatával történő programozott feltárására.
A Databricks kötetek használatát javasolja a felhőobjektum-tárolóban lévő adatokhoz való hozzáférés kezeléséhez. A felhőobjektum-tárolóban lévő adatokhoz való csatlakozásról további információt a Csatlakozás adatforrásokhoz című témakörben talál.
A fájlok minden helyen való használatáról a Fájlok használata az Azure Databricksben című témakörben olvashat bővebben.
Fontos
A munkaterület felhasználói felületén található fájlok keresésekor előfordulhat, hogy munkaterületfájlokként tárolt adatfájlokat fedez fel. A Databricks elsősorban kódfájlokhoz (például szkriptekhez és kódtárakhoz), init szkriptekhez vagy konfigurációs fájlokhoz javasolja a munkaterület-fájlok használatát. Ideális esetben a munkaterületfájlokként tárolt adatokat olyan kis adathalmazokra kell korlátoznia, amelyek olyan feladatokhoz használhatók, mint például a fejlesztés és a minőségbiztosítási tesztelés. Lásd: Mik azok a munkaterületfájlok?.
Kötetek és örökölt felhőalapú objektumkonfigurációk
Ha kötetekkel kezeli az adatokhoz való hozzáférést a felhőobjektum-tárolóban, csak a kötetek elérési útját használhatja az adatok eléréséhez, és ezek az útvonalak minden Unity Catalog-kompatibilis számítással elérhetők. Kötetek használatával nem regisztrálhat Unity-katalógustáblákat tartalmazó adatfájlokat. A Databricks azt javasolja, hogy fájlelérési utak helyett táblázatneveket használjon a Unity Catalog-táblákként regisztrált strukturált adatok kezeléséhez. Lásd Hogyan működnek az elérési utak a Unity Catalog által kezelt adatokhoz?.
Ha örökölt módszert használ a felhőobjektum-tárolóban lévő adatokhoz való hozzáférés konfigurálásához, az Azure Databricks visszaállítja az örökölt tábla ACL-engedélyeit. Azok a felhasználók, akik felhőbeli URI-k használatával szeretnének hozzáférni az adatokhoz AZ SQL-raktárakból vagy a megosztott hozzáférési móddal konfigurált számításhoz, engedélyre ANY FILE
van szükségük. Lásd: Hive metaadattártábla hozzáférés-vezérlése (régi).
Az Azure Databricks számos API-t biztosít a felhőobjektum-tárolóban lévő fájlok listázásához. A cikk legtöbb példája a kötetek használatára összpontosít. A kötetek nélkül konfigurált objektumtároló adatainak használatára vonatkozó példákért lásd: URI-kkal rendelkező fájlok listázása.
Fedezze fel a köteteket
A Katalóguskezelővel feltárhatja a kötetek adatait, és áttekintheti a kötetek részleteit. Csak olyan köteteket láthat, amelyek olvasási engedéllyel rendelkeznek, így az így felderített összes adatot lekérdezheti.
Az SQL használatával megismerheti a köteteket és azok metaadatait. Kötetekben lévő fájlok listázásához használhatja az SQL-t, a %fs
magic parancsot vagy a Databricks segédprogramot. Kötetek adatainak használatakor a Unity Catalog által biztosított elérési utat használja, amely mindig a következő formátumot használja:
/Volumes/catalog_name/schema_name/volume_name/path/to/data
Kötetek megjelenítése
SQL
Futtassa az alábbi parancsot egy adott sémában lévő kötetek listájának megtekintéséhez.
SHOW VOLUMES IN catalog_name.schema_name;
Lásd: SHOW VOLUMES.
Katalóguskezelő
Ha köteteket szeretne megjeleníteni egy adott sémában a Catalog Explorerrel, tegye a következőket:
- Válassza a
Katalógus ikont.
- Válasszon ki egy katalógust.
- Jelöljön ki egy sémát.
- Kattintson a Kötetek elemre, hogy kibontsa a sémában található összes kötetet.
Feljegyzés
Ha nincs kötet regisztrálva egy sémában, a Kötetek beállítás nem jelenik meg. Ehelyett megjelenik az elérhető táblák listája.
A kötet részleteinek megtekintése
SQL
Futtassa a következő parancsot egy kötet leírásához.
DESCRIBE VOLUME volume_name
Lásd: DESCRIBE VOLUME.
Katalóguskezelő
Kattintson a kötet nevére, és válassza a Részletek lapot a kötet részleteinek áttekintéséhez.
Fájlok megtekintése kötetekben
SQL
Futtassa a következő parancsot a kötet fájljainak listázásához.
LIST '/Volumes/catalog_name/schema_name/volume_name/'
Katalóguskezelő
Kattintson a kötet nevére, és válassza a Részletek lapot a kötet részleteinek áttekintéséhez.
%fs
Futtassa a következő parancsot a kötet fájljainak listázásához.
%fs ls /Volumes/catalog_name/schema_name/volume_name/
Databricks-segédprogramok
Futtassa a következő parancsot a kötet fájljainak listázásához.
dbutils.fs.ls("/Volumes/catalog_name/schema_name/volume_name/")
Fájlok listázása URI-kkal
A köteteken kívüli metódusokkal konfigurált felhőalapú objektumtárolót URI-k használatával kérdezheti le. A felhőbeli hely eléréséhez jogosultságokkal kell csatlakoznia a számításhoz. Az ANY FILE
engedély szükséges az SQL-raktárakhoz és a megosztott hozzáférési móddal konfigurált számítási feladatokhoz.
Feljegyzés
A kötetekkel konfigurált objektumtároló URI-hozzáférése nem támogatott. A Katalóguskezelővel nem tekintheti át azon objektumtárolók tartalmát, amelyek nincsenek kötetekkel konfigurálva.
Az alábbi példák az Azure Data Lake Storage Gen2, S3 és GCS használatával tárolt adatok URI-jait tartalmazzák.
SQL
Futtassa a következő parancsot a felhőobjektum-tárolóban lévő fájlok listázásához.
-- ADLS 2
LIST 'abfss://container-name@storage-account-name.dfs.core.windows.net/path/to/data'
-- S3
LIST 's3://bucket-name/path/to/data'
-- GCS
LIST 'gs://bucket-name/path/to/data'
%fs
Futtassa a következő parancsot a felhőobjektum-tárolóban lévő fájlok listázásához.
# ADLS 2
%fs ls abfss://container-name@storage-account-name.dfs.core.windows.net/path/to/data
# S3
%fs ls s3://bucket-name/path/to/data
# GCS
%fs ls gs://bucket-name/path/to/data
Databricks-segédprogramok
Futtassa a következő parancsot a felhőobjektum-tárolóban lévő fájlok listázásához.
# ADLS 2
dbutils.fs.ls("abfss://container-name@storage-account-name.dfs.core.windows.net/path/to/data")
# S3
dbutils.fs.ls("s3://bucket-name/path/to/data")
# GCS
dbutils.fs.ls("bucket-name/path/to/data")