Mintaadatkészletek
Az Azure Databricks számos mintaadatkészletet biztosít, amelyeket harmadik felek bocsátanak rendelkezésre, amelyeket az Azure Databricks-munkaterületen használhat.
Unity Catalog adatkészletek
Unity Catalog hozzáférést biztosít a samples
catalogszámos mintaadatkészletéhez. Ezeket az adatkészleteket az Catalog Explorer felhasználói felületén tekintheti át, és közvetlenül hivatkozhat rájuk egy jegyzetfüzetben vagy az SQL-szerkesztő a <catalog-name>.<schema-name>.<table-name>
minta használatával.
A nyctaxi
schema (más néven adatbázis) tartalmazza a tabletrips
, amely részletes információkat tartalmaz a New York-i taxitúrákról. Az alábbi utasítás az első 10 rekordot adja vissza a következő table-ben:
SELECT * FROM samples.nyctaxi.trips LIMIT 10
A tpch
schema a TPC-H benchmarkadatait tartalmazza. A schematableslist futtassa a következőt:
SHOW TABLES IN samples.tpch
Külső mintaadatkészletek CSV formátumban
Az Azure Databricks beépített eszközeivel gyorsan feltölthet harmadik féltől származó mintaadatkészleteket vesszővel tagolt values (CSV-) fájlokként az Azure Databricks-munkaterületekre. Néhány népszerű, harmadik féltől származó mintaadatkészlet, amely CSV formátumban érhető el:
Mintaadatkészlet | A mintaadatkészlet CSV-fájlként való letöltéséhez... |
---|---|
A Mókus-összeírás | Az Adatok weblapon kattintson az Adatok parkja elemre, Mókusadatok vagy történetek. |
OWID-adatkészlet-gyűjtemény | A GitHub-adattárban kattintson az adathalmazok mappára. Kattintson a céladatkészletet tartalmazó almappára, majd az adathalmaz CSV-fájljára. |
CSV-adatkészletek Data.gov | A keresési eredmények weblapján kattintson a célkeresési eredményre, majd a CSV ikon mellett kattintson a Letöltés gombra. |
Rombuszok (Kaggle-fiókot igényel) | Az adathalmaz weblapján, az Adatok lapon, az Adatok lap diamonds.csv mellett kattintson a Letöltés ikonra. |
NYC taxiút időtartama (Kaggle-fiók szükséges) | Az adathalmaz weblapján, az Adatok lap sample_submission.zip mellett kattintson a Letöltés ikon. Az adathalmaz CSV-fájljainak megkereséséhez kinyeri a letöltött ZIP-fájl tartalmát. |
Ha külső mintaadatkészleteket szeretne használni az Azure Databricks-munkaterületen, tegye a következőket:
- A külső fél utasításait követve töltse le az adathalmazt CSV-fájlként a helyi gépére.
- Töltse fel a CSV-fájlt a helyi gépről az Azure Databricks-munkaterületre.
- Az importált adatok használatához használja a Databricks SQL-t az adatok lekérdezéséhez. Vagy egy jegyzetfüzethasználatával betöltheti az adatokat DataFrame-ként.
Külső mintaadatkészletek a kódtárakban
Egyes harmadik felek kódtárakon belüli mintaadatkészleteket tartalmaznak, például Python-csomagindex-csomagokat (PyPI- vagy Átfogó R Archive Network-csomagokat). További információkért tekintse meg a könyvtárszolgáltató dokumentációját.
- Ha egy Azure Databricks-fürtre szeretne kódtárat telepíteni a fürt felhasználói felületének használatával, tekintse meg a fürttárakat.
- Python-kódtár Azure Databricks-jegyzetfüzet használatával történő telepítéséhez tekintse meg a jegyzetfüzet-hatókörű Python-kódtárakat.
- Ha R-kódtárat szeretne telepíteni egy Azure Databricks-jegyzetfüzet használatával, tekintse meg a Jegyzetfüzet hatókörű R-kódtárakat.
A DBFS-hez csatlakoztatott Databricks-adatkészletek (databricks-datasets)
Az Azure Databricks nem javasolja a DBFS és a csatlakoztatott felhőobjektum-tároló használatát a legtöbb használati esetben a Unity Catalog-kompatibilis Databricks-munkaterületeken. A DBFS-hez csatlakoztatott mintaadatkészletek némelyike elérhető az Azure Databricksben
Feljegyzés
A Databricks-adathalmazok elérhetősége és helye értesítés nélkül változhat.
A DBFS-hez csatlakoztatott Databricks-adathalmazok tallózása
Ha Python-, Scala- vagy R-jegyzetfüzetből szeretné böngészni ezeket a fájlokat, használhatja a Databricks Utilities (dbutils) referenciáját. Az alábbi kód felsorolja az összes elérhető Databricks-adatkészletet.
Python
display(dbutils.fs.ls('/databricks-datasets'))
Scala
display(dbutils.fs.ls("/databricks-datasets"))
R
%fs ls "/databricks-datasets"