Megosztás a következőn keresztül:


Mintaadatkészletek

Az Azure Databricks számos mintaadatkészletet biztosít, amelyeket harmadik felek bocsátanak rendelkezésre, amelyeket az Azure Databricks-munkaterületen használhat.

Unity Catalog adatkészletek

Unity Catalog hozzáférést biztosít a samplescatalogszámos mintaadatkészletéhez. Ezeket az adatkészleteket az Catalog Explorer felhasználói felületén tekintheti át, és közvetlenül hivatkozhat rájuk egy jegyzetfüzetben vagy az SQL-szerkesztő a <catalog-name>.<schema-name>.<table-name> minta használatával.

A nyctaxischema (más néven adatbázis) tartalmazza a tabletrips, amely részletes információkat tartalmaz a New York-i taxitúrákról. Az alábbi utasítás az első 10 rekordot adja vissza a következő table-ben:

SELECT * FROM samples.nyctaxi.trips LIMIT 10

A tpchschema a TPC-H benchmarkadatait tartalmazza. A schematableslist futtassa a következőt:

SHOW TABLES IN samples.tpch

Külső mintaadatkészletek CSV formátumban

Az Azure Databricks beépített eszközeivel gyorsan feltölthet harmadik féltől származó mintaadatkészleteket vesszővel tagolt values (CSV-) fájlokként az Azure Databricks-munkaterületekre. Néhány népszerű, harmadik féltől származó mintaadatkészlet, amely CSV formátumban érhető el:

Mintaadatkészlet A mintaadatkészlet CSV-fájlként való letöltéséhez...
A Mókus-összeírás Az Adatok weblapon kattintson az Adatok parkja elemre,
Mókusadatok vagy történetek.
OWID-adatkészlet-gyűjtemény A GitHub-adattárban kattintson az adathalmazok mappára. Kattintson a céladatkészletet tartalmazó almappára, majd az adathalmaz CSV-fájljára.
CSV-adatkészletek Data.gov A keresési eredmények weblapján kattintson a célkeresési eredményre, majd a CSV ikon mellett kattintson a Letöltés gombra.
Rombuszok (Kaggle-fiókot igényel) Az adathalmaz weblapján, az Adatok lapon, az Adatok lap diamonds.csv mellett kattintson a Letöltés ikonra.
NYC taxiút időtartama (Kaggle-fiók szükséges) Az adathalmaz weblapján, az Adatok lap sample_submission.zip mellett kattintson a
Letöltés ikon. Az adathalmaz CSV-fájljainak megkereséséhez kinyeri a letöltött ZIP-fájl tartalmát.

Ha külső mintaadatkészleteket szeretne használni az Azure Databricks-munkaterületen, tegye a következőket:

  1. A külső fél utasításait követve töltse le az adathalmazt CSV-fájlként a helyi gépére.
  2. Töltse fel a CSV-fájlt a helyi gépről az Azure Databricks-munkaterületre.
  3. Az importált adatok használatához használja a Databricks SQL-t az adatok lekérdezéséhez. Vagy egy jegyzetfüzethasználatával betöltheti az adatokat DataFrame-ként.

Külső mintaadatkészletek a kódtárakban

Egyes harmadik felek kódtárakon belüli mintaadatkészleteket tartalmaznak, például Python-csomagindex-csomagokat (PyPI- vagy Átfogó R Archive Network-csomagokat). További információkért tekintse meg a könyvtárszolgáltató dokumentációját.

A DBFS-hez csatlakoztatott Databricks-adatkészletek (databricks-datasets)

Az Azure Databricks nem javasolja a DBFS és a csatlakoztatott felhőobjektum-tároló használatát a legtöbb használati esetben a Unity Catalog-kompatibilis Databricks-munkaterületeken. A DBFS-hez csatlakoztatott mintaadatkészletek némelyike elérhető az Azure Databricksben

Feljegyzés

A Databricks-adathalmazok elérhetősége és helye értesítés nélkül változhat.

A DBFS-hez csatlakoztatott Databricks-adathalmazok tallózása

Ha Python-, Scala- vagy R-jegyzetfüzetből szeretné böngészni ezeket a fájlokat, használhatja a Databricks Utilities (dbutils) referenciáját. Az alábbi kód felsorolja az összes elérhető Databricks-adatkészletet.

Python

display(dbutils.fs.ls('/databricks-datasets'))

Scala

display(dbutils.fs.ls("/databricks-datasets"))

R

%fs ls "/databricks-datasets"