Az első munkafolyamat létrehozása Egy Azure Databricks-feladattal
Ez a cikk egy Azure Databricks-feladatot mutat be, amely a feladatokat egy mintaadatkészlet olvasására és feldolgozására vezényli. Ebben a rövid útmutatóban a következőket hajtja végre:
- Hozzon létre egy új jegyzetfüzetet, és adjon hozzá kódot egy népszerű babaneveket tartalmazó mintaadatkészlet lekéréséhez évről évre.
- Mentse a mintaadatkészletet a Unity Catalogba.
- Hozzon létre egy új jegyzetfüzetet, és adjon hozzá kódot az adathalmaz unity katalógusból való olvasásához, évenkénti szűréséhez és az eredmények megjelenítéséhez.
- Hozzon létre egy új feladatot, és konfiguráljon két feladatot a jegyzetfüzetek használatával.
- Futtassa a feladatot, és tekintse meg az eredményeket.
Követelmények
Ha a munkaterület unitykatalógus-kompatibilis, és a kiszolgáló nélküli feladatok engedélyezve van, a feladat alapértelmezés szerint kiszolgáló nélküli számításon fut. Nincs szüksége fürtlétrehozási engedélyre a feladat kiszolgáló nélküli számítással való futtatásához.
Ellenkező esetben fürtlétrehozási engedéllyel kell rendelkeznie a feladatok számítási feladatainak létrehozásához vagy a teljes körű számítási erőforrásokhoz való engedélyekkel.
Kötetnek kell lennie a Unity Katalógusban. Ez a cikk egy, a katalógusban my-volume
elnevezett sémában elnevezett default
main
kötetet használ. Emellett a Unity Katalógusban a következő engedélyekkel kell rendelkeznie:
-
READ VOLUME
ésWRITE VOLUME
, vagyALL PRIVILEGES
amy-volume
kötethez. -
USE SCHEMA
vagyALL PRIVILEGES
a sémáhozdefault
. -
USE CATALOG
vagyALL PRIVILEGES
amain
katalógushoz.
Az engedélyek beállításához tekintse meg a Databricks-rendszergazdai vagy a Unity Catalog-jogosultságokat és a biztonságos objektumokat.
A jegyzetfüzetek létrehozása
Adatok lekérése és mentése
Jegyzetfüzet létrehozása a mintaadatkészlet lekéréséhez és a Unity Catalogba való mentéséhez:
Nyissa meg az Azure Databricks kezdőlapját, és kattintson az Új gombra
az oldalsávon, és válassza a Jegyzetfüzet lehetőséget. A Databricks létrehoz és megnyit egy új, üres jegyzetfüzetet az alapértelmezett mappában. Az alapértelmezett nyelv a legutóbb használt nyelv, és a jegyzetfüzet automatikusan csatlakozik a legutóbb használt számítási erőforráshoz.
Szükség esetén módosítsa az alapértelmezett nyelvet Pythonra.
Másolja ki a következő Python-kódot, és illessze be a jegyzetfüzet első cellájába.
import requests response = requests.get('https://health.data.ny.gov/api/views/jxy9-yhdk/rows.csv') csvfile = response.content.decode('utf-8') dbutils.fs.put("/Volumes/main/default/my-volume/babynames.csv", csvfile, True)
Szűrt adatok olvasása és megjelenítése
Jegyzetfüzet létrehozása a szűréshez szükséges adatok olvasásához és bemutatásához:
Nyissa meg az Azure Databricks kezdőlapját, és kattintson az Új gombra
az oldalsávon, és válassza a Jegyzetfüzet lehetőséget. A Databricks létrehoz és megnyit egy új, üres jegyzetfüzetet az alapértelmezett mappában. Az alapértelmezett nyelv a legutóbb használt nyelv, és a jegyzetfüzet automatikusan csatlakozik a legutóbb használt számítási erőforráshoz.
Szükség esetén módosítsa az alapértelmezett nyelvet Pythonra.
Másolja ki a következő Python-kódot, és illessze be a jegyzetfüzet első cellájába.
babynames = spark.read.format("csv").option("header", "true").option("inferSchema", "true").load("/Volumes/main/default/my-volume/babynames.csv") babynames.createOrReplaceTempView("babynames_table") years = spark.sql("select distinct(Year) from babynames_table").toPandas()['Year'].tolist() years.sort() dbutils.widgets.dropdown("year", "2014", [str(x) for x in years]) display(babynames.filter(babynames.Year == dbutils.widgets.get("year")))
Feladat létrehozása
Kattintson
a Munkafolyamatok elemre az oldalsávon.
Kattintson a
parancsra.
A Feladatok lap a Feladat létrehozása párbeszédpanelen jelenik meg.
Cserélje le a feladat nevét a feladat nevére.
A Tevékenységnév mezőben adja meg a tevékenység nevét, például a gyermekneveket.
A Típus legördülő menüben válassza a Jegyzetfüzet lehetőséget.
A fájlböngészővel keresse meg az első létrehozott jegyzetfüzetet, kattintson a jegyzetfüzet nevére, majd a Megerősítés gombra.
Kattintson a Feladat létrehozása gombra.
Kattintson
az imént létrehozott feladat alá egy másik tevékenység hozzáadásához.
A Tevékenység neve mezőben adja meg a tevékenység nevét, például filter-baby-names.
A Típus legördülő menüben válassza a Jegyzetfüzet lehetőséget.
A fájlböngészővel keresse meg a második létrehozott jegyzetfüzetet, kattintson a jegyzetfüzet nevére, majd a Megerősítés gombra.
Kattintson a Hozzáadás gombra a Paraméterek területen. A Kulcs mezőbe írja be a következőt
year
: Az Érték mezőbe írja be a következőt2014
:Kattintson a Feladat létrehozása gombra.
A feladat futtatása
A feladat azonnali futtatásához kattintson a jobb felső sarokban. A feladatot úgy is futtathatja, hogy a Futtatások fülre kattint, majd az Aktív futtatások táblában a Futtatás most parancsra kattint.
Futtatás részleteinek megtekintése
Kattintson a Futtatások fülre, és kattintson a futtatás hivatkozására az Aktív futtatások táblában vagy a Befejezett futtatások (elmúlt 60 nap) táblában.
Kattintson bármelyik tevékenységre a kimenet és a részletek megtekintéséhez. Kattintson például a filter-baby-names tevékenységre a kimenet megtekintéséhez és a szűrőfeladat részleteinek futtatásához:
Futtatás különböző paraméterekkel
A feladat újrafuttatása és a babanevek szűrése egy másik évre:
- Kattintson
a Futtatás most lehetőség mellett, és válassza a Futtatás most lehetőséget különböző paraméterekkel, vagy kattintson a Futtatás most gombra az Aktív futtatások táblában különböző paraméterekkel.
-
Az Érték mezőbe írja be a következőt
2015
: - Kattintson a Futtatás elemre.