dbt-feladat feladatokhoz
A dbt-feladat használatával konfigurálhatja és futtathatja a dbt-projekteket az Azure Databricksben.
Fontos
A dbt-feladatok futtatásakor a DBT_ACCESS_TOKEN
Databricks a Futtatás másként mezőben konfigurált főnevet injektálja.
Adatbázis-feladat konfigurálása
Adjon hozzá egy dbt
feladatot a Feladatok felhasználói felületén található Feladatok lapról az alábbi módon:
A Típus legördülő menüben válassza a
dbt
lehetőséget.A Forrás legördülő menüben kiválaszthatja a Munkaterület lehetőséget, ha egy Azure Databricks-munkaterület mappájában vagy Git-szolgáltatóban található dbt-projektet szeretne használni egy távoli Git-adattárban található projekthez.
Ha a Munkaterület lehetőséget választja, a megadott fájlkezelővel válassza ki a Project könyvtárat.
Ha a Git-szolgáltatót választja, kattintson a Szerkesztés gombra a projektadattár Git-adatainak megadásához. Lásd: A Git használata feladatokkal.
Ha a projekt nem szerepel az adattár gyökérkönyvtárában, a Project könyvtár mezőjében adja meg az elérési utat.
A dbt-parancsok szövegmezői alapértelmezés szerint a dbt deps, a dbt seed és a dbt run parancsokat jelölik. A megadott parancsok szekvenciális sorrendben futnak. A munkafolyamathoz szükséges módon vegye fel, távolítsa el vagy szerkessze ezeket a mezőket. Lásd: Mik azok a dbt-parancsok?.
Az SQL Warehouse-ban válasszon ki egy SQL-raktárt a dbt által létrehozott SQL futtatásához. Az SQL Warehouse legördülő menüben csak kiszolgáló nélküli és profi SQL-raktárak láthatók.
Adjon meg egy raktárkatalógust. Ha nincs bekapcsolva, a rendszer a munkaterület alapértelmezett beállítását használja.
Adjon meg egy Warehouse-sémát. Alapértelmezés szerint a rendszer a sémát
default
használja.A dbt Core futtatásához válassza a DBT CLI-számítást . A Databricks azt javasolja, hogy kiszolgáló nélküli számítást használjon egy csomópontos fürttel konfigurált feladatokhoz vagy klasszikus feladatokhoz.
dbt-databricks
Adja meg a feladat verzióját.Ha számítást használ
Serverless
, a Környezet és tárak mezővel jelöljön ki, szerkesszen vagy adjon hozzá új környezetet. Lásd: Jegyzetfüzet-függőségek telepítése.Az összes többi számítási konfiguráció esetében a Függő kódtárak mező alapértelmezés szerint fel van
dbt-databricks>=1.0.0,<2.0.0
töltve. Törölje ezt a beállítást, és + Adjon hozzá egy PyPi-kódtárat a verzió rögzítéséhez.Feljegyzés
A Databricks azt javasolja, hogy rögzítse a dbt-feladatokat a dbt-databricks csomag egy adott verziójára, hogy a fejlesztéshez és az éles futtatáshoz ugyanazt a verziót használhassa. A Databricks a dbt-databricks csomag 1.6.0-s vagy újabb verzióját javasolja.
Kattintson a Feladat létrehozása gombra.
Mik azok a dbt-parancsok?
A dbt-parancsok mező lehetővé teszi a dbt parancssori felület (CLI) használatával futtatandó parancsok megadását. A dbt CLI-vel kapcsolatos részletes információkért tekintse meg a dbt dokumentációját.
Ellenőrizze a dbt dokumentációjában, hogy a dbt megadott verziója támogatja-e a parancsokat.
Beállítások átadása a dbt-parancsok számára
A dbt-csomópontok kijelölési szintaxisa lehetővé teszi az erőforrások megadását, amelyek egy adott futtatásba belefoglalhatók vagy kizárhatók. Olyan parancsok, mint a jelölők, beleértve run
build
--select
az és --exclude
a . A teljes leírásért tekintse meg a dbt szintaxisát áttekintő dokumentumokat .
A további konfigurációs jelzők szabályozzák, hogy a dbt hogyan futtatja a projektet. Az elérhető jelölők listájáért tekintse meg a hivatalos adatbázis-dokumentumok parancssori beállításainak oszlopát.
Egyes jelölők pozícióargumentumokat használnak. A jelölők egyes argumentumai sztringek. Példákat és magyarázatokat a dbt dokumentációjában talál.
Változók átadása dbt-parancsoknak
A jelzővel --vars
statikus vagy dinamikus értékeket adhat át a dbt-parancsok mezőinek.
Egy egy idézőjeles, tagolt JSON-t ad át.--vars
A JSON összes kulcsának és értékének kettős idézőjelesnek kell lennie, ahogy az alábbi példában is látható:
dbt run --vars '{"volume_path": "/Volumes/path/to/data", "date": "2024/08/16"}'
Példák paraméteres dbt-parancsokra
A dbt használatakor hivatkozhat tevékenységértékekre, feladatparaméterekre és dinamikus feladatparaméterekre. Az értékek egyszerű szövegként lesznek helyettesítve a dbt parancsmezőbe a parancs futtatása előtt. A feladatok közötti értékek átadásáról vagy a feladatok metaadataira való hivatkozásról további információt a feladatok paraméterezése című témakörben talál.
Ezek a példák feltételezik, hogy a következő feladatparaméterek lettek konfigurálva:
Paraméter neve | Paraméter értéke |
---|---|
volume_path |
/Volumes/path/to/data |
table_name |
my_table |
select_clause |
--select "tag:nightly" |
dbt_refresh |
--full-refresh |
Az alábbi példák a paraméterekre való hivatkozás érvényes módjait mutatják be:
dbt run '{"volume_path": "{{job.parameters.volume_path}}"}'
dbt run --select "{{job.parameters.table_name}}"
dbt run {{job.parameters.select_clause}}
dbt run {{job.parameters.dbt_refresh}}
dbt run '{"volume_path": "{{job.parameters.volume_path}}"}' {{job.parameters.dbt_refresh}}
Dinamikus paraméterekre és tevékenységértékekre is hivatkozhat, ahogyan az alábbi példákban is látható:
dbt run --vars '{"date": "{{job.start_time.iso_date}}"}'
dbt run --vars '{"sales_count": "{{tasks.sales_task.values.sales_count}}"}'