DLT-folyamat konfigurálása
Ez a cikk a munkaterület felhasználói felületét használó DLT-folyamatok alapkonfigurációját ismerteti.
A Databricks azt javasolja, hogy új folyamatokat fejlessz ki kiszolgáló nélküli használatával. A kiszolgáló nélküli folyamatokra vonatkozó konfigurációs utasításokért lásd: Kiszolgáló nélküli DLT-folyamat konfigurálása.
A cikkben szereplő konfigurációs utasítások a Unity Katalógust használják. Az örökölt Hive-metaadattárral rendelkező folyamatok konfigurálására vonatkozó utasításokért lásd: DLT-folyamatok használata örökölt Hive-metaadattár.
Ez a cikk a csővezetékek jelenlegi alapértelmezett közzétételi módjának funkcióit ismerteti. A 2025. február 5. előtt létrehozott pipeline-ek a régi közzétételi módot és a LIVE
virtuális sémát használhatják. Lásd a LIVE séma (örökölt).
Jegyzet
A felhasználói felületen lehetőség van a beállítások JSON-ban való megjelenítésére és szerkesztésére. A legtöbb beállítást a felhasználói felülettel vagy egy JSON-specifikációval konfigurálhatja. Bizonyos speciális beállítások csak a JSON-konfigurációval érhetők el.
A JSON-konfigurációs fájlok akkor is hasznosak, ha folyamatokat helyeznek üzembe új környezetekben, vagy a parancssori felület vagy REST APIhasználatával.
A DLT JSON konfigurációs beállításaira való teljes hivatkozásért tekintse meg DLT-folyamat konfigurációit.
Új DLT-folyamat konfigurálása
Új DLT-folyamat konfigurálásához tegye a következőket:
- Kattintson az oldalsávon a DLT elemre.
- Kattintson a Folyamat létrehozásaelemre.
- Adjon meg egy egyedi folyamatnevet.
- (Nem kötelező) A
használatával konfigurálhatja a jegyzetfüzeteket és a munkaterület fájljait forráskódként.
- Ha nem ad hozzá forráskódot, egy új jegyzetfüzet jön létre a pipeline-hoz. A jegyzetfüzet egy új könyvtárban jön létre a felhasználói könyvtárban, és miután létrehoztad a folyamatot, egy link a jegyzetfüzet eléréséhez megjelenik a Forráskód mezőben a Folyamat részletei panelen.
- A folyamat létrehozása után a Pipeline részletei panel Forráskód mezőjében megjelenő URL-címmel érheti el ezt a jegyzetfüzetet.
- A Forráskód hozzáadása gombbal további forráskód-objektumokat vehet fel.
- Ha nem ad hozzá forráskódot, egy új jegyzetfüzet jön létre a pipeline-hoz. A jegyzetfüzet egy új könyvtárban jön létre a felhasználói könyvtárban, és miután létrehoztad a folyamatot, egy link a jegyzetfüzet eléréséhez megjelenik a Forráskód mezőben a Folyamat részletei panelen.
- Válassza a Unity Catalog lehetőséget a Tárolási beállításokalatt.
- Válasszon egy katalógust. Ez a beállítás szabályozza a folyamat metaadatainak alapértelmezett katalógusát és tárolási helyét.
- Válassza ki a séma-et a katalógusból. Alapértelmezés szerint a folyamatban definiált streamtáblák és materializált nézetek ebben a sémában jönnek létre.
- A Compute szakaszban jelölje be a Fotongyorsítás használatamelletti jelölőnégyzetet. További számítási konfigurációs szempontokért lásd számítási konfigurációs beállításokat.
- Kattintson létrehozása gombra.
Ezek az ajánlott konfigurációk létrehoznak egy új folyamatot, amely úgy van konfigurálva, hogy Aktivált módban fusson, és használja az Aktuális csatornát. Ez a konfiguráció számos használati esetben ajánlott, beleértve a fejlesztést és a tesztelést is, és jól használható olyan éles számítási feladatokhoz, amelyeknek ütemezés szerint kell futniuk. Az ütemezési folyamatok részleteiért lásd a munkaütemezéshez tartozó DLT feladatot.
számítási konfigurációs beállítások
A Databricks azt javasolja, hogy mindig az fejlett automatikus skálázás-t használja. Az egyéb számítási konfigurációk alapértelmezett értékei számos folyamat esetében jól működnek.
A kiszolgáló nélküli folyamatok eltávolítják a számítási konfigurációs beállításokat. A kiszolgáló nélküli folyamatokra vonatkozó konfigurációs utasításokért lásd: Kiszolgáló nélküli DLT-folyamat konfigurálása.
A számítási konfigurációk testreszabásához használja az alábbi beállításokat:
- A munkaterület rendszergazdái konfigurálhatnak egy fürtszabályzatot. A számítási szabályzatokkal a rendszergazdák szabályozhatják, hogy milyen számítási lehetőségek érhetők el a felhasználók számára. Lásd: Fürtpolitika kiválasztása.
- Igény szerint konfigurálhatja a fürt módot úgy, hogy a fix méretet vagy örökölt automatikus skálázásthasznál. Lásd: A DLT-folyamatok továbbfejlesztett automatikus skálázásával a fürtkihasználtság optimalizálása.
- Az automatikus skálázást engedélyező számítási feladatoknál állítsa be a skálázási viselkedés korlátait a Minimális munkavállalók és a Maximális munkavállalók paraméterekkel. Lásd: Számítás konfigurálása DLT-folyamathoz.
- Opcionálisan kikapcsolhatja a fotongyorsítást. Lásd Mi az a Photon?.
- A fürtcímkék segítségével figyelheti a DLT-folyamatokkal kapcsolatos költségeket. Lásd: Fürtcímkék konfigurálása.
- Konfigurálja a példánytípusokat, hogy meghatározza a folyamatok futtatásához használt virtuális gépek típusát. Lásd: Példánytípusok kiválasztása folyamatfuttatásához.
- Válasszon ki egy feldolgozótípust, a folyamatban konfigurált számítási feladatokhoz van optimalizálva.
- Választhat esetlegesen egy illesztőtípust, amely eltér a dolgozójának típusától. Ez hasznos lehet a nagy feldolgozótípusokkal és alacsony illesztőprogram-számítási kihasználtsággal rendelkező folyamatok költségeinek csökkentéséhez, vagy nagyobb illesztőprogram-típus kiválasztásához, hogy elkerülje a sok kis feldolgozóval rendelkező számítási feladatok memóriahiányos problémáit.
Egyéb konfigurációs szempontok
A pipeline-ekhez a következő konfigurációs beállítások is elérhetők:
- A Speciális termékkiadás minden DLT-funkcióhoz hozzáférést biztosít. Igény szerint futtathat folyamatokat a Pro vagy Core termékkiadásokkal. Lásd: Termékkiadás kiválasztása.
- A folyamatos pipeline üzemmódot is használhatja, amikor éles környezetben futtatja a pipeline-okat. Lásd: Aktivált és folyamatos folyamat módú.
- Ha a munkaterület nincs konfigurálva a Unity Cataloghoz, vagy a munkaterhelésnek használnia kell az örökölt Hive-metaadattárat, olvassa el a DLT pipeline-ek használata örökölt Hive-metaadattárralrészt.
- Adjon hozzá értesítéseket az e-mail-frissítésekhez a sikeres vagy sikertelen feltételek alapján. Lásd: E-mail-értesítések hozzáadása folyamateseményekhez.
- A Konfiguráció mezőben állítsa be a folyamat kulcs-érték párjait. Ezek a konfigurációk két célt szolgálnak:
- Állítsa be a forráskódban hivatkozható tetszőleges paramétereket. Lásd: Paraméterek használata DLT-folyamatokkal.
- Konfigurálja a folyamatbeállításokat és a Spark-konfigurációkat. Lásd DLT-tulajdonságokra vonatkozó referencia.
- Használja a előzetes csatornát a pipeline tesztelésére a még el nem fogadott DLT futtatókörnyezeti változások ellen, és új funkciók kipróbálására.
Termékkiadás kiválasztása
Válassza ki a DLT termékkiadást a folyamatkövetelményeknek leginkább megfelelő funkciókkal. A következő termékkiadások érhetők el:
-
Core
adatfolyam-betöltési számítási feladatok futtatásához. Válassza ki aCore
kiadást, ha a folyamat nem igényel olyan speciális funkciókat, mint például az adatrögzítés (CDC) vagy a DLT-elvárások. -
Pro
streamelési és CDC-számítási feladatok futtatásához. APro
termékkiadás támogatja az összesCore
funkciót, valamint támogatja azokat a számítási feladatokat, amelyek a forrásadatok változásai alapján táblák frissítését igénylik. -
Advanced
streamelési adatbetöltési, CDC- és elvárásokkal bíró számítási feladatok futtatásához. AAdvanced
termékkiadás támogatja aCore
ésPro
kiadások funkcióit, és a DLT-elvárásoknak megfelelő adatminőségi korlátozásokat tartalmaz.
A futtatási sor létrehozásakor vagy szerkesztésekor kiválaszthatja a termékváltozatot. Minden egyes folyamathoz választhat egy másik kiadást. Lásd a DLT termékoldalát.
Megjegyzés: Ha a folyamat olyan funkciókat tartalmaz, amelyeket a kiválasztott termékkiadás nem támogat, például elvárásokat, hibaüzenet jelenik meg a hiba okáról. Ezután szerkesztheti a folyamatot a megfelelő kiadás kiválasztásához.
Forráskód konfigurálása
A DLT felhasználói felületén található fájlválasztóval konfigurálhatja a folyamatot meghatározó forráskódot. A folyamat forráskódja a Databricks-jegyzetfüzetekben vagy a munkaterületfájlokban tárolt SQL- vagy Python-szkriptekben van definiálva. A folyamat létrehozásakor vagy szerkesztésekor hozzáadhat egy vagy több jegyzetfüzetet vagy munkaterületfájlt, illetve jegyzetfüzetek és munkaterületfájlok kombinációját.
Mivel a DLT automatikusan elemzi az adathalmaz-függőségeket a folyamat feldolgozási gráfjának létrehozásához, bármilyen sorrendben hozzáadhat forráskód-objektumokat.
A JSON-fájlt úgy módosíthatja, hogy tartalmazza a munkaterület fájljaiban tárolt SQL- és Python-szkriptekben definiált DLT-forráskódot. Az alábbi példa jegyzetfüzeteket és munkaterületfájlokat tartalmaz:
{
"name": "Example pipeline 3",
"storage": "dbfs:/pipeline-examples/storage-location/example3",
"libraries": [
{ "notebook": { "path": "/example-notebook_1" } },
{ "notebook": { "path": "/example-notebook_2" } },
{ "file": { "path": "/Workspace/Users/<user-name>@databricks.com/Apply_Changes_Into/apply_changes_into.sql" } },
{ "file": { "path": "/Workspace/Users/<user-name>@databricks.com/Apply_Changes_Into/apply_changes_into.py" } }
]
}
A Pythont használó folyamatok külső függőségeinek kezelése
A DLT támogatja külső függőségek használatát a folyamatokban, például Python-csomagokat és kódtárakat. A függőségek használatára vonatkozó lehetőségekről és javaslatokról a Python-függőségek kezelése DLT-folyamatokhozcímű témakörben olvashat.
Az Azure Databricks-munkaterületen tárolt Python-modulok használata
A Python-kód Databricks-jegyzetfüzetekben való implementálása mellett a Databricks Git-mappákat vagy munkaterületfájlokat is használhatja a kód Python-modulokként való tárolásához. A kód Python-modulokként való tárolása különösen akkor hasznos, ha közös funkciókkal rendelkezik, amelyeket több folyamatban vagy jegyzetfüzetben szeretne használni ugyanabban a folyamatban. A Python-modulok pipeline-okkal való használatának elsajátításához lásd: Python-modulok importálása Git-mappákból vagy munkaterületfájlokból.