Megosztás a következőn keresztül:


DLT-folyamat konfigurálása

Ez a cikk a munkaterület felhasználói felületét használó DLT-folyamatok alapkonfigurációját ismerteti.

A Databricks azt javasolja, hogy új folyamatokat fejlessz ki kiszolgáló nélküli használatával. A kiszolgáló nélküli folyamatokra vonatkozó konfigurációs utasításokért lásd: Kiszolgáló nélküli DLT-folyamat konfigurálása.

A cikkben szereplő konfigurációs utasítások a Unity Katalógust használják. Az örökölt Hive-metaadattárral rendelkező folyamatok konfigurálására vonatkozó utasításokért lásd: DLT-folyamatok használata örökölt Hive-metaadattár.

Ez a cikk a csővezetékek jelenlegi alapértelmezett közzétételi módjának funkcióit ismerteti. A 2025. február 5. előtt létrehozott pipeline-ek a régi közzétételi módot és a LIVE virtuális sémát használhatják. Lásd a LIVE séma (örökölt).

Jegyzet

A felhasználói felületen lehetőség van a beállítások JSON-ban való megjelenítésére és szerkesztésére. A legtöbb beállítást a felhasználói felülettel vagy egy JSON-specifikációval konfigurálhatja. Bizonyos speciális beállítások csak a JSON-konfigurációval érhetők el.

A JSON-konfigurációs fájlok akkor is hasznosak, ha folyamatokat helyeznek üzembe új környezetekben, vagy a parancssori felület vagy REST APIhasználatával.

A DLT JSON konfigurációs beállításaira való teljes hivatkozásért tekintse meg DLT-folyamat konfigurációit.

Új DLT-folyamat konfigurálása

Új DLT-folyamat konfigurálásához tegye a következőket:

  1. Kattintson az oldalsávon a DLT elemre.
  2. Kattintson a Folyamat létrehozásaelemre.
  3. Adjon meg egy egyedi folyamatnevet.
  4. (Nem kötelező) A fájlválasztó ikon használatával konfigurálhatja a jegyzetfüzeteket és a munkaterület fájljait forráskódként.
    • Ha nem ad hozzá forráskódot, egy új jegyzetfüzet jön létre a pipeline-hoz. A jegyzetfüzet egy új könyvtárban jön létre a felhasználói könyvtárban, és miután létrehoztad a folyamatot, egy link a jegyzetfüzet eléréséhez megjelenik a Forráskód mezőben a Folyamat részletei panelen.
      • A folyamat létrehozása után a Pipeline részletei panel Forráskód mezőjében megjelenő URL-címmel érheti el ezt a jegyzetfüzetet.
    • A Forráskód hozzáadása gombbal további forráskód-objektumokat vehet fel.
  5. Válassza a Unity Catalog lehetőséget a Tárolási beállításokalatt.
  6. Válasszon egy katalógust. Ez a beállítás szabályozza a folyamat metaadatainak alapértelmezett katalógusát és tárolási helyét.
  7. Válassza ki a séma-et a katalógusból. Alapértelmezés szerint a folyamatban definiált streamtáblák és materializált nézetek ebben a sémában jönnek létre.
  8. A Compute szakaszban jelölje be a Fotongyorsítás használatamelletti jelölőnégyzetet. További számítási konfigurációs szempontokért lásd számítási konfigurációs beállításokat.
  9. Kattintson létrehozása gombra.

Ezek az ajánlott konfigurációk létrehoznak egy új folyamatot, amely úgy van konfigurálva, hogy Aktivált módban fusson, és használja az Aktuális csatornát. Ez a konfiguráció számos használati esetben ajánlott, beleértve a fejlesztést és a tesztelést is, és jól használható olyan éles számítási feladatokhoz, amelyeknek ütemezés szerint kell futniuk. Az ütemezési folyamatok részleteiért lásd a munkaütemezéshez tartozó DLT feladatot.

számítási konfigurációs beállítások

A Databricks azt javasolja, hogy mindig az fejlett automatikus skálázás-t használja. Az egyéb számítási konfigurációk alapértelmezett értékei számos folyamat esetében jól működnek.

A kiszolgáló nélküli folyamatok eltávolítják a számítási konfigurációs beállításokat. A kiszolgáló nélküli folyamatokra vonatkozó konfigurációs utasításokért lásd: Kiszolgáló nélküli DLT-folyamat konfigurálása.

A számítási konfigurációk testreszabásához használja az alábbi beállításokat:

  • A fürtcímkék segítségével figyelheti a DLT-folyamatokkal kapcsolatos költségeket. Lásd: Fürtcímkék konfigurálása.
  • Konfigurálja a példánytípusokat, hogy meghatározza a folyamatok futtatásához használt virtuális gépek típusát. Lásd: Példánytípusok kiválasztása folyamatfuttatásához.
    • Válasszon ki egy feldolgozótípust, a folyamatban konfigurált számítási feladatokhoz van optimalizálva.
    • Választhat esetlegesen egy illesztőtípust, amely eltér a dolgozójának típusától. Ez hasznos lehet a nagy feldolgozótípusokkal és alacsony illesztőprogram-számítási kihasználtsággal rendelkező folyamatok költségeinek csökkentéséhez, vagy nagyobb illesztőprogram-típus kiválasztásához, hogy elkerülje a sok kis feldolgozóval rendelkező számítási feladatok memóriahiányos problémáit.

Egyéb konfigurációs szempontok

A pipeline-ekhez a következő konfigurációs beállítások is elérhetők:

Termékkiadás kiválasztása

Válassza ki a DLT termékkiadást a folyamatkövetelményeknek leginkább megfelelő funkciókkal. A következő termékkiadások érhetők el:

  • Core adatfolyam-betöltési számítási feladatok futtatásához. Válassza ki a Core kiadást, ha a folyamat nem igényel olyan speciális funkciókat, mint például az adatrögzítés (CDC) vagy a DLT-elvárások.
  • Pro streamelési és CDC-számítási feladatok futtatásához. A Pro termékkiadás támogatja az összes Core funkciót, valamint támogatja azokat a számítási feladatokat, amelyek a forrásadatok változásai alapján táblák frissítését igénylik.
  • Advanced streamelési adatbetöltési, CDC- és elvárásokkal bíró számítási feladatok futtatásához. A Advanced termékkiadás támogatja a Core és Pro kiadások funkcióit, és a DLT-elvárásoknak megfelelő adatminőségi korlátozásokat tartalmaz.

A futtatási sor létrehozásakor vagy szerkesztésekor kiválaszthatja a termékváltozatot. Minden egyes folyamathoz választhat egy másik kiadást. Lásd a DLT termékoldalát.

Megjegyzés: Ha a folyamat olyan funkciókat tartalmaz, amelyeket a kiválasztott termékkiadás nem támogat, például elvárásokat, hibaüzenet jelenik meg a hiba okáról. Ezután szerkesztheti a folyamatot a megfelelő kiadás kiválasztásához.

Forráskód konfigurálása

A DLT felhasználói felületén található fájlválasztóval konfigurálhatja a folyamatot meghatározó forráskódot. A folyamat forráskódja a Databricks-jegyzetfüzetekben vagy a munkaterületfájlokban tárolt SQL- vagy Python-szkriptekben van definiálva. A folyamat létrehozásakor vagy szerkesztésekor hozzáadhat egy vagy több jegyzetfüzetet vagy munkaterületfájlt, illetve jegyzetfüzetek és munkaterületfájlok kombinációját.

Mivel a DLT automatikusan elemzi az adathalmaz-függőségeket a folyamat feldolgozási gráfjának létrehozásához, bármilyen sorrendben hozzáadhat forráskód-objektumokat.

A JSON-fájlt úgy módosíthatja, hogy tartalmazza a munkaterület fájljaiban tárolt SQL- és Python-szkriptekben definiált DLT-forráskódot. Az alábbi példa jegyzetfüzeteket és munkaterületfájlokat tartalmaz:

{
  "name": "Example pipeline 3",
  "storage": "dbfs:/pipeline-examples/storage-location/example3",
  "libraries": [
    { "notebook": { "path": "/example-notebook_1" } },
    { "notebook": { "path": "/example-notebook_2" } },
    { "file": { "path": "/Workspace/Users/<user-name>@databricks.com/Apply_Changes_Into/apply_changes_into.sql" } },
    { "file": { "path": "/Workspace/Users/<user-name>@databricks.com/Apply_Changes_Into/apply_changes_into.py" } }
  ]
}

A Pythont használó folyamatok külső függőségeinek kezelése

A DLT támogatja külső függőségek használatát a folyamatokban, például Python-csomagokat és kódtárakat. A függőségek használatára vonatkozó lehetőségekről és javaslatokról a Python-függőségek kezelése DLT-folyamatokhozcímű témakörben olvashat.

Az Azure Databricks-munkaterületen tárolt Python-modulok használata

A Python-kód Databricks-jegyzetfüzetekben való implementálása mellett a Databricks Git-mappákat vagy munkaterületfájlokat is használhatja a kód Python-modulokként való tárolásához. A kód Python-modulokként való tárolása különösen akkor hasznos, ha közös funkciókkal rendelkezik, amelyeket több folyamatban vagy jegyzetfüzetben szeretne használni ugyanabban a folyamatban. A Python-modulok pipeline-okkal való használatának elsajátításához lásd: Python-modulok importálása Git-mappákból vagy munkaterületfájlokból.