Megosztás a következőn keresztül:


Frissítsen egy DLT-folyamatot

Ez a cikk ismerteti a folyamatfrissítéseket, és részletesen ismerteti a frissítések aktiválását.

Mi az a folyamatfrissítés?

Miután létrehozott egy folyamatfüggvényt, és készen áll a futtatásra, elindít egy frissítést. A folyamatfrissítések a következőket végzik el:

  • Elindít egy klasztert a helyes konfigurációval.
  • Felderíti az összes definiált táblát és nézetet, és ellenőrzi az esetleges elemzési hibákat, például a nem érvényes oszlopneveket, a hiányzó függőségeket és a szintaxishibákat.
  • Táblákat és nézeteket hoz létre vagy frissít a legfrissebb elérhető adatokkal.

Egy érvényesítésisegítségével ellenőrizheti a folyamat forráskódjában lévő problémákat anélkül, hogy meg kellene várni a táblák létrehozását vagy frissítését. Ez a funkció a folyamatok fejlesztésekor vagy tesztelésekor hasznos, mivel lehetővé teszi a folyamat hibáinak gyors megtalálását és javítását, például helytelen tábla- vagy oszlopneveket.

Hogyan aktiválódnak a folyamatfrissítések?

A folyamatfrissítések indításához használja az alábbi lehetőségek egyikét:

Eseményindító frissítése Részletek
Kézikönyv Manuálisan aktiválhatja a folyamatfrissítéseket a folyamat felhasználói felületéről, a folyamatok listájából vagy egy folyamathoz csatolt jegyzetfüzetből. Lásd: Folyamatfrissítés manuális aktiválása és DLT-folyamatok fejlesztése és hibakeresése jegyzetfüzetekben.
Ütemezett Feladatokkal ütemezheti a folyamatok frissítéseit. Lásd: DLT-folyamatfeladat feladatokhoz.
Programozott A frissítéseket programozott módon aktiválhatja külső eszközök, API-k és CLI-k használatával. Lásd: DLT-folyamat futtatása a munkafolyamatban: és Pipeline API:.

Folyamat frissítésének manuális elindítása

A folyamatfrissítés manuális aktiválásához használja az alábbi lehetőségek egyikét:

  • Kattintson a DLT Start Icon gombra a folyamat részletei lapon.
  • A folyamatok listájában kattintson a Műveletek oszlopban található Jobbra nyíl ikon elemre.

Jegyzet

A manuálisan aktivált folyamatfrissítések alapértelmezett viselkedése a folyamatban definiált összes adathalmaz frissítése.

folyamatfrissítés szemantikája

Az alábbi táblázat a materializált nézetek és a streamelési táblák alapértelmezett frissítési és teljes frissítési viselkedését ismerteti:

Frissítés típusa Materializált nézet szemantikája Streamelő tábla szemantikája
Frissítés (alapértelmezett) Frissíti az eredményeket a definiáló lekérdezés aktuális eredményeinek megfelelően. A streamelési táblákban és folyamatokban definiált logikával dolgozza fel az új rekordokat.
Teljes frissítés Frissíti az eredményeket a definiáló lekérdezés aktuális eredményeinek megfelelően. Törli az adatokat a streamelési táblákból, törli az állapotinformációkat (ellenőrzőpontokat) a folyamatokból, és újra feldolgozza az adatforrás összes rekordját.

Alapértelmezés szerint a folyamat összes materializált nézete és streamtáblája minden frissítéssel frissül. A következő funkciókkal kihagyhatja a táblákat a frissítésekből:

Mindkét funkció támogatja az alapértelmezett frissítési szemantikát vagy a teljes frissítést. A Táblák kijelölése frissítéshez párbeszédpanel használatával opcionálisan kizárhat további táblákat, amikor a sikertelen táblák frissítését futtatja.

Teljes frissítést kell használnom?

A Databricks csak akkor javasolja a teljes frissítések futtatását, ha szükséges. A teljes frissítés mindig újra feldolgoz minden rekordot a megadott adatforrásokból az adathalmazt meghatározó logikán keresztül. A teljes frissítés elvégzéséhez szükséges idő és erőforrások korrelálnak a forrásadatok méretével.

A materializált nézetek ugyanazt az eredményt adnak vissza, függetlenül attól, hogy az alapértelmezett vagy a teljes frissítés van-e használva. A streamelőtáblákkal végzett teljes frissítés alaphelyzetbe állítja az összes állapotfeldolgozási és ellenőrzőpont-információt, és elvetett rekordokat eredményezhet, ha a bemeneti adatok már nem érhetők el.

A Databricks csak akkor javasolja a teljes frissítést, ha a bemeneti adatforrások tartalmazzák a tábla vagy nézet kívánt állapotának újbóli létrehozásához szükséges adatokat. Vegye figyelembe az alábbi forgatókönyveket, amikor a bemeneti forrásadatok már nem érhetők el, és a teljes frissítés futtatásának eredménye:

Adatforrás A bemeneti adatok hiányának oka A teljes frissítés eredménye
Kafka Rövid megőrzési küszöbérték A Kafka-forrásban már nem szereplő rekordok el lesznek távolítva a céltáblából.
Fájlok az objektumtárolóban Életciklus-szabályzat A forráskönyvtárban már nem található adatfájlok el lesznek távolítva a céltáblából.
Rekordok egy táblában Megfelelőségi okokból törölve A rendszer csak a forrástáblában lévő rekordokat dolgozza fel.

Ha meg szeretné akadályozni, hogy a teljes frissítés egy táblán vagy nézetben fusson, állítsa a táblatulajdonságot pipelines.reset.allowedfalse. Lásd DLT-táblatulajdonságokat. A hozzáfűzési eljárás is használható adatok meglévő streamelési táblákhoz való hozzáfűzéséhez anélkül, hogy szükség lenne a teljes frissítésre.

Folyamatfrissítés indítása a kijelölt táblákhoz

Igény szerint újra feldolgozhatja az adatokat csak a folyamat kijelölt tábláihoz. A fejlesztés során például csak egyetlen táblát módosít, és csökkenteni szeretné a tesztelési időt, vagy egy folyamatfrissítés meghiúsul, és csak a sikertelen táblákat szeretné frissíteni.

Jegyzet

Szelektív frissítést csak meghatározott események által aktivált adatfeldolgozó csatornákkal használhat.

Ha csak a kijelölt táblákat frissítő frissítést szeretne elindítani, a Folyamat részletei lapon:

  1. Kattintson a Táblák kijelölése a frissítéshezelemre. Megjelenik a Táblázatok kiválasztása frissítéshez párbeszédpanel.

    Ha nem látja a Táblák kiválasztása frissítéshez gombot, győződjön meg arról, hogy a Folyamat részletei oldalon a legújabb frissítés jelenik meg, és hogy a frissítés befejeződött. Ha például nem jelenik meg DAG a legújabb frissítéshez, mert a frissítés sikertelen volt, akkor a A frissítési táblák kijelölése gomb nem jelenik meg.

  2. A frissíteni kívánt táblák kijelöléséhez kattintson az egyes táblákra. A kijelölt táblák kiemelve és címkézve vannak. Ha el szeretne távolítani egy táblát a frissítésből, kattintson ismét a táblára.

  3. Kattintson az Kijelölés frissítéseelemre.

    Jegyzet

    A Kijelölés frissítése gomb zárójelben jeleníti meg a kijelölt táblák számát.

A kijelölt táblákhoz már betöltött adatok újrafeldolgozásához kattintson a Frissítés kiválasztása gomb melletti Blue Down Caret jelölőre, majd válassza a Teljes frissítés kiválasztásalehetőséget.

Sikertelen táblák folyamatfrissítésének indítása

Ha egy folyamatfrissítés a folyamatdiagram egy vagy több táblájának hibája miatt hiúsul meg, csak a sikertelen táblák és az alárendelt függőségek frissítését indíthatja el.

Jegyzet

A kizárt táblák nem frissülnek, még akkor sem, ha egy hibás táblától függnek.

A sikertelen táblák frissítéséhez a Folyamat részletei lapon kattintson a Sikertelen táblák frissítéseelemre.

Csak a kijelölt sikertelen táblák frissítése:

  1. Kattintson a gomb lefelé mutató nyílára a Sikertelen táblák frissítése gomb mellett, majd kattintson a Frissítéshez kijelölendő táblákelemre. Megjelenik a Táblák kiválasztása frissítéshez párbeszédpanel.

  2. A frissíteni kívánt táblák kijelöléséhez kattintson az egyes táblákra. A kijelölt táblák kiemelve és címkézve vannak. Ha el szeretne távolítani egy táblát a frissítésből, kattintson ismét a táblára.

  3. Kattintson Kijelölés frissítése.

    Jegyzet

    Frissítés gomb megjeleníti zárójelben a kijelölt táblák számát.

A kijelölt táblákhoz már betöltött adatok újrafeldolgozásához kattintson a Blue Down Caret elemre a Frissítés gomb mellett, majd kattintson a Teljes frissítés kijelöléseelemre.

Folyamatok hibakeresése a táblák frissítésére való várakozás nélkül

Fontos

A DLT Validate frissítési funkció nyilvános előzetesben.

Annak ellenőrzéséhez, hogy egy csővezeték forráskódja érvényes-e teljes frissítés futtatása nélkül, használja a Érvényesítés. A Validate frissítés feloldja a folyamatban definiált adathalmazok és folyamatok definícióit, de nem hoz létre és nem tesz közzé adatkészleteket. Az ellenőrzés során észlelt hibák, például helytelen tábla- vagy oszlopnevek a felhasználói felületen jelennek meg.

Validate frissítés futtatásához kattintson a Blue Down Caret elemre a folyamat részletei lapon, a Start mellett, majd kattintson az Ellenőrzés gombra.

A Validate frissítés befejezése után az eseménynapló csak a Validate frissítéshez kapcsolódó eseményeket jeleníti meg, és a DAG-ban nem jelennek meg metrikák. Ha hibát talál, a részletek az eseménynaplóban érhetők el.

Csak a legutóbbi Validate frissítés eredményei láthatók. Ha a Validate frissítés volt a legutóbb futtatott frissítés, az eredményeket a frissítési előzményekválasztásával megtekintheti. Ha a Validate frissítés után egy másik frissítés fut, az eredmények már nem érhetők el a felhasználói felületen.

Fejlesztési és termelési üzemmódok

A folyamatok végrehajtását optimalizálhatja a fejlesztési és az éles üzemmódok közötti váltással. A pipeline-ok felhasználói felületén található DLT-környezetváltó ikon gombjaival válthat a két mód között. Alapértelmezés szerint a folyamatok fejlesztési módban futnak.

Amikor fejlesztési módban futtatja a folyamatot, a DLT-rendszer a következőket teszi:

  • Újrahasznosít egy fürtöt az újraindítások többletterhelésének elkerülése érdekében. Fejlesztési mód engedélyezése esetén a fürtök alapértelmezés szerint két órán át futnak. A pipelines.clusterShutdown.delay beállítással módosíthatja ezt a DLT-folyamat számításának konfigurálásában.
  • Letiltja a folyamat újrapróbálkozását, így azonnal észlelheti és kijavíthatja a hibákat.

Éles módban a DLT-rendszer a következőket teszi:

  • Újraindítja a fürtöt bizonyos helyreállítható hibák esetén, beleértve a memóriaszivárgást és a lejárt hitelesítő adatokat.
  • Újrapróbálkozza a végrehajtást adott hibák, például fürt indítása sikertelensége esetén.

Jegyzet

A fejlesztési és éles üzemmódok közötti váltás csak a fürt és a folyamatvégrehajtás viselkedését szabályozza. A katalógusban a közzétételi táblák tárolási helyeit és célsémáit a folyamatbeállítások részeként kell konfigurálni, és a módok közötti váltás nem érinti.