Frissítsen egy DLT-folyamatot
Ez a cikk ismerteti a folyamatfrissítéseket, és részletesen ismerteti a frissítések aktiválását.
Mi az a folyamatfrissítés?
Miután létrehozott egy folyamatfüggvényt, és készen áll a futtatásra, elindít egy frissítést. A folyamatfrissítések a következőket végzik el:
- Elindít egy klasztert a helyes konfigurációval.
- Felderíti az összes definiált táblát és nézetet, és ellenőrzi az esetleges elemzési hibákat, például a nem érvényes oszlopneveket, a hiányzó függőségeket és a szintaxishibákat.
- Táblákat és nézeteket hoz létre vagy frissít a legfrissebb elérhető adatokkal.
Egy érvényesítésisegítségével ellenőrizheti a folyamat forráskódjában lévő problémákat anélkül, hogy meg kellene várni a táblák létrehozását vagy frissítését. Ez a funkció a folyamatok fejlesztésekor vagy tesztelésekor hasznos, mivel lehetővé teszi a folyamat hibáinak gyors megtalálását és javítását, például helytelen tábla- vagy oszlopneveket.
Hogyan aktiválódnak a folyamatfrissítések?
A folyamatfrissítések indításához használja az alábbi lehetőségek egyikét:
Eseményindító frissítése | Részletek |
---|---|
Kézikönyv | Manuálisan aktiválhatja a folyamatfrissítéseket a folyamat felhasználói felületéről, a folyamatok listájából vagy egy folyamathoz csatolt jegyzetfüzetből. Lásd: Folyamatfrissítés manuális aktiválása és DLT-folyamatok fejlesztése és hibakeresése jegyzetfüzetekben. |
Ütemezett | Feladatokkal ütemezheti a folyamatok frissítéseit. Lásd: DLT-folyamatfeladat feladatokhoz. |
Programozott | A frissítéseket programozott módon aktiválhatja külső eszközök, API-k és CLI-k használatával. Lásd: DLT-folyamat futtatása a munkafolyamatban: és Pipeline API:. |
Folyamat frissítésének manuális elindítása
A folyamatfrissítés manuális aktiválásához használja az alábbi lehetőségek egyikét:
- Kattintson a
gombra a folyamat részletei lapon.
- A folyamatok listájában kattintson a Műveletek oszlopban található
elemre.
Jegyzet
A manuálisan aktivált folyamatfrissítések alapértelmezett viselkedése a folyamatban definiált összes adathalmaz frissítése.
folyamatfrissítés szemantikája
Az alábbi táblázat a materializált nézetek és a streamelési táblák alapértelmezett frissítési és teljes frissítési viselkedését ismerteti:
Frissítés típusa | Materializált nézet szemantikája | Streamelő tábla szemantikája |
---|---|---|
Frissítés (alapértelmezett) | Frissíti az eredményeket a definiáló lekérdezés aktuális eredményeinek megfelelően. | A streamelési táblákban és folyamatokban definiált logikával dolgozza fel az új rekordokat. |
Teljes frissítés | Frissíti az eredményeket a definiáló lekérdezés aktuális eredményeinek megfelelően. | Törli az adatokat a streamelési táblákból, törli az állapotinformációkat (ellenőrzőpontokat) a folyamatokból, és újra feldolgozza az adatforrás összes rekordját. |
Alapértelmezés szerint a folyamat összes materializált nézete és streamtáblája minden frissítéssel frissül. A következő funkciókkal kihagyhatja a táblákat a frissítésekből:
- Táblák kiválasztása a frissítéshez: Ezzel a felhasználói felülettel adhat hozzá vagy távolíthat el materializált nézeteket és streaming táblákat a frissítés futtatása előtt. Lásd: Folyamatfrissítés indítása a kijelölt táblákhoz.
- Sikertelen táblák frissítése: Indítsa el a sikertelen materializált nézetek és streamelési táblák frissítését, beleértve az alsóbb rétegbeli függőségeket is. Lásd: Sikertelen táblák folyamatfrissítésének indítása.
Mindkét funkció támogatja az alapértelmezett frissítési szemantikát vagy a teljes frissítést. A Táblák kijelölése frissítéshez párbeszédpanel használatával opcionálisan kizárhat további táblákat, amikor a sikertelen táblák frissítését futtatja.
Teljes frissítést kell használnom?
A Databricks csak akkor javasolja a teljes frissítések futtatását, ha szükséges. A teljes frissítés mindig újra feldolgoz minden rekordot a megadott adatforrásokból az adathalmazt meghatározó logikán keresztül. A teljes frissítés elvégzéséhez szükséges idő és erőforrások korrelálnak a forrásadatok méretével.
A materializált nézetek ugyanazt az eredményt adnak vissza, függetlenül attól, hogy az alapértelmezett vagy a teljes frissítés van-e használva. A streamelőtáblákkal végzett teljes frissítés alaphelyzetbe állítja az összes állapotfeldolgozási és ellenőrzőpont-információt, és elvetett rekordokat eredményezhet, ha a bemeneti adatok már nem érhetők el.
A Databricks csak akkor javasolja a teljes frissítést, ha a bemeneti adatforrások tartalmazzák a tábla vagy nézet kívánt állapotának újbóli létrehozásához szükséges adatokat. Vegye figyelembe az alábbi forgatókönyveket, amikor a bemeneti forrásadatok már nem érhetők el, és a teljes frissítés futtatásának eredménye:
Adatforrás | A bemeneti adatok hiányának oka | A teljes frissítés eredménye |
---|---|---|
Kafka | Rövid megőrzési küszöbérték | A Kafka-forrásban már nem szereplő rekordok el lesznek távolítva a céltáblából. |
Fájlok az objektumtárolóban | Életciklus-szabályzat | A forráskönyvtárban már nem található adatfájlok el lesznek távolítva a céltáblából. |
Rekordok egy táblában | Megfelelőségi okokból törölve | A rendszer csak a forrástáblában lévő rekordokat dolgozza fel. |
Ha meg szeretné akadályozni, hogy a teljes frissítés egy táblán vagy nézetben fusson, állítsa a táblatulajdonságot pipelines.reset.allowed
false
. Lásd DLT-táblatulajdonságokat. A hozzáfűzési eljárás is használható adatok meglévő streamelési táblákhoz való hozzáfűzéséhez anélkül, hogy szükség lenne a teljes frissítésre.
Folyamatfrissítés indítása a kijelölt táblákhoz
Igény szerint újra feldolgozhatja az adatokat csak a folyamat kijelölt tábláihoz. A fejlesztés során például csak egyetlen táblát módosít, és csökkenteni szeretné a tesztelési időt, vagy egy folyamatfrissítés meghiúsul, és csak a sikertelen táblákat szeretné frissíteni.
Jegyzet
Szelektív frissítést csak meghatározott események által aktivált adatfeldolgozó csatornákkal használhat.
Ha csak a kijelölt táblákat frissítő frissítést szeretne elindítani, a Folyamat részletei lapon:
Kattintson a Táblák kijelölése a frissítéshezelemre. Megjelenik a Táblázatok kiválasztása frissítéshez párbeszédpanel.
Ha nem látja a Táblák kiválasztása frissítéshez gombot, győződjön meg arról, hogy a Folyamat részletei oldalon a legújabb frissítés jelenik meg, és hogy a frissítés befejeződött. Ha például nem jelenik meg DAG a legújabb frissítéshez, mert a frissítés sikertelen volt, akkor a A frissítési táblák kijelölése gomb nem jelenik meg.
A frissíteni kívánt táblák kijelöléséhez kattintson az egyes táblákra. A kijelölt táblák kiemelve és címkézve vannak. Ha el szeretne távolítani egy táblát a frissítésből, kattintson ismét a táblára.
Kattintson az Kijelölés frissítéseelemre.
Jegyzet
A Kijelölés frissítése gomb zárójelben jeleníti meg a kijelölt táblák számát.
A kijelölt táblákhoz már betöltött adatok újrafeldolgozásához kattintson a Frissítés kiválasztása gomb melletti jelölőre, majd válassza a Teljes frissítés kiválasztásalehetőséget.
Sikertelen táblák folyamatfrissítésének indítása
Ha egy folyamatfrissítés a folyamatdiagram egy vagy több táblájának hibája miatt hiúsul meg, csak a sikertelen táblák és az alárendelt függőségek frissítését indíthatja el.
Jegyzet
A kizárt táblák nem frissülnek, még akkor sem, ha egy hibás táblától függnek.
A sikertelen táblák frissítéséhez a Folyamat részletei lapon kattintson a Sikertelen táblák frissítéseelemre.
Csak a kijelölt sikertelen táblák frissítése:
Kattintson a
nyílára a Sikertelen táblák frissítése gomb mellett, majd kattintson a Frissítéshez kijelölendő táblákelemre. Megjelenik a Táblák kiválasztása frissítéshez párbeszédpanel.
A frissíteni kívánt táblák kijelöléséhez kattintson az egyes táblákra. A kijelölt táblák kiemelve és címkézve vannak. Ha el szeretne távolítani egy táblát a frissítésből, kattintson ismét a táblára.
Kattintson Kijelölés frissítése.
Jegyzet
Frissítés gomb megjeleníti zárójelben a kijelölt táblák számát.
A kijelölt táblákhoz már betöltött adatok újrafeldolgozásához kattintson a elemre a Frissítés gomb mellett, majd kattintson a Teljes frissítés kijelöléseelemre.
Folyamatok hibakeresése a táblák frissítésére való várakozás nélkül
Fontos
A DLT Validate
frissítési funkció nyilvános előzetesben.
Annak ellenőrzéséhez, hogy egy csővezeték forráskódja érvényes-e teljes frissítés futtatása nélkül, használja a Érvényesítés. A Validate
frissítés feloldja a folyamatban definiált adathalmazok és folyamatok definícióit, de nem hoz létre és nem tesz közzé adatkészleteket. Az ellenőrzés során észlelt hibák, például helytelen tábla- vagy oszlopnevek a felhasználói felületen jelennek meg.
Validate
frissítés futtatásához kattintson a elemre a folyamat részletei lapon, a Start mellett, majd kattintson az Ellenőrzés gombra.
A Validate
frissítés befejezése után az eseménynapló csak a Validate
frissítéshez kapcsolódó eseményeket jeleníti meg, és a DAG-ban nem jelennek meg metrikák. Ha hibát talál, a részletek az eseménynaplóban érhetők el.
Csak a legutóbbi Validate
frissítés eredményei láthatók. Ha a Validate
frissítés volt a legutóbb futtatott frissítés, az eredményeket a frissítési előzményekválasztásával megtekintheti. Ha a Validate
frissítés után egy másik frissítés fut, az eredmények már nem érhetők el a felhasználói felületen.
Fejlesztési és termelési üzemmódok
A folyamatok végrehajtását optimalizálhatja a fejlesztési és az éles üzemmódok közötti váltással. A pipeline-ok felhasználói felületén található gombjaival válthat a két mód között. Alapértelmezés szerint a folyamatok fejlesztési módban futnak.
Amikor fejlesztési módban futtatja a folyamatot, a DLT-rendszer a következőket teszi:
- Újrahasznosít egy fürtöt az újraindítások többletterhelésének elkerülése érdekében. Fejlesztési mód engedélyezése esetén a fürtök alapértelmezés szerint két órán át futnak. A
pipelines.clusterShutdown.delay
beállítással módosíthatja ezt a DLT-folyamat számításának konfigurálásában. - Letiltja a folyamat újrapróbálkozását, így azonnal észlelheti és kijavíthatja a hibákat.
Éles módban a DLT-rendszer a következőket teszi:
- Újraindítja a fürtöt bizonyos helyreállítható hibák esetén, beleértve a memóriaszivárgást és a lejárt hitelesítő adatokat.
- Újrapróbálkozza a végrehajtást adott hibák, például fürt indítása sikertelensége esetén.
Jegyzet
A fejlesztési és éles üzemmódok közötti váltás csak a fürt és a folyamatvégrehajtás viselkedését szabályozza. A katalógusban a közzétételi táblák tárolási helyeit és célsémáit a folyamatbeállítások részeként kell konfigurálni, és a módok közötti váltás nem érinti.