Strukturált streamelési fogalmak

Cikk
10/05/2024

Ez a cikk bemutatja a strukturált streamelést az Azure Databricksen.

Mi az a strukturált streamelés?

Az Apache Spark strukturált streamelés egy közel valós idejű feldolgozási motor, amely a már jól ismert Spark API-k használatával pontosan egyszeri feldolgozással biztosítja a végpontok közötti hibatűrést. A strukturált streamelés lehetővé teszi, hogy a streamelési adatok számítását ugyanúgy fejezze ki, mint a statikus adatok kötegelt számítását. A strukturált streamelési motor növekményesen végzi el a számítást, és folyamatosan frissíti az eredményt a streamelési adatok érkezésekor.

Olvasás adatfolyamból

A strukturált streamelés használatával növekményesen betöltheti az adatokat a támogatott adatforrásokból. A gyakori adatforrások a következők:

Adatfájlok a felhőobjektum-tárolóban. Lásd : Mi az automatikus betöltő?.
Üzenetbuszok és üzenetsorok. Lásd: Streamelési adatforrások konfigurálása.
Delta Lake. Lásd a Delta-tábla streamelési olvasásait és írásait.

Minden adatforrás számos lehetőséget kínál az adatkötegek betöltésének megadására. Az olvasókonfiguráció során előfordulhat, hogy a beállításokat a következők végrehajtásához kell konfigurálnia:

Adja meg az adatforrást vagy formátumot (például fájltípus, elválasztójelek és séma).
A forrásrendszerekhez való hozzáférés konfigurálása (például portbeállítások és hitelesítő adatok).
Adja meg, hogy hol kezdje a streamet (például Kafka eltolásokat vagy az összes meglévő fájl olvasását).
Szabályozhatja, hogy az egyes kötegek mennyi adatot dolgozzanak fel (például maximális eltolásokat, fájlokat vagy bájtokat kötegenként). Lásd: Strukturált streamelési kötegméret konfigurálása az Azure Databricksben.

Írás adatgyűjtőbe

Az adatgyűjtő egy streamelési írási művelet célja. Az Azure Databricks streamelési számítási feladataiban használt gyakori fogadók a következők:

Delta Lake
Üzenetbuszok és üzenetsorok
Kulcs-érték adatbázisok

Az adatforrásokhoz hasonlóan a legtöbb adatfoglaló számos lehetőséget kínál az adatok célrendszerbe való írásának szabályozására. Az írókonfiguráció során a következő beállításokat kell megadnia:

Kimeneti mód (alapértelmezés szerint hozzáfűzés). Lásd: Kimeneti mód kiválasztása strukturált streameléshez.
Ellenőrzőpont helye (minden íróhoz kötelező). Lásd: Strukturált streamelési ellenőrzőpontok.
Eseményindító időközei. Lásd: Strukturált streamelési eseményindítók időközeinek konfigurálása.
Az adatgyűjtőt vagy formátumot (például fájltípust, elválasztójeleket és sémát) megadó beállítások.
A célrendszerekhez való hozzáférést konfiguráló beállítások (például portbeállítások és hitelesítő adatok).

Megosztás a következőn keresztül:

Strukturált streamelési fogalmak

Mi az a strukturált streamelés?

Olvasás adatfolyamból

Írás adatgyűjtőbe

Visszajelzés

További források