Strukturált streamelési fogalmak
Ez a cikk bemutatja a strukturált streamelést az Azure Databricksen.
Mi az a strukturált streamelés?
Az Apache Spark strukturált streamelés egy közel valós idejű feldolgozási motor, amely a már jól ismert Spark API-k használatával pontosan egyszeri feldolgozással biztosítja a végpontok közötti hibatűrést. A strukturált streamelés lehetővé teszi, hogy a streamelési adatok számítását ugyanúgy fejezze ki, mint a statikus adatok kötegelt számítását. A strukturált streamelési motor növekményesen végzi el a számítást, és folyamatosan frissíti az eredményt a streamelési adatok érkezésekor.
Olvasás adatfolyamból
A strukturált streamelés használatával növekményesen betöltheti az adatokat a támogatott adatforrásokból. A gyakori adatforrások a következők:
- Adatfájlok a felhőobjektum-tárolóban. Lásd : Mi az automatikus betöltő?.
- Üzenetbuszok és üzenetsorok. Lásd: Streamelési adatforrások konfigurálása.
- Delta Lake. Lásd a Delta-tábla streamelési olvasásait és írásait.
Minden adatforrás számos lehetőséget kínál az adatkötegek betöltésének megadására. Az olvasókonfiguráció során előfordulhat, hogy a beállításokat a következők végrehajtásához kell konfigurálnia:
- Adja meg az adatforrást vagy formátumot (például fájltípus, elválasztójelek és séma).
- A forrásrendszerekhez való hozzáférés konfigurálása (például portbeállítások és hitelesítő adatok).
- Adja meg, hogy hol kezdje a streamet (például Kafka eltolásokat vagy az összes meglévő fájl olvasását).
- Szabályozhatja, hogy az egyes kötegek mennyi adatot dolgozzanak fel (például maximális eltolásokat, fájlokat vagy bájtokat kötegenként). Lásd: Strukturált streamelési kötegméret konfigurálása az Azure Databricksben.
Írás adatgyűjtőbe
Az adatgyűjtő egy streamelési írási művelet célja. Az Azure Databricks streamelési számítási feladataiban használt gyakori fogadók a következők:
- Delta Lake
- Üzenetbuszok és üzenetsorok
- Kulcs-érték adatbázisok
Az adatforrásokhoz hasonlóan a legtöbb adatfoglaló számos lehetőséget kínál az adatok célrendszerbe való írásának szabályozására. Az írókonfiguráció során a következő beállításokat kell megadnia:
- Kimeneti mód (alapértelmezés szerint hozzáfűzés). Lásd: Kimeneti mód kiválasztása strukturált streameléshez.
- Ellenőrzőpont helye (minden íróhoz kötelező). Lásd: Strukturált streamelési ellenőrzőpontok.
- Eseményindító időközei. Lásd: Strukturált streamelési eseményindítók időközeinek konfigurálása.
- Az adatgyűjtőt vagy formátumot (például fájltípust, elválasztójeleket és sémát) megadó beállítások.
- A célrendszerekhez való hozzáférést konfiguráló beállítások (például portbeállítások és hitelesítő adatok).