Megosztás a következőn keresztül:


Strukturált streamelési fogalmak

Ez a cikk bemutatja a strukturált streamelést az Azure Databricksen.

Mi az a strukturált streamelés?

Az Apache Spark strukturált streamelés egy közel valós idejű feldolgozási motor, amely a már jól ismert Spark API-k használatával pontosan egyszeri feldolgozással biztosítja a végpontok közötti hibatűrést. A strukturált streamelés lehetővé teszi, hogy a streamelési adatok számítását ugyanúgy fejezze ki, mint a statikus adatok kötegelt számítását. A strukturált streamelési motor növekményesen végzi el a számítást, és folyamatosan frissíti az eredményt a streamelési adatok érkezésekor.

Olvasás adatfolyamból

A strukturált streamelés használatával növekményesen betöltheti az adatokat a támogatott adatforrásokból. A gyakori adatforrások a következők:

Minden adatforrás számos lehetőséget kínál az adatkötegek betöltésének megadására. Az olvasókonfiguráció során előfordulhat, hogy a beállításokat a következők végrehajtásához kell konfigurálnia:

  • Adja meg az adatforrást vagy formátumot (például fájltípus, elválasztójelek és séma).
  • A forrásrendszerekhez való hozzáférés konfigurálása (például portbeállítások és hitelesítő adatok).
  • Adja meg, hogy hol kezdje a streamet (például Kafka eltolásokat vagy az összes meglévő fájl olvasását).
  • Szabályozhatja, hogy az egyes kötegek mennyi adatot dolgozzanak fel (például maximális eltolásokat, fájlokat vagy bájtokat kötegenként). Lásd: Strukturált streamelési kötegméret konfigurálása az Azure Databricksben.

Írás adatgyűjtőbe

Az adatgyűjtő egy streamelési írási művelet célja. Az Azure Databricks streamelési számítási feladataiban használt gyakori fogadók a következők:

  • Delta Lake
  • Üzenetbuszok és üzenetsorok
  • Kulcs-érték adatbázisok

Az adatforrásokhoz hasonlóan a legtöbb adatfoglaló számos lehetőséget kínál az adatok célrendszerbe való írásának szabályozására. Az írókonfiguráció során a következő beállításokat kell megadnia: