Strukturált streamelési köteg méretének konfigurálása az Azure Databricksben
A strukturált streamelési lekérdezések bemeneti sebességének korlátozása segít fenntartani a köteg egységes méretét, és megakadályozza, hogy a nagy kötegek kiömlő és kaszkádolt mikroköteg-feldolgozási késésekhez vezessenek.
Az Azure Databricks ugyanazokat a lehetőségeket kínálja a strukturált streamelési kötegméretek szabályozására a Delta Lake és az Automatikus betöltő esetében is.
Bemeneti sebesség korlátozása a maxFilesPerTriggerrel
Az maxFilesPerTrigger
(vagy az automatikus betöltőhöz cloudFiles.maxFilesPerTrigger
) beállítás az egyes mikro kötegekben feldolgozott fájlok számának felső határát adja meg. A Delta Lake és az Automatikus betöltő esetében az alapértelmezett érték 1000. (Vegye figyelembe, hogy ez a beállítás más fájlforrások esetében is megtalálható az Apache Sparkban, ahol alapértelmezés szerint nincs maximális érték.)
Bemeneti sebesség korlátozása a maxBytesPerTriggerrel
Az maxBytesPerTrigger
(vagy az automatikus betöltőhöz cloudFiles.maxBytesPerTrigger
) beállítás "soft max" értéket állít be az egyes mikro kötegekben feldolgozott adatok mennyiségéhez. Ez azt jelenti, hogy egy köteg körülbelül ennyi adatot dolgoz fel, és a korlátnál többet is feldolgozhat annak érdekében, hogy a streamlekérdezés előrehaladjon olyan esetekben, amikor a legkisebb bemeneti egység nagyobb ennél a korlátnál. Ehhez a beállításhoz nincs alapértelmezett beállítás.
Ha például egy bájtsztringet ad meg, például 10g
, hogy az egyes mikrobatcheket 10 GB-ra korlátozza, és 3 GB-os fájlokkal rendelkezik, az Azure Databricks 12 GB-ot dolgoz fel egy mikrobatchben.
Több bemeneti sebesség együttes beállítása
Ha a maxBytesPerTrigger
-t a maxFilesPerTrigger
-gyel együtt használja, a mikrobatch addig dolgozza fel az adatokat, amíg el nem éri a maxFilesPerTrigger
vagy a maxBytesPerTrigger
alsó korlátját.
Más strukturált streamelési források bemeneti sebességének korlátozása
Az olyan streamelési források, mint az Apache Kafka, egyéni bemeneti korlátokkal rendelkeznek, például maxOffsetsPerTrigger
. További információ: Streamelési adatforrások konfigurálása.