A DLT-folyamatok fürtkihasználtságának optimalizálása továbbfejlesztett automatikus skálázással

Cikk
03/05/2025

Ez a cikk bemutatja, hogyan optimalizálhatja a DLT-folyamatokat az Azure Databricksben a továbbfejlesztett automatikus skálázás használatával.

A továbbfejlesztett automatikus skálázás alapértelmezés szerint engedélyezve van az összes új folyamat esetében.

Kiszolgáló nélküli folyamatok esetén a továbbfejlesztett automatikus skálázás mindig be van kapcsolva, és nem tiltható le. Lásd: Kiszolgáló nélküli DLT-folyamat konfigurálása.

Mi a továbbfejlesztett automatikus skálázás?

A Databricks továbbfejlesztett automatikus skálázása optimalizálja a fürthasználatot azáltal, hogy automatikusan kiosztja a fürterőforrásokat a terhelés nagysága alapján, miközben minimális hatást gyakorol a folyamatok adatfeldolgozási késési idejére.

A továbbfejlesztett automatikus skálázás az Azure Databricks fürt automatikus skálázási funkcióját az alábbi funkciókkal:

A továbbfejlesztett automatikus skálázás optimalizálja a streamelési munkaterheléseket, és a kötegelt munkaterhelések teljesítményét is tovább fokozza. A továbbfejlesztett automatikus skálázás optimalizálja a költségeket azáltal, hogy gépeket ad hozzá vagy távolít el a számítási feladat változásainak megfelelően.
A továbbfejlesztett automatikus skálázás proaktív módon leállítja az alulhasznált csomópontokat, miközben garantálja, hogy a leállítás során nincsenek sikertelen feladatok. A meglévő fürt automatikus skálázási funkciója akkor méretez le csomópontokat, ha a csomópont kihasználatlan.

A továbbfejlesztett automatikus skálázás az alapértelmezett automatikus skálázási mód, amikor új folyamatot hoz létre a DLT felhasználói felületén. A felhasználói felületen a folyamatbeállítások szerkesztésével engedélyezheti a bővített automatikus skálázást a meglévő folyamatokhoz. A továbbfejlesztett automatikus skálázást akkor is engedélyezheti, ha csővezetékeket hoz létre vagy szerkeszt a DLT API.

Mely metrikákat használja a fejlett automatikus skálázás a felskálázási vagy leskálázási döntés meghozatalához?

A továbbfejlesztett automatikus skálázás két metrikával dönt a vertikális felskálázásról vagy a leskálázásról:

Feladathely-kihasználás: Ez a foglalt feladathelyek átlagos aránya a fürt rendelkezésre állóösszes feladathelyhez képest.
Feladatsor mérete: Ez a feladat-tárolóhelyeken végrehajtandó feladatok száma.

Továbbfejlesztett automatikus skálázás engedélyezése DLT-folyamatokhoz

A továbbfejlesztett automatikus skálázás az alapértelmezett automatikus skálázási mód, amikor új folyamatot hoz létre a DLT felhasználói felületén. A felhasználói felületen a folyamatbeállítások szerkesztésével engedélyezheti a bővített automatikus skálázást a meglévő folyamatokhoz. A továbbfejlesztett automatikus skálázást akkor is engedélyezheti, ha a DLT API-val hoz létre vagy szerkeszt egy folyamatot.

A továbbfejlesztett automatikus skálázás használatához tegye az alábbiak egyikét:

Állítsa fürt módúTovábbfejlesztett automatikus skálázási, amikor létrehoz vagy szerkeszt egy folyamatot a DLT felhasználói felületén.
Adja hozzá a autoscale beállítást a folyamatfürt konfigurációhoz, és állítsa a mode mezőt ENHANCED-re. Lásd: Számítás konfigurálása DLT-folyamathoz.

A továbbfejlesztett automatikus skálázás éles folyamatokhoz való konfigurálásakor kövesse az alábbi irányelveket:

Hagyja meg a Min workers beállítást az alapértelmezett értéken.
Állítsa a Max workers beállítást a költségvetés és a folyamat prioritása szerinti értékre.

Az alábbi példa egy továbbfejlesztett automatikus skálázási fürtöt konfigurál legalább 5 feldolgozóval és legfeljebb 10 feldolgozóval. max_workers nagyobbnak vagy egyenlőnek kell lennie, mint min_workers.

Jegyzet

A továbbfejlesztett automatikus skálázás csak updates fürtök esetében érhető el. Régi automatikus skálázás használatos a maintenance fürtökhöz.
A autoscale konfiguráció két móddal rendelkezik:
- LEGACY: Használja a fürt automatikus skálázását.
- ENHANCED: Továbbfejlesztett automatikus skálázás használata.

{
  "clusters": [
    {
      "autoscale": {
        "min_workers": 5,
        "max_workers": 10,
        "mode": "ENHANCED"
      }
    }
  ]
}

Ha a folyamat folyamatos végrehajtásra van konfigurálva, az automatikus skálázási konfiguráció módosítása után a rendszer automatikusan újraindul. Újraindítás után rövid ideig nagyobb késésre számíthat. A megnövekedett késés rövid időszakát követően a fürt méretét frissíteni kell a autoscale konfiguráció alapján, és a folyamat késésének vissza kell térnie a korábbi késési jellemzőihez.

A továbbfejlesztett automatikus skálázást használó folyamatok költségeinek korlátozása

Jegyzet

Kiszolgáló nélküli folyamatokhoz nem konfigurálhat feldolgozókat.

A Maximális munkavállalók paraméter beállítása a folyamatok Számítási paneljén felső határt szab az automatikus skálázásnak. Az elérhető feldolgozók számának csökkentése növelheti bizonyos számítási feladatok késését, de megakadályozza a számítási erőforrások költségeinek kirobbanását a nagy számítási igényű műveletek során.

A Databricks azt javasolja, hogy a Maximális feldolgozók beállítások finomhangolásával kiegyensúlyozzuk az Ön igényeinek megfelelő költség- és késéskompromisszumot.

A Pipelines felhasználói felületén található Számítási panel, ahol beállíthatja a maximális feldolgozókat az automatikus skálázáshoz

A továbbfejlesztett automatikus skálázást engedélyező klasszikus folyamatok monitorozása

A DLT felhasználói felületén található eseménynaplóval figyelheti a klasszikus folyamatok továbbfejlesztett automatikus skálázási metrikáit. A továbbfejlesztett automatikus skálázási események autoscale eseménytípussal rendelkeznek. A következő példaesemények:

Esemény	Üzenet
Az klaszter átméretezési kérelem elindult.	`Scaling [up or down] to <y> executors from current cluster size of <x>`
A fürt átméretezésére vonatkozó kérés sikeres volt	`Achieved cluster size <x> for cluster <cluster-id> with status SUCCEEDED`
A fürt átméretezésére irányuló kérelem részben sikerült	`Achieved cluster size <x> for cluster <cluster-id> with status PARTIALLY_SUCCEEDED`
A fürt átméretezésére vonatkozó kérés nem sikerült	`Achieved cluster size <x> for cluster <cluster-id> with status FAILED`

A továbbfejlesztett automatikus skálázási eseményeket úgy is megtekintheti, hogy közvetlenül lekérdezi az eseménynaplót:

Ha le szeretné kérdezni az eseménynaplót a hátralékmetrikákról, tekintse meg Az adathátralék figyelése az eseménynaplólekérdezésével.
A fürt átméretezési kérelmeinek és válaszainak figyeléséhez továbbfejlesztett automatikus skálázási műveletek során, lásd: Bővített automatikus skálázási események monitorozása az eseménynaplóból azoknál a folyamatoknál, ahol nincs engedélyezve a kiszolgáló nélküli mód.

Megosztás a következőn keresztül: