Számítási konfigurációs referencia
Feljegyzés
A cikk szervezete feltételezi, hogy az egyszerű űrlap számítási felhasználói felületét használja. Az egyszerű űrlap módosításainak áttekintéséért lásd: Az egyszerű űrlap használatával kezelje a számítási feladatokat.
Ez a cikk az új teljes célú vagy feladat-számítási erőforrás létrehozásakor elérhető konfigurációs beállításokat ismerteti. A felhasználók többsége a hozzárendelt szabályzatok használatával hoz létre számítási erőforrásokat, ami korlátozza a konfigurálható beállításokat. Ha nem lát egy adott beállítást a felhasználói felületen, az azért van, mert a kiválasztott szabályzat nem teszi lehetővé a beállítás konfigurálását.
A cikkben ismertetett konfigurációk és felügyeleti eszközök mind a teljes körű, mind a feladatalapú számításra érvényesek. A feladat-számítás konfigurálásával kapcsolatos további szempontokért lásd : Számítási feladatok számításának konfigurálása.
Új, teljes körű számítási erőforrás létrehozása
Új, teljes célú számítási erőforrás létrehozása:
- A munkaterület oldalsávjában kattintson a Számítás gombra.
- Kattintson a Számítás létrehozása gombra.
- Konfigurálja a számítási erőforrást.
- Kattintson a gombralétrehozásához.
Az új számítási erőforrás automatikusan elindul, és hamarosan használatra kész lesz.
számítási szabályzat
A szabályzatok olyan szabályok, amelyek a számítási erőforrások létrehozásakor a felhasználók számára elérhető konfigurációs beállítások korlátozására szolgálnak. Ha egy felhasználó nem rendelkezik a korlátlan fürtlétrehozás jogosultságával, akkor csak a megadott szabályzatok használatával hozhat létre számítási erőforrásokat.
Ha szabályzat szerint szeretne számítási erőforrásokat létrehozni, válasszon egy szabályzatot a Házirend legördülő menüből.
Alapértelmezés szerint minden felhasználó rendelkezik hozzáféréssel a személyes számítási szabályzathoz, amely lehetővé teszi számukra az egygépes számítási erőforrások létrehozását. Ha hozzá kell férnie a Személyes számításhoz vagy bármilyen további szabályzathoz, forduljon a munkaterület rendszergazdájához.
Teljesítménybeállítások
Az alábbi beállítások az egyszerű űrlap számítási felhasználói felületének Teljesítmény szakaszában jelennek meg:
- Databricks Runtime-verziók
- Foton gyorsítás használata
- feldolgozó csomóponttípus
- egyszerű csomópontú számítási erőforrás
- Automatikus skálázás engedélyezése
- Speciális teljesítménybeállítások
Databricks Runtime-verziók
A Databricks Runtime a számításon futó alapvető összetevők halmaza. Válassza ki a futtatókörnyezetet a Databricks Runtime Version legördülő menüben. A Databricks Runtime egyes verzióival kapcsolatos részletekért lásd a Databricks Runtime kibocsátási megjegyzéseinek verzióit és kompatibilitását. Minden verzió tartalmazza az Apache Sparkot. A Databricks a következőket javasolja:
- A teljes körű számításhoz használja a legújabb verziót, hogy biztosítsa a legújabb optimalizálást és a kód és az előre betöltött csomagok közötti legújabb kompatibilitást.
- Az operatív számítási feladatokat futtató feladatokhoz érdemes lehet a Databricks Futtatókörnyezet hosszú távú támogatási (LTS) verzióját használni. Az LTS-verzió használata biztosítja, hogy ne fusson kompatibilitási problémákba, és a frissítés előtt alaposan tesztelje a számítási feladatokat.
- Adatelemzési és gépi tanulási használati esetek esetén fontolja meg a Databricks Runtime ML-verziót.
Photon-gyorsítás használata
A Photon alapértelmezés szerint engedélyezve van a Databricks Runtime 9.1 LTS-t vagy újabb verziót futtató számításnál.
A fotongyorsítás engedélyezéséhez vagy letiltásához jelölje be a Foton-gyorsítás használata jelölőnégyzetet. A Photonről további információt a Mi a Photon? című témakörben talál.
munkavégző csomópont típus
A számítási erőforrás egy illesztőcsomópontból és nulla vagy több feldolgozó csomópontból áll. Az illesztőprogram- és feldolgozócsomópontokhoz külön felhőszolgáltatói példánytípusokat választhat, de alapértelmezés szerint az illesztőprogram-csomópont ugyanazt a példánytípust használja, mint a feldolgozó csomópont. A vezérlő csomópont beállítása a Speciális teljesítmény szakasz alatt található.
A példánytípusok különböző családjai különböző használati esetekhez passzolnak, például memóriaigényes vagy számítás-intenzív feladatokhoz. Kiválaszthatja azt a készletet is, amelyet feldolgozóként vagy illesztőprogram-csomópontként szeretne használni.
Fontos
Ne használjon olyan készletet, amely spot példányokkal rendelkezik illesztőprogram típusként. Válasszon egy kérésre elérhető illesztőprogramtípust, hogy megakadályozza az illesztőprogram visszavonását. Lásd Csatlakozás medencékhez.
A többcsomópontos számításban a feldolgozó csomópontok futtatják a Spark-végrehajtókat és a megfelelően működő számítási erőforráshoz szükséges egyéb szolgáltatásokat. Ha a Sparkkal osztja el a számítási feladatokat, az elosztott feldolgozás teljes egészében a munkavégző csomópontokon történik. Az Azure Databricks egy végrehajtót futtat munkavégző csomópontonként. Ezért a végrehajtó és a feldolgozó kifejezések felcserélhetők a Databricks-architektúra kontextusában.
Tipp.
Spark-feladat futtatásához legalább egy munkavégző csomópontra van szükség. Ha a számítási erőforrás nulla feldolgozóval rendelkezik, futtathat nem Spark-parancsokat az illesztőprogram-csomóponton, de a Spark-parancsok sikertelenek lesznek.
Feldolgozó csomópont IP-címei
Az Azure Databricks két privát IP-címmel indít el feldolgozó csomópontokat. A csomópont elsődleges privát IP-címe az Azure Databricks belső forgalmát üzemelteti. A másodlagos privát IP-címet a Spark-tároló használja a fürtön belüli kommunikációhoz. Ez a modell lehetővé teszi, hogy az Azure Databricks elkülönítést biztosítson több számítási erőforrás között ugyanazon a munkaterületen.
GPU-példánytípusok
A nagy teljesítményt igénylő számítási feladatokhoz, például a mélytanuláshoz kapcsolódó feladatok esetében az Azure Databricks támogatja a grafikus feldolgozási egységek (GPU-k) által felgyorsított számítási erőforrásokat. További információ: GPU-kompatibilis számítás.
Azure-beli bizalmas számítási virtuális gépek
Az Azure bizalmas számítási virtuálisgép-típusai megakadályozzák az adatokhoz való jogosulatlan hozzáférést használat közben, beleértve a felhőszolgáltatót is. Ez a virtuálisgép-típus előnyös a szigorúan szabályozott iparágak és régiók, valamint a felhőben bizalmas adatokkal rendelkező vállalkozások számára. Az Azure bizalmas számítástechnikáról további információt az Azure bizalmas számítástechnikája című témakörben talál.
Ha azure-beli bizalmas számítási virtuális gépek használatával szeretné futtatni a számítási feladatokat, válassza ki a DC vagy EC sorozatú virtuálisgép-típusok közül a feldolgozó és az illesztőprogram csomópontjának legördülő listájában. Tekintse meg az Azure Confidential virtuálisgép-beállításokat.
egycsomópontos számítás
Az egycsomópontos jelölőnégyzet lehetővé teszi egyetlen csomópont számítási erőforrás létrehozását.
Az egycsomópontos számítás olyan feladatokhoz készült, amelyek kis mennyiségű adatot vagy nem elosztott számítási feladatot, például egycsomópontos gépi tanulási kódtárakat használnak. A többcsomópontos számítást elosztott számítási feladatokkal rendelkező nagyobb feladatokhoz kell használni.
Egycsomópont tulajdonságai
Egyetlen csomópont számítási erőforrása a következő tulajdonságokkal rendelkezik:
- Helyileg futtatja a Sparkot.
- Az illesztőprogram főként és feldolgozóként is működik, munkavégző csomópontok nélkül.
- Logikai magonként egy végrehajtószálat hoz ki a számítási erőforrásban, mínusz 1 magot az illesztőprogramhoz.
- Menti az összes
stderr
,stdout
, éslog4j
naplókimenetet az illesztőprogram-naplóban. - Nem konvertálható többcsomópontos számítási erőforrássá.
Egy vagy több csomópont kijelölése
Fontolja meg a használati esetet az egy- vagy többcsomópontos számítás kiválasztásakor:
A nagy léptékű adatfeldolgozás kimeríti az erőforrásokat egyetlen csomópont számítási erőforrásán. Ezekhez a számítási feladatokhoz a Databricks többcsomópontos számítás használatát javasolja.
Az egycsomópontos számítás nem osztható meg. Az erőforrásütközések elkerülése érdekében a Databricks többcsomópontos számítási erőforrás használatát javasolja, amikor meg kell osztani a számítást.
A többcsomópontos számítási erőforrás nem skálázható 0 feldolgozóra. Használjon inkább egycsomópontos számítást.
Az egycsomópontos számítás nem kompatibilis a folyamatelkülönítéssel.
A GPU-ütemezés nincs engedélyezve egyetlen csomópontos számításban.
Egycsomópontos számításkor a Spark nem tudja olvasni az UDT oszlopot tartalmazó Parquet-fájlokat. A következő hibaüzenet eredménye:
The Spark driver has stopped unexpectedly and is restarting. Your notebook will be automatically reattached.
A probléma megoldásához tiltsa le a natív Parquet-olvasót:
spark.conf.set("spark.databricks.io.parquet.nativeReader.enabled", False)
Automatikus skálázás engedélyezése
Ha az automatikus skálázás engedélyezése be van jelölve, megadhat egy minimális és maximális számú feldolgozót a számítási erőforráshoz. A Databricks ezután kiválasztja a feladat futtatásához szükséges feldolgozók számát.
A számítási erőforrás által automatikusan skálázandó feldolgozók minimális és maximális számának beállításához használja a Minimális és Maximális mezőket a Feldolgozó típusa legördülő lista mellett.
Ha nem engedélyezi az automatikus skálázást, rögzített számú feldolgozót kell megadnia a Feldolgozó típus legördülő lista Melletti Feldolgozók mezőben.
Feljegyzés
Amikor a számítási erőforrás fut, a számítási részletek lapja megjeleníti a rendelkezésre álló dolgozók számát. Összehasonlíthatja a kiosztott munkások számát a munkáskonfigurációval, és szükség esetén módosíthatja azt.
Az automatikus skálázás előnyei
Az automatikus skálázással az Azure Databricks dinamikusan újratelepíti a dolgozókat, hogy figyelembe vegyék a feladat jellemzőit. Előfordulhat, hogy a folyamat bizonyos részei számításilag nagyobb terhelést igényelnek, mint mások, és a Databricks automatikusan további feldolgozókat ad hozzá a feladat ezen fázisai során (és eltávolítja őket, ha már nincs rájuk szükség).
Az automatikus skálázás megkönnyíti a magas kihasználtság elérését, mivel nem kell erőforrásokat biztosítania a terheléshez megfelelően. Ez különösen azokra a számítási feladatokra vonatkozik, amelyek követelményei idővel változnak (például egy adathalmaz felfedezése egy nap során), de olyan egyszeri, rövidebb számítási feladatokra is alkalmazható, amelyek kiépítési követelményei ismeretlenek. Az automatikus skálázás így két előnyt kínál:
- A számítási feladatok gyorsabban futhatnak egy állandó méretű, nem kiépített számítási erőforráshoz képest.
- Az automatikus skálázás csökkentheti az általános költségeket egy statikus méretű számítási erőforráshoz képest.
A számítási erőforrás és a számítási feladat állandó méretétől függően az automatikus skálázás egyszerre nyújt egy vagy mindkét előnyt. A számítási méret alacsonyabb lehet a felhőszolgáltató által kiválasztott minimális számú munkásnál, ha a felhőszolgáltató leállítja a példányokat. Ebben az esetben az Azure Databricks folyamatosan újrapróbálkozik a példányok újbóli létrehozásával a minimális munkavégzők számának fenntartása érdekében.
Feljegyzés
Az automatikus skálázás nem érhető el spark-submit
feladatokhoz.
Feljegyzés
A számítási teljesítmény automatikus skálázása korlátozott a strukturált streamelési munkaterhelések esetében a fürtméret csökkentésében. A Databricks a DLT használatát javasolja továbbfejlesztett automatikus skálázással a streamelési számítási feladatokhoz. Lásd: A DLT-folyamatok fürtkihasználtságának optimalizálása továbbfejlesztett automatikus skálázással.
Az automatikus skálázás viselkedése
A Prémium csomag munkaterülete optimalizált automatikus skálázást használ. A standard tarifacsomag munkaterületei szabványos automatikus skálázást használnak.
Az optimalizált automatikus skálázás a következő jellemzőkkel rendelkezik:
- 2 lépésben felskálázható a minimálistól a maximumig.
- Leskálázható, még akkor is, ha a számítási erőforrás nem tétlen, az shuffle fájl állapotát vizsgálva.
- Az aktuális csomópontok százalékos aránya alapján lefelé skálázható.
- A számítási feladat során csökkenthető a kapacitás, ha az elmúlt 40 másodpercben nem volt teljesen kihasználva az erőforrás.
- Minden célú számítás esetén leskálázható, ha a számítási erőforrás kihasználatlan az elmúlt 150 másodpercben.
- A
spark.databricks.aggressiveWindowDownS
Spark konfigurációs tulajdonság másodpercek alatt megadja, hogy a számítás milyen gyakran hoz leskálázási döntéseket. Az érték növelésével a számítás lassabban skálázható le. A maximális érték 600.
Standard automatikus skálázást használnak a standard csomag-munkaterületeken. A standard automatikus skálázás a következő jellemzőkkel rendelkezik:
- Első lépésként adjon hozzá 8 csomópontot. Ezután exponenciálisan felskáláz, és a maximális érték eléréséhez annyi lépést tesz meg, amennyi szükséges.
- Amikor a csomópontok 90%-a nem foglalt 10 percig, és a számítás legalább 30 másodpercig tétlen, a rendszer leskálázza magát.
- Exponenciálisan lefelé skáláz, 1 csomóponttal kezdve.
Automatikus skálázás erőforráskészletekkel
Ha a számítási erőforrást egy készlethez csatolja, vegye figyelembe a következőket:
- Győződjön meg arról, hogy a kért számítási méret kisebb vagy egyenlő a készletben lévő üresjárati példányok minimális számával. Ha nagyobb, akkor a számítási indítási idő megegyezik majd a készletet nem használó számítással.
- Győződjön meg arról, hogy a maximális számítási méret kisebb vagy egyenlő a készlet maximális kapacitásával . Ha nagyobb, a számítás létrehozása sikertelen lesz.
Automatikus skálázási példa
Ha újrakonfigurál egy statikus számítási erőforrást az automatikus skálázáshoz, az Azure Databricks azonnal átméretezi a számítási erőforrást a minimális és maximális korlátokon belül, majd elindítja az automatikus skálázást. Az alábbi táblázat például bemutatja, hogy mi történik egy bizonyos kezdeti méretű számítási erőforrással, ha újrakonfigurálja a számítási erőforrást 5 és 10 csomópont közötti automatikus skálázásra.
Kezdeti méret | Újrakonfigurálás utáni méret |
---|---|
6 | 6 |
12 | 10 |
3 | 5 |
Speciális teljesítménybeállítások
Az alábbi beállítás a Speciális teljesítmény szakaszban jelenik meg az egyszerű űrlap számítási felhasználói felületén.
Kihasználatlan példányok
A Speciális teljesítményterületen a Spot példány használata jelölőnégyzet bejelölésével megadhatja, hogy spot példányokat kíván-e használni. Lásd a AWS piaci árazás .
Kihasználatlan példányok
A költségek megtakarítása érdekében választhatja a kihasználatlan példányok használatát, más néven Azure Spot virtuális gépeket azáltal, hogy bejelöli a Kihasználatlan példányok jelölőnégyzetet.
Az első példány mindig igény szerinti lesz (a vezető csomópont mindig igény szerint működik), a későbbi példányok pedig időleges példányok lesznek.
Ha a példányok elérhetetlenség miatt eltávolításra kerülnek, az Azure Databricks megkísérli új spot példányok beszerzését a eltávolított példányok lecseréléséhez. Ha az előre nem kötött példányok nem szerezhetők be, a rendszer igény szerinti példányokat helyez üzembe a kilakoltatott példányok helyére. Az igény szerinti visszaállítás csak a teljes mértékben beszerzett és futó spot példányok esetében támogatott. A telepítés során sikertelen példányok nem lesznek automatikusan lecserélve.
Emellett, ha új csomópontokat adnak hozzá a meglévő számítási erőforrásokhoz, az Azure Databricks megpróbál spot példányokat szerezni a csomópontokhoz.
Automatikus leállítás
A számítás automatikus leállítását a Speciális teljesítmény szakaszban állíthatja be. A számítás létrehozása során adjon meg percek alatt egy inaktivitási időszakot, amely után le szeretné állítani a számítási erőforrást.
Ha a számítási erőforráson az aktuális idő és az utolsó parancs futtatása közötti különbség nagyobb, mint a megadott inaktivitási időszak, az Azure Databricks automatikusan leállítja a számítást. erőforrás A számítási leállásra vonatkozó további információkért tekintse meg a számítás leállítása című témakört.
Illesztőprogram típusa
Az illesztőprogram típusát a Speciális teljesítmény szakaszban választhatja ki. Az illesztőprogram-csomópont fenntartja a számítási erőforráshoz csatolt összes jegyzetfüzet állapotadatait. Az illesztőprogram-csomópont emellett fenntartja a SparkContextet, értelmezi a számítási erőforrás jegyzetfüzetéből vagy tárából futtatott összes parancsot, és futtatja a Spark-végrehajtókkal koordinált Apache Spark-főkiszolgálót.
Az illesztőcsomópont típusának alapértelmezett értéke megegyezik a munkavégző csomópont típusáéval. Nagyobb, több memóriával rendelkező illesztőprogram-csomóponttípust is választhat, ha a Spark-feldolgozóktól származó adatok nagy részét tervezi elemezni collect()
a jegyzetfüzetben.
Tipp.
Mivel az illesztőprogram-csomópont megőrzi a csatolt jegyzetfüzetek összes állapotinformációját, mindenképpen válassza le a nem használt jegyzetfüzeteket az illesztőprogram-csomópontról.
Címkék
A címkék lehetővé teszik a szervezet különböző csoportjai által használt számítási erőforrások költségeinek egyszerű monitorozását. Adja meg a címkéket kulcs-érték párként a számítás létrehozásakor, és az Azure Databricks ezeket a címkéket a felhőbeli erőforrásokra, például virtuális gépekre és lemezkötetekre, valamint DBU-használati jelentésekre alkalmazza.
Készletekből indított számítás esetén az egyéni címkék csak a DBU használati jelentéseire lesznek alkalmazva, és nem propagálódnak a felhőbeli erőforrásokra.
A pool- és számítási címke típusok közös használatáról további információért lásd: Attribútumhasználat címkék segítségével
Címkék hozzáadása a számítási erőforráshoz:
- A Címkék szakaszban adjon hozzá egy kulcs-érték párot az egyes egyéni címkékhez.
- Kattintson a Hozzáadás gombra.
Speciális beállítások
Az alábbi beállítások az egyszerű űrlap számítási felhasználói felületének Speciális szakaszában jelennek meg:
- Hozzáférési módok
- Helyi tároló automatikus skálázásának engedélyezése
- helyi lemeztitkosítás
- Spark-konfiguráció
- SSH-hozzáférés a számítási erőforráshoz
- környezeti változók
- Számítási naplók kézbesítése
Hozzáférési módok
A hozzáférési mód egy biztonsági funkció, amely meghatározza, hogy ki használhatja a számítási erőforrást, és milyen adatokhoz férhet hozzá annak segítségével. Az Azure Databricks minden számítási erőforrása rendelkezik hozzáférési móddal. A hozzáférési mód beállításai az egyszerű űrlap számítási felhasználói felületének Speciális szakaszában találhatók.
A hozzáférési mód kiválasztása alapértelmezés szerint Automatikus, ami azt jelenti, hogy a rendszer automatikusan kiválasztja a hozzáférési módot a kiválasztott Databricks-futtatókörnyezet alapján. A gépi tanulási futtatókörnyezetek és a Databricks futtatókörnyezetek alapértelmezés szerint a dedikált
A Databricks azt javasolja, hogy minden számítási feladathoz használjon standard hozzáférési módot. Csak akkor használjon dedikált hozzáférési módot, ha a standard hozzáférési mód nem támogatja a szükséges funkciókat.
Hozzáférési mód | Látható a felhasználó számára | UC-támogatás | Támogatott nyelvek | Jegyzetek |
---|---|---|---|---|
Dedikált (korábban egyfelhasználós) | Mindig | Igen | Python, SQL, Scala, R | Egyetlen felhasználóhoz vagy csoporthoz rendelhető hozzá és használhatja. |
Standard (korábban megosztott) | Mindig | Igen | Python, SQL, Scala (Unity Catalog-kompatibilis számítás a Databricks Runtime 13.3 LTS és újabb használatával) | Több felhasználó is használhatja a felhasználók közötti adatelkülönítéssel. |
Az egyes hozzáférési módok funkcióinak támogatásával kapcsolatos részletes információkért lásd a Unity Catalogszámítási hozzáférési módra vonatkozó korlátozásait.
Feljegyzés
A Databricks Runtime 13.3 LTS-ben és újabb verziókban az init szkripteket és kódtárakat minden hozzáférési mód támogatja. A követelmények és a támogatási szintek eltérőek. Lásd Hol telepíthetők init szkriptek? és számítási hatókörű kódtárak.
Helyi tároló automatikus skálázásának engedélyezése
Gyakran nehéz megbecsülni, hogy egy adott feladat mennyi lemezterületet fog igénybe venni. Az Azure Databricks automatikusan engedélyezi a helyi tároló automatikus skálázását az összes Azure Databricks-számításon, hogy ne kelljen megbecsülnie, hogy hány gigabájtnyi felügyelt lemezt csatoljon a számításhoz a létrehozáskor.
A helyi tároló automatikus skálázásával az Azure Databricks figyeli a számítási Spark-feldolgozókon rendelkezésre álló szabad lemezterület mennyiségét. Ha egy feldolgozó túl alacsonyan kezd futni a lemezen, a Databricks automatikusan csatol egy új felügyelt lemezt a feldolgozóhoz, mielőtt elfogyna a lemezterület. Egy virtuális géphez legfeljebb 5 TB összes lemezterület csatolható, beleértve a virtuális gép kezdeti helyi tárolóját is.
A virtuális géphez csatlakoztatott felügyelt lemezek csak akkor lesznek leválasztva, ha a virtuális gép visszakerül az Azure-ba. Ez azt jelzi, hogy a felügyelt lemezek soha nem lesznek leválasztva a virtuális gépekről, amíg egy futó számítás részét képezik. A felügyelt lemezek használatának leskálázásához az Azure Databricks azt javasolja, hogy használja ezt a funkciót az autoscaling compute vagy automatikus leállítás konfigurációval ellátott számításban.
Helyi lemeztitkosítás
Fontos
Ez a funkció a nyilvános előzetes verzióban érhető el.
A számítás futtatásához használt példánytípusok némelyike helyileg csatlakoztatott lemezekkel rendelkezhet. Az Azure Databricks ezeken a helyileg csatlakoztatott lemezeken shuffle adatokat vagy átmeneti adatokat tárolhat. Annak érdekében, hogy minden inaktív adat titkosítva legyen minden tárolási típushoz, beleértve az ideiglenesen a számítási erőforrás helyi lemezén tárolt shuffle adatokat is, engedélyezheti a helyi lemeztitkosítást.
Fontos
A számítási feladatok lassabban futhatnak a teljesítményre gyakorolt hatás miatt, amit a titkosított adatok helyi kötetekbe történő olvasása és írása okoz.
Ha engedélyezve van a helyi lemeztitkosítás, az Azure Databricks helyileg létrehoz egy, az egyes számítási csomópontokra egyedi titkosítási kulcsot, amely a helyi lemezeken tárolt összes adat titkosítására szolgál. A kulcs hatóköre minden számítási csomóponton helyi, és a számítási csomóponttal együtt megsemmisül. A kulcs az élettartama során a memóriában található a titkosításhoz és a visszafejtéshez, és titkosítva tárolja a lemezen.
A helyi lemeztitkosítás engedélyezéséhez a Clusters API-t kell használnia. A számítás létrehozása vagy szerkesztése során állítsa enable_local_disk_encryption
true
értékre.
Spark-konfiguráció
A Spark-feladatok finomhangolásához egyéni Spark-konfigurációs tulajdonságokat is megadhat.
A számítási konfigurációs lapon kattintson a Speciális kapcsolóra.
Kattintson a Spark fülre.
A Spark-konfigurációban soronként egy kulcs-érték párként adja meg a konfigurációs tulajdonságokat.
Ha számítást a fürtök API-ja használatával konfigurálja, állítsa be a Spark tulajdonságokat a spark_conf
mezőben a fürt létrehozási API vagy a fürt frissítési API használatakor.
A Spark-konfigurációk számítási kényszerítéséhez a munkaterület rendszergazdái számítási szabályzatokat használhatnak.
Spark-konfigurációs tulajdonság lekérése titkos kódból
A Databricks azt javasolja, hogy az egyszerű szöveg helyett titkos kódban tárolja a bizalmas információkat, például a jelszavakat. Ha egy titkos kódra szeretne hivatkozni a Spark-konfigurációban, használja a következő szintaxist:
spark.<property-name> {{secrets/<scope-name>/<secret-name>}}
Ha például egy password
nevű Spark-konfigurációs tulajdonságot szeretne beállítani a secrets/acme_app/password
tárolt titkos kód értékére:
spark.password {{secrets/acme-app/password}}
További információ: Titkos kódok kezelése.
SSH-hozzáférés a számításhoz
Biztonsági okokból az Azure Databricksben az SSH-port alapértelmezés szerint bezárul. Ha engedélyezni szeretné az SSH-hozzáférést a Spark-fürtökhöz, nézze meg az SSH-t a vezető csomóponthoz.
Feljegyzés
Az SSH csak akkor engedélyezhető, ha a munkaterület a saját Azure-beli virtuális hálózatában van üzembe helyezve.
Környezeti változók
Konfigurálja a számítási erőforráson futó init-szkriptekből elérhető egyéni környezeti változókat . A Databricks előre definiált környezeti változókat is biztosít, amelyeket init-szkriptekben használhat. Ezeket az előre definiált környezeti változókat nem lehet felülbírálni.
A számítási konfigurációs lapon kattintson a Speciális kapcsolóra.
Kattintson a Spark fülre.
Állítsa be a környezeti változókat a Környezeti változók mezőben.
Környezeti változókat a spark_env_vars
mező használatával a Fürt létrehozása API-ben vagy a Fürt frissítése API-ban is beállíthatja.
Számítási naplók kézbesítése
Számítás létrehozásakor megadhatja a Spark-illesztő csomópont, a feldolgozó csomópontok és események naplóinak kézbesítési helyét. A naplókat öt percenként kézbesítjük, és óránként archiváljuk a kiválasztott célhelyen. A számítási erőforrás leállásakor az Azure Databricks garantálja, hogy a számítási erőforrás leállításáig generált összes naplót kézbesíti.
A naplók célja a számítási erőforrásétól cluster_id
függ. Ha a megadott cél az dbfs:/cluster-log-delivery
, akkor a számítási naplók kézbesítése 0630-191345-leap375
a dbfs:/cluster-log-delivery/0630-191345-leap375
helyre történik.
A naplók kézbesítési helyének konfigurálása:
- A számítási lapon kattintson a Speciális kapcsolóra.
- Kattintson a Naplózás fülre.
- Válasszon egy céltípust.
- Adja meg a számítási napló elérési útját.
Feljegyzés
Ez a funkció a REST API-ban is elérhető. Tekintse meg a Clusters API-t.