Azure Databricks Scala-fejlesztőknek

Cikk
02/04/2025

Ez a cikk útmutatót nyújt a jegyzetfüzetek és feladatok Azure Databricksben való fejlesztéséhez a Scala nyelv használatával. Az első szakasz a gyakori munkafolyamatok és feladatok oktatóanyagaira mutató hivatkozásokat tartalmaz. A második szakasz api-kra, kódtárakra és kulcseszközökre mutató hivatkozásokat tartalmaz.

Az első lépések alapvető munkafolyamata a következő:

Kód importálása és futtatása interaktív Databricks-jegyzetfüzet használatával: Importálja a saját kódját a fájlokból vagy a Git-adattárakból, vagy próbálkozzon az alábbi oktatóanyagokkal.
Futtassa a kódot egy fürtön: Hozzon létre egy saját fürtöt, vagy győződjön meg arról, hogy rendelkezik megosztott fürt használatára vonatkozó engedélyekkel. Csatolja a jegyzetfüzetet a fürthöz, és futtassa a jegyzetfüzetet.

Ezen kívül konkrétabb témakörökre is bonthatja a műveletet:

Nagyobb adatkészletek használata az Apache Spark használatával
Vizualizációk hozzáadása
A számítási feladat automatizálása feladatként
Fejlesztés IDE-kben

Oktatóanyagok

Az alábbi oktatóanyagok példakódot és jegyzetfüzeteket nyújtanak a gyakori munkafolyamatok megismeréséhez. A jegyzetfüzetek a munkaterületre való importálásával kapcsolatos útmutatásért lásd : Jegyzetfüzet importálása.

Oktatóanyag: Adatok betöltése és átalakítása Az Apache Spark DataFrame-ek használatával
Oktatóanyag: A Delta Lake Scala-példákat kínál.
Az XGBoost használata az Azure Databricksben egy Scala-példát kínál.

Referencia

Az alábbi alszakaszok felsorolják a főbb funkciókat és tippeket, amelyekkel megkezdheti a fejlesztést az Azure Databricksben a Scalával.

Scala API

Ezek a hivatkozások bemutatja és ismertetik az Apache Spark Scala API-t.

Kód kezelése jegyzetfüzetekkel és Databricks Git-mappákkal

A Databricks-jegyzetfüzetek támogatják a Scalát. Ezek a jegyzetfüzetek a Jupyterhez hasonló funkciókat biztosítanak, de olyan kiegészítésekkel, mint a big data-ot használó beépített vizualizációk, a hibakereséshez és a teljesítményfigyeléshez használható Apache Spark-integrációk, valamint a gépi tanulási kísérletek nyomon követésére szolgáló MLflow-integrációk. Kezdje azzal, hogy importál egy jegyzetfüzetet. Miután hozzáfér egy fürthöz, csatolhat egy jegyzetfüzetet a fürthöz, és futtathatja a jegyzetfüzetet.

Tipp.

A jegyzetfüzet állapotának visszaállításához indítsa újra a kernelt. Jupyter-felhasználók esetén a Jupyter "újraindítási kernel" lehetősége megfelel egy jegyzetfüzet leválasztásának és újracsatlakoztatásának a Databricksben. Ha újra szeretné indítani a kernelt egy jegyzetfüzetben, kattintson a számítási választóra a jegyzetfüzet eszköztárában, és mutasson a csatolt fürtre vagy SQL Warehouse-ra a listában egy oldalsó menü megjelenítéséhez. Válassza a Leválasztás & újbóli csatoláslehetőséget. Ez leválasztja a jegyzetfüzetet a fürtről, és újracsatlakoztatja, ami újraindítja a folyamatot.

A Databricks Git-mappák lehetővé teszik a felhasználók számára, hogy szinkronizálják a jegyzetfüzeteket és más fájlokat a Git-adattárakkal. A Databricks Git-mappák segítenek a kód verziószámozásában és együttműködésében, és egyszerűbbé teheti a kód teljes tárházának importálását az Azure Databricksbe, megtekintheti a korábbi jegyzetfüzet-verziókat, és integrálható az IDE-fejlesztéssel. Első lépésként távoli Git-adattárklónozását. Ezután megnyithatja vagy létrehozhat jegyzetfüzeteket az adattár klónozásával, csatolhatja a jegyzetfüzetet egy fürthöz, és futtathatja a jegyzetfüzetet.

Fürtök és kódtárak

Az Azure Databricks Compute bármilyen méretű fürthöz biztosít számításkezelést: az egycsomópontos fürtöktől kezdve a nagy fürtökig. Igényeinek megfelelően testre szabhatja a fürt hardvereit és kódtárait. Az adattudósok általában egy fürt létrehozásával vagy egy meglévő megosztott fürt használatával kezdik meg a munkát. Miután hozzáfér egy fürthöz, csatolhat egy jegyzetfüzetet a fürthöz, vagy futtathat egy feladatot a fürtön.

A csak egyetlen csomópontot igénylő kis számítási feladatok esetében az adatelemzők egyetlen csomópontos számítást használhatnak a költségmegtakarításhoz.
Részletes tippekért tekintse meg a számítási konfigurációra vonatkozó javaslatokat
A rendszergazdák fürtszabályzatokat állíthatnak be a fürtök létrehozásának egyszerűsítése és irányítása érdekében.

Az Azure Databricks-fürtök egy Databricks Runtime-ot használnak, amely számos népszerű kódtárat biztosít, többek között az Apache Sparkot, a Delta Lake-t és sok mást. A jegyzetfüzetekhez és feladatokhoz használható további külső vagy egyéni kódtárakat is telepíthet.

Kezdje az alapértelmezett kódtárakkal a Databricks Runtime kibocsátási megjegyzéseinek verzióiban és kompatibilitásában. Az előre telepített kódtárak teljes listájáért tekintse meg a Databricks Runtime kiadási jegyzeteinek verzióit és kompatibilitását.
A Scala-kódtárakat fürtben is telepítheti.
További részletekért lásd a kódtárakat.

Vizualizációk

Az Azure Databricks Scala-jegyzetfüzetek beépített támogatást nyújtanak számos vizualizációtípushoz. Régi vizualizációkat is használhat:

Együttműködési lehetőség

Ez a szakasz a Scala és az SQL közötti együttműködést támogató funkciókat ismerteti.

Feladatok

A Scala-számítási feladatokat ütemezett vagy aktivált feladatokként automatizálhatja az Azure Databricksben. A feladatok jegyzetfüzeteket és JAR-eket futtathatnak.

A feladatok felhasználói felületen keresztüli létrehozásával kapcsolatos részletekért lásd a Databricks-feladatok konfigurálását és szerkesztését ismertető cikket.
A Databricks SDK-kkal programozott módon hozhat létre, szerkeszthet és törölhet feladatokat.
A Databricks parancssori felülete kényelmes parancssori felületet biztosít a feladatok automatizálásához.

Azonosítók, fejlesztői eszközök és SDK-k

Az Azure Databricks-jegyzetfüzeteken belüli Scala-kód fejlesztése mellett külsőleg is fejleszthet integrált fejlesztési környezeteket (IDE-ket), például az IntelliJ IDEA-t. A külső fejlesztési környezetek és az Azure Databricks közötti munka szinkronizálásához számos lehetőség közül választhat:

Kód: Szinkronizálhatja a kódot a Git használatával. Tekintse meg a Databricks Git-mappák Git-integrációját.
Tárak és feladatok: Tárakat külsőleg hozhat létre, és feltöltheti őket az Azure Databricksbe. Ezek a kódtárak importálhatók az Azure Databricks-jegyzetfüzetekbe, vagy használhatók feladatok létrehozására. Lásd: Kódtárak és A Databricksvezénylésének áttekintése.
Távoli gép végrehajtása: A helyi IDE-ből futtathat kódot interaktív fejlesztéshez és teszteléshez. Az IDE képes kommunikálni az Azure Databricks szolgáltatással, hogy nagy számítási feladatokat hajt végre az Azure Databricks-fürtökön. Használhatja például az IntelliJ IDEA-t a Databricks Connect használatával.

A Databricks olyan SDK-k készletét biztosítja, amelyek támogatják az automatizálást és a külső eszközökkel való integrációt. A Databricks SDK-kkal olyan erőforrásokat kezelhet, mint a fürtök és tárak, kód- és egyéb munkaterület-objektumok, számítási feladatok és feladatok. Lásd a Databricks SDK-jait.

További információért az IDE-kről, fejlesztői eszközökről és SDK-król lásd: Helyi fejlesztési eszközök.

További erőforrások

A Databricks Academy számos témakörben kínál öngyors és oktató által vezetett kurzusokat.

Megosztás a következőn keresztül: