Azure Databricks Scala-fejlesztőknek
Ez a cikk útmutatót nyújt a jegyzetfüzetek és feladatok Azure Databricksben való fejlesztéséhez a Scala nyelv használatával. Az első szakasz a gyakori munkafolyamatok és feladatok oktatóanyagaira mutató hivatkozásokat tartalmaz. A második szakasz api-kra, kódtárakra és kulcseszközökre mutató hivatkozásokat tartalmaz.
Az első lépések alapvető munkafolyamata a következő:
- Kód importálása és futtatása interaktív Databricks-jegyzetfüzet használatával: Importálja a saját kódját a fájlokból vagy a Git-adattárakból, vagy próbálkozzon az alábbi oktatóanyagokkal.
- Futtassa a kódot egy fürtön: Hozzon létre egy saját fürtöt, vagy győződjön meg arról, hogy rendelkezik megosztott fürt használatára vonatkozó engedélyekkel. Csatolja a jegyzetfüzetet a fürthöz, és futtassa a jegyzetfüzetet.
Ezen kívül konkrétabb témakörökre is bonthatja a műveletet:
- Nagyobb adatkészletek használata az Apache Spark használatával
- Vizualizációk hozzáadása
- A számítási feladat automatizálása feladatként
- Fejlesztés IDE-kben
Oktatóanyagok
Az alábbi oktatóanyagok példakódot és jegyzetfüzeteket nyújtanak a gyakori munkafolyamatok megismeréséhez. A jegyzetfüzetek a munkaterületre való importálásával kapcsolatos útmutatásért lásd : Jegyzetfüzet importálása.
- Oktatóanyag: Adatok betöltése és átalakítása Az Apache Spark DataFrame-ek használatával
- Oktatóanyag: A Delta Lake Scala-példákat kínál.
- Az XGBoost használata az Azure Databricksben egy Scala-példát kínál.
Referencia
Az alábbi alszakaszok felsorolják a főbb funkciókat és tippeket, amelyekkel megkezdheti a fejlesztést az Azure Databricksben a Scalával.
Scala API
Ezek a hivatkozások bemutatja és ismertetik az Apache Spark Scala API-t.
- Oktatóanyag: Adatok betöltése és átalakítása Az Apache Spark DataFrame-ek használatával
- JSON-sztringek lekérdezése
- Bevezetés a strukturált streamelésbe
- Apache Spark Core API-referencia
- Apache Spark ML API-referencia
Kód kezelése jegyzetfüzetekkel és Databricks Git-mappákkal
A Databricks-jegyzetfüzetek támogatják a Scalát. Ezek a jegyzetfüzetek a Jupyterhez hasonló funkciókat biztosítanak, de olyan kiegészítésekkel, mint a big data-ot használó beépített vizualizációk, a hibakereséshez és a teljesítményfigyeléshez használható Apache Spark-integrációk, valamint a gépi tanulási kísérletek nyomon követésére szolgáló MLflow-integrációk. Kezdje azzal, hogy importál egy jegyzetfüzetet. Miután hozzáfér egy fürthöz, csatolhat egy jegyzetfüzetet a fürthöz, és futtathatja a jegyzetfüzetet.
Tipp.
A jegyzetfüzet állapotának visszaállításához indítsa újra a kernelt. Jupyter-felhasználók esetén a Jupyter "újraindítási kernel" lehetősége megfelel egy jegyzetfüzet leválasztásának és újracsatlakoztatásának a Databricksben. Ha újra szeretné indítani a kernelt egy jegyzetfüzetben, kattintson a számítási választóra a jegyzetfüzet eszköztárában, és mutasson a csatolt fürtre vagy SQL Warehouse-ra a listában egy oldalsó menü megjelenítéséhez. Válassza a Leválasztás & újbóli csatoláslehetőséget. Ez leválasztja a jegyzetfüzetet a fürtről, és újracsatlakoztatja, ami újraindítja a folyamatot.
A Databricks Git-mappák lehetővé teszik a felhasználók számára, hogy szinkronizálják a jegyzetfüzeteket és más fájlokat a Git-adattárakkal. A Databricks Git-mappák segítenek a kód verziószámozásában és együttműködésében, és egyszerűbbé teheti a kód teljes tárházának importálását az Azure Databricksbe, megtekintheti a korábbi jegyzetfüzet-verziókat, és integrálható az IDE-fejlesztéssel. Első lépésként távoli Git-adattárklónozását. Ezután megnyithatja vagy létrehozhat jegyzetfüzeteket az adattár klónozásával, csatolhatja a jegyzetfüzetet egy fürthöz, és futtathatja a jegyzetfüzetet.
Fürtök és kódtárak
Az Azure Databricks Compute bármilyen méretű fürthöz biztosít számításkezelést: az egycsomópontos fürtöktől kezdve a nagy fürtökig. Igényeinek megfelelően testre szabhatja a fürt hardvereit és kódtárait. Az adattudósok általában egy fürt létrehozásával vagy egy meglévő megosztott fürt használatával kezdik meg a munkát. Miután hozzáfér egy fürthöz, csatolhat egy jegyzetfüzetet a fürthöz, vagy futtathat egy feladatot a fürtön.
- A csak egyetlen csomópontot igénylő kis számítási feladatok esetében az adatelemzők egyetlen csomópontos számítást használhatnak a költségmegtakarításhoz.
- Részletes tippekért tekintse meg a számítási konfigurációra vonatkozó javaslatokat
- A rendszergazdák fürtszabályzatokat állíthatnak be a fürtök létrehozásának egyszerűsítése és irányítása érdekében.
Az Azure Databricks-fürtök egy Databricks Runtime-ot használnak, amely számos népszerű kódtárat biztosít, többek között az Apache Sparkot, a Delta Lake-t és sok mást. A jegyzetfüzetekhez és feladatokhoz használható további külső vagy egyéni kódtárakat is telepíthet.
- Kezdje az alapértelmezett kódtárakkal a Databricks Runtime kibocsátási megjegyzéseinek verzióiban és kompatibilitásában. Az előre telepített kódtárak teljes listájáért tekintse meg a Databricks Runtime kiadási jegyzeteinek verzióit és kompatibilitását.
- A Scala-kódtárakat fürtben is telepítheti.
- További részletekért lásd a kódtárakat.
Vizualizációk
Az Azure Databricks Scala-jegyzetfüzetek beépített támogatást nyújtanak számos vizualizációtípushoz. Régi vizualizációkat is használhat:
Együttműködési lehetőség
Ez a szakasz a Scala és az SQL közötti együttműködést támogató funkciókat ismerteti.
Feladatok
A Scala-számítási feladatokat ütemezett vagy aktivált feladatokként automatizálhatja az Azure Databricksben. A feladatok jegyzetfüzeteket és JAR-eket futtathatnak.
- A feladatok felhasználói felületen keresztüli létrehozásával kapcsolatos részletekért lásd a Databricks-feladatok konfigurálását és szerkesztését ismertető cikket.
- A Databricks SDK-kkal programozott módon hozhat létre, szerkeszthet és törölhet feladatokat.
- A Databricks parancssori felülete kényelmes parancssori felületet biztosít a feladatok automatizálásához.
Azonosítók, fejlesztői eszközök és SDK-k
Az Azure Databricks-jegyzetfüzeteken belüli Scala-kód fejlesztése mellett külsőleg is fejleszthet integrált fejlesztési környezeteket (IDE-ket), például az IntelliJ IDEA-t. A külső fejlesztési környezetek és az Azure Databricks közötti munka szinkronizálásához számos lehetőség közül választhat:
- Kód: Szinkronizálhatja a kódot a Git használatával. Tekintse meg a Databricks Git-mappák Git-integrációját.
- Tárak és feladatok: Tárakat külsőleg hozhat létre, és feltöltheti őket az Azure Databricksbe. Ezek a kódtárak importálhatók az Azure Databricks-jegyzetfüzetekbe, vagy használhatók feladatok létrehozására. Lásd: Kódtárak és A Databricksvezénylésének áttekintése.
- Távoli gép végrehajtása: A helyi IDE-ből futtathat kódot interaktív fejlesztéshez és teszteléshez. Az IDE képes kommunikálni az Azure Databricks szolgáltatással, hogy nagy számítási feladatokat hajt végre az Azure Databricks-fürtökön. Használhatja például az IntelliJ IDEA-t a Databricks Connect használatával.
A Databricks olyan SDK-k készletét biztosítja, amelyek támogatják az automatizálást és a külső eszközökkel való integrációt. A Databricks SDK-kkal olyan erőforrásokat kezelhet, mint a fürtök és tárak, kód- és egyéb munkaterület-objektumok, számítási feladatok és feladatok. Lásd a Databricks SDK-jait.
További információért az IDE-kről, fejlesztői eszközökről és SDK-król lásd: Helyi fejlesztési eszközök.
További erőforrások
- A Databricks Academy számos témakörben kínál öngyors és oktató által vezetett kurzusokat.