Oktatóanyag: Python futtatása fürtön és feladatként a Visual Studio Code Databricks-bővítményével
Ez az oktatóanyag végigvezeti a Visual Studio Code Databricks-bővítményének beállításán, majd a Python Azure Databricks-fürtön és Azure Databricks-feladatként való futtatásán a távoli munkaterületen. Lásd : Mi a Visual Studio Code Databricks-bővítménye?.
Követelmények
Ehhez az oktatóanyaghoz a következőket kell megkövetelni:
- Telepítette a Databricks bővítményt a Visual Studio Code-hoz. Lásd : A Databricks bővítmény telepítése a Visual Studio Code-hoz.
- Egy távoli Azure Databricks-fürtöt kell használnia. Jegyezze fel a fürt nevét. Az elérhető fürtök megtekintéséhez az Azure Databricks-munkaterület oldalsávjában kattintson a Számítás gombra. Lásd: Compute.
1. lépés: Új Databricks-projekt létrehozása
Ebben a lépésben létrehoz egy új Databricks-projektet, és konfigurálja a kapcsolatot a távoli Azure Databricks-munkaterülettel.
- Indítsa el a Visual Studio Code-ot, majd kattintson a Fájl > megnyitása mappára , és nyisson meg egy üres mappát a helyi fejlesztőgépen.
- Az oldalsávon kattintson a Databricks embléma ikonra. Ekkor megnyílik a Databricks bővítmény.
- A Konfiguráció nézetben kattintson a Konfiguráció létrehozásaelemre.
- Megnyílik a Databricks-munkaterület konfigurálásához használandó parancskatalógus. A Databricks-gazdagép esetében
- Válasszon egy hitelesítési profilt a projekthez. Lásd a Databricks-bővítmény engedélyezésének beállítása a Visual Studio Code-hoz.
2. lépés: Fürtinformációk hozzáadása a Databricks-bővítményhez, majd a fürt indítása
Ha a Konfiguráció nézet már meg van nyitva, kattintson a Fürt kiválasztása vagy a fogaskerék (Fürt konfigurálása) ikonra.
A parancskatalógusban válassza ki a korábban létrehozott fürt nevét.
Ha még nem indult el, kattintson a lejátszás ikonra (Fürt indítása).
3. lépés: Python-kód létrehozása és futtatása
Hozzon létre egy helyi Python-kódfájlt: az oldalsávon kattintson a mappa (Explorer) ikonra.
A főmenüben kattintson a Fájl > Új fájl elemre, és válasszon egy Python-fájlt. Nevezze el a fájlt demo.py , és mentse a projekt gyökérmappájába.
Adja hozzá a következő kódot a fájlhoz, majd mentse. Ez a kód egy alapszintű PySpark DataFrame tartalmát hozza létre és jeleníti meg:
from pyspark.sql import SparkSession from pyspark.sql.types import * spark = SparkSession.builder.getOrCreate() schema = StructType([ StructField('CustomerID', IntegerType(), False), StructField('FirstName', StringType(), False), StructField('LastName', StringType(), False) ]) data = [ [ 1000, 'Mathijs', 'Oosterhout-Rijntjes' ], [ 1001, 'Joost', 'van Brunswijk' ], [ 1002, 'Stan', 'Bokenkamp' ] ] customers = spark.createDataFrame(data, schema) customers.show()
# +----------+---------+-------------------+ # |CustomerID|FirstName| LastName| # +----------+---------+-------------------+ # | 1000| Mathijs|Oosterhout-Rijntjes| # | 1001| Joost| van Brunswijk| # | 1002| Stan| Bokenkamp| # +----------+---------+-------------------+
Kattintson a Szerkesztőfülek listája melletti Futtatás a Databricksen ikonra, majd a Fájl feltöltése és futtatása parancsra. A kimenet a Hibakeresési konzol nézetben jelenik meg.
Másik lehetőségként az Explorer nézetben kattintson a jobb gombbal a
demo.py
fájlra, majd a >.
4. lépés: A kód futtatása feladatként
Feladatként való futtatáshoz demo.py
kattintson a Szerkesztőfülek listája melletti Futtatás a Databricksen ikonra, majd a Fájl futtatása munkafolyamatként parancsra. A kimenet egy külön szerkesztőlapon jelenik meg a demo.py
fájlszerkesztő mellett.
Másik lehetőségként kattintson a jobb gombbal a demo.py
fájlra az Explorer panelen, majd válassza a Futtatás a Databricks-fájl>futtatása munkafolyamatként lehetőséget.
Következő lépések
Most, hogy sikeresen használta a Visual Studio Code Databricks bővítményét egy helyi Python-fájl feltöltéséhez és távoli futtatásához, a következőket is megteheti:
- Fedezze fel a Databricks Asset Bundles erőforrásait és változóit a bővítmény felhasználói felületén. Lásd a Databricks Asset Bundles bővítmény funkcióit.
- Python-kód futtatása vagy hibakeresése a Databricks Connect használatával. Lásd: Hibakeresési kód a Databricks Connect használatával a Visual Studio Code Databricks-bővítményéhez.
- Fájl vagy jegyzetfüzet futtatása Azure Databricks-feladatként. Lásd: Fájl futtatása fürtön vagy fájlon vagy jegyzetfüzeten feladatként az Azure Databricksben a Visual Studio Code Databricks-bővítményével.
- Tesztek futtatása a következővel
pytest
: . Lásd: Tesztek futtatása pytesttel a Visual Studio Code Databricks-bővítményével.