Megosztás a következőn keresztül:


Oktatóanyag: Python futtatása fürtön és feladatként a Visual Studio Code Databricks-bővítményével

Ez az oktatóanyag végigvezeti a Visual Studio Code Databricks-bővítményének beállításán, majd a Python Azure Databricks-fürtön és Azure Databricks-feladatként való futtatásán a távoli munkaterületen. Lásd : Mi a Visual Studio Code Databricks-bővítménye?.

Követelmények

Ehhez az oktatóanyaghoz a következőket kell megkövetelni:

  • Telepítette a Databricks bővítményt a Visual Studio Code-hoz. Lásd : A Databricks bővítmény telepítése a Visual Studio Code-hoz.
  • Egy távoli Azure Databricks-fürtöt kell használnia. Jegyezze fel a fürt nevét. Az elérhető fürtök megtekintéséhez az Azure Databricks-munkaterület oldalsávjában kattintson a Számítás gombra. Lásd: Compute.

1. lépés: Új Databricks-projekt létrehozása

Ebben a lépésben létrehoz egy új Databricks-projektet, és konfigurálja a kapcsolatot a távoli Azure Databricks-munkaterülettel.

  1. Indítsa el a Visual Studio Code-ot, majd kattintson a Fájl > megnyitása mappára , és nyisson meg egy üres mappát a helyi fejlesztőgépen.
  2. Az oldalsávon kattintson a Databricks embléma ikonra. Ekkor megnyílik a Databricks bővítmény.
  3. A Konfiguráció nézetben kattintson a Konfiguráció létrehozásaelemre.
  4. Megnyílik a Databricks-munkaterület konfigurálásához használandó parancskatalógus. A Databricks-gazdagép esetében
  5. Válasszon egy hitelesítési profilt a projekthez. Lásd a Databricks-bővítmény engedélyezésének beállítása a Visual Studio Code-hoz.

2. lépés: Fürtinformációk hozzáadása a Databricks-bővítményhez, majd a fürt indítása

  1. Ha a Konfiguráció nézet már meg van nyitva, kattintson a Fürt kiválasztása vagy a fogaskerék (Fürt konfigurálása) ikonra.

    Fürt konfigurálása

  2. A parancskatalógusban válassza ki a korábban létrehozott fürt nevét.

  3. Ha még nem indult el, kattintson a lejátszás ikonra (Fürt indítása).

3. lépés: Python-kód létrehozása és futtatása

  1. Hozzon létre egy helyi Python-kódfájlt: az oldalsávon kattintson a mappa (Explorer) ikonra.

  2. A főmenüben kattintson a Fájl > Új fájl elemre, és válasszon egy Python-fájlt. Nevezze el a fájlt demo.py , és mentse a projekt gyökérmappájába.

  3. Adja hozzá a következő kódot a fájlhoz, majd mentse. Ez a kód egy alapszintű PySpark DataFrame tartalmát hozza létre és jeleníti meg:

    from pyspark.sql import SparkSession
    from pyspark.sql.types import *
    
    spark = SparkSession.builder.getOrCreate()
    
    schema = StructType([
       StructField('CustomerID', IntegerType(), False),
       StructField('FirstName',  StringType(),  False),
       StructField('LastName',   StringType(),  False)
    ])
    
    data = [
       [ 1000, 'Mathijs', 'Oosterhout-Rijntjes' ],
       [ 1001, 'Joost',   'van Brunswijk' ],
       [ 1002, 'Stan',    'Bokenkamp' ]
    ]
    
    customers = spark.createDataFrame(data, schema)
    customers.show()
    
    # +----------+---------+-------------------+
    # |CustomerID|FirstName|           LastName|
    # +----------+---------+-------------------+
    # |      1000|  Mathijs|Oosterhout-Rijntjes|
    # |      1001|    Joost|      van Brunswijk|
    # |      1002|     Stan|          Bokenkamp|
    # +----------+---------+-------------------+
    
  4. Kattintson a Szerkesztőfülek listája melletti Futtatás a Databricksen ikonra, majd a Fájl feltöltése és futtatása parancsra. A kimenet a Hibakeresési konzol nézetben jelenik meg.

    Fájl feltöltése és futtatása ikonból

    Másik lehetőségként az Explorer nézetben kattintson a jobb gombbal a demo.py fájlra, majd a >.

    Fájl feltöltése és futtatása a helyi menüből

4. lépés: A kód futtatása feladatként

Feladatként való futtatáshoz demo.py kattintson a Szerkesztőfülek listája melletti Futtatás a Databricksen ikonra, majd a Fájl futtatása munkafolyamatként parancsra. A kimenet egy külön szerkesztőlapon jelenik meg a demo.py fájlszerkesztő mellett.

Fájl futtatása munkafolyamatként ikonból

Másik lehetőségként kattintson a jobb gombbal a demo.py fájlra az Explorer panelen, majd válassza a Futtatás a Databricks-fájl>futtatása munkafolyamatként lehetőséget.

Fájl futtatása munkafolyamatként a helyi menüből

Következő lépések

Most, hogy sikeresen használta a Visual Studio Code Databricks bővítményét egy helyi Python-fájl feltöltéséhez és távoli futtatásához, a következőket is megteheti: