Zdieľať cez


Ako vytvoriť definíciu práce v Apache Spark v službe Fabric

V tomto kurze sa dozviete, ako vytvoriť definíciu pracovnej úlohy služby Spark v službe Microsoft Fabric.

Požiadavky

Skôr než začnete, potrebujete:

Prepitné

Ak chcete spustiť položku definície úlohy Spark, musíte mať hlavný súbor definície a predvolený kontext jazera. Ak nemáte lakehouse, môžete si ho vytvoriť pomocou krokov v téme Vytvorenie jazera.

Vytvorenie definície úlohy v službe Spark

Proces vytvorenia definície úloh spark je rýchly a jednoduchý; Môžete začať niekoľkými spôsobmi.

Možnosti vytvorenia definície úlohy služby Spark

Existujú dva spôsoby, ako začať s procesom vytvárania:

  • zobrazenie pracovného priestoru: Definíciu úlohy služby Spark môžete jednoducho vytvoriť prostredníctvom pracovného priestoru služby Fabric tak, že vyberiete položku Nová položkadefinícia úlohy služby Spark.

  • Fabric Home: Ďalším vstupným bodom na vytvorenie definície pracovnej pozície v službe Spark je analýza údajov pomocou dlaždice SQL ... na domovskej stránke služby Fabric. Tú istú možnosť nájdete tak, že vyberiete dlaždicu Všeobecné.

    Snímka obrazovky znázorňujúca, kde vybrať definíciu úlohy služby Spark v centre vytvárania.

Pri vytváraní je potrebné zadať názov definície pracovnej úlohy služby Spark. Názov musí byť jedinečný v rámci aktuálneho pracovného priestoru. Nová definícia úlohy v službe Spark sa vytvorí vo vašom aktuálnom pracovnom priestore.

Vytvorenie definície úlohy služby Spark pre PySpark (Python)

Ak chcete vytvoriť definíciu úlohy Spark pre PySpark:

  1. Stiahnite si vzorový súbor Parquet yellow_tripdata_2022-01.parquet a nahrajte ho do sekcie súborov lakehouse.

  2. Vytvorte novú definíciu úlohy v službe Spark.

  3. V rozbaľovacom zozname Jazyk vyberte položku PySpark (Python).

  4. Stiahnite si ukážku createTablefromParquet.py a nahrajte ju ako hlavný súbor definície. Hlavný súbor definície (úloha. Main) je súbor, ktorý obsahuje logiku aplikácie a je povinný spustiť úlohu Spark. Pre každú definíciu úlohy služby Spark môžete nahrať iba jeden hlavný súbor definície.

    Hlavný súbor definície môžete nahrať z lokálnej pracovnej plochy alebo môžete nahrať z existujúceho súboru Azure Data Lake Storage (ADLS) Gen2 zadaním úplnej cesty ABFSS k súboru. Napríklad, abfss://your-storage-account-name.dfs.core.windows.net/your-file-path.

  5. Nahrajte referenčné súbory ako .py súbory. Referenčné súbory sú moduly jazyka python, ktoré sú importované hlavným súborom definície. Rovnako ako v prípade hlavného súboru definície, môžete nahrať z pracovnej plochy alebo z existujúceho údaju ADLS Gen2. Podporovaných je viacero referenčných súborov.

    Prepitné

    Ak používate cestu ADLS Gen2, aby ste sa uistili, že súbor je dostupný, musíte dať používateľskému kontu, ktoré spúšťa danú úlohu, náležité povolenie pre konto úložiska. Odporúčame k tomu dva rôzne spôsoby:

    • Priradenie používateľského konta k role Prispievateľ pre konto úložiska.
    • Udeľte povolenie na čítanie a spustenie používateľskému kontu súboru prostredníctvom zoznamu riadenia prístupu ADLS Gen2 (ACL).

    Ak chcete manuálne spustiť úlohu, na spustenie úlohy sa použije konto aktuálneho prihlasovacieho používateľa.

  6. V prípade potreby poskytnite argumenty príkazového riadka pre úlohu. Ako rozdeľovač použite medzeru na oddelenie argumentov.

  7. Pridajte odkaz na lakehouse k úlohe. Musíte mať aspoň jeden lakehouse odkaz pridaný do práce. Tento lakehouse je predvolený lakehouse kontext pre túto úlohu.

    Podporované sú viaceré odkazy na lakehouse. Vyhľadajte predvolený názov jazera a úplnú URL adresu onelake na stránke Nastavenia spark.

    Snímka obrazovky znázorňujúca príklad vyplnenej obrazovky súboru hlavnej definície.

Vytvorenie definície úlohy Spark pre Scalu/Java

Ak chcete vytvoriť definíciu úlohy Spark pre Scalu/Java:

  1. Vytvorte novú definíciu úlohy v službe Spark.

  2. V rozbaľovacom zozname Jazyk vyberte spark(Scala/Java).

  3. Nahrajte hlavný súbor definície ako .jar súbor. Hlavným súborom definície je súbor, ktorý obsahuje logiku aplikácie tejto úlohy a je povinný na spustenie úlohy v službe Spark. Pre každú definíciu úlohy služby Spark môžete nahrať iba jeden hlavný súbor definície. Zadajte názov triedy Main (Hlavný).

  4. Nahrajte referenčné súbory ako .jar súbory. Referenčné súbory sú súbory, na ktoré odkazuje/importuje hlavný súbor definície.

  5. V prípade potreby poskytnite argumenty príkazového riadka pre úlohu.

  6. Pridajte odkaz na lakehouse k úlohe. Musíte mať aspoň jeden lakehouse odkaz pridaný do práce. Tento lakehouse je predvolený lakehouse kontext pre túto úlohu.

Vytvorenie definície úlohy Spark pre R

Ak chcete vytvoriť definíciu úlohy SparkR(R):

  1. Vytvorte novú definíciu úlohy v službe Spark.

  2. V rozbaľovacom zozname Jazyk vyberte položku SparkR(R).

  3. Nahrajte hlavný súbor definície ako . Súbor R . Hlavným súborom definície je súbor, ktorý obsahuje logiku aplikácie tejto úlohy a je povinný na spustenie úlohy v službe Spark. Pre každú definíciu úlohy služby Spark môžete nahrať iba jeden hlavný súbor definície.

  4. Nahrajte referenčné súbory ako . Súbory R . Referenčné súbory sú súbory, na ktoré odkazuje/importuje hlavný súbor definície.

  5. V prípade potreby poskytnite argumenty príkazového riadka pre úlohu.

  6. Pridajte odkaz na lakehouse k úlohe. Musíte mať aspoň jeden lakehouse odkaz pridaný do práce. Tento lakehouse je predvolený lakehouse kontext pre túto úlohu.

Poznámka

Definícia úlohy spark sa vytvorí vo vašom aktuálnom pracovnom priestore.

Možnosti prispôsobenia definícií úloh služby Spark

Existuje niekoľko možností, ako ďalej prispôsobiť vykonávanie definícií úloh služby Spark.

  • Optimalizácia: Na karte Optimalizácia môžete zapnúť a nastaviť politiku opakovania pre úlohu. Ak je úloha povolená, v prípade zlyhania sa úloha zopakova. Môžete tiež nastaviť maximálny počet pokusov a interval medzi pokusmi. Pri každom pokuse sa úloha reštartuje. Uistite sa, že práca je idempotentný.

    Snímka obrazovky znázorňujúca, kde je potrebné nastaviť politiku opakovania.