Ako vytvoriť definíciu práce v Apache Spark v službe Fabric
V tomto kurze sa dozviete, ako vytvoriť definíciu pracovnej úlohy služby Spark v službe Microsoft Fabric.
Požiadavky
Skôr než začnete, potrebujete:
- konto nájomníka služby Fabric s aktívnym predplatným, Vytvorte si bezplatné konto.
Prepitné
Ak chcete spustiť položku definície úlohy Spark, musíte mať hlavný súbor definície a predvolený kontext jazera. Ak nemáte lakehouse, môžete si ho vytvoriť pomocou krokov v téme Vytvorenie jazera.
Vytvorenie definície úlohy v službe Spark
Proces vytvorenia definície úloh spark je rýchly a jednoduchý; Môžete začať niekoľkými spôsobmi.
Možnosti vytvorenia definície úlohy služby Spark
Existujú dva spôsoby, ako začať s procesom vytvárania:
zobrazenie pracovného priestoru : Definíciu úlohy služby Spark môžete jednoducho vytvoriť prostredníctvom pracovného priestoru službyFabric tak, že vyberiete položku Nová položka definícia úlohy služby Spark .Fabric Home: Ďalším vstupným bodom na vytvorenie definície pracovnej pozície v službe Spark je analýza údajov pomocou dlaždice SQL ... na domovskej stránke služby Fabric. Tú istú možnosť nájdete tak, že vyberiete dlaždicu Všeobecné.
Pri vytváraní je potrebné zadať názov definície pracovnej úlohy služby Spark. Názov musí byť jedinečný v rámci aktuálneho pracovného priestoru. Nová definícia úlohy v službe Spark sa vytvorí vo vašom aktuálnom pracovnom priestore.
Vytvorenie definície úlohy služby Spark pre PySpark (Python)
Ak chcete vytvoriť definíciu úlohy Spark pre PySpark:
Stiahnite si vzorový súbor Parquet yellow_tripdata_2022-01.parquet a nahrajte ho do sekcie súborov lakehouse.
Vytvorte novú definíciu úlohy v službe Spark.
V rozbaľovacom zozname Jazyk vyberte položku PySpark (Python).
Stiahnite si ukážku createTablefromParquet.py a nahrajte ju ako hlavný súbor definície. Hlavný súbor definície (úloha. Main) je súbor, ktorý obsahuje logiku aplikácie a je povinný spustiť úlohu Spark. Pre každú definíciu úlohy služby Spark môžete nahrať iba jeden hlavný súbor definície.
Hlavný súbor definície môžete nahrať z lokálnej pracovnej plochy alebo môžete nahrať z existujúceho súboru Azure Data Lake Storage (ADLS) Gen2 zadaním úplnej cesty ABFSS k súboru. Napríklad,
abfss://your-storage-account-name.dfs.core.windows.net/your-file-path
.Nahrajte referenčné súbory ako .py súbory. Referenčné súbory sú moduly jazyka python, ktoré sú importované hlavným súborom definície. Rovnako ako v prípade hlavného súboru definície, môžete nahrať z pracovnej plochy alebo z existujúceho údaju ADLS Gen2. Podporovaných je viacero referenčných súborov.
Prepitné
Ak používate cestu ADLS Gen2, aby ste sa uistili, že súbor je dostupný, musíte dať používateľskému kontu, ktoré spúšťa danú úlohu, náležité povolenie pre konto úložiska. Odporúčame k tomu dva rôzne spôsoby:
- Priradenie používateľského konta k role Prispievateľ pre konto úložiska.
- Udeľte povolenie na čítanie a spustenie používateľskému kontu súboru prostredníctvom zoznamu riadenia prístupu ADLS Gen2 (ACL).
Ak chcete manuálne spustiť úlohu, na spustenie úlohy sa použije konto aktuálneho prihlasovacieho používateľa.
V prípade potreby poskytnite argumenty príkazového riadka pre úlohu. Ako rozdeľovač použite medzeru na oddelenie argumentov.
Pridajte odkaz na lakehouse k úlohe. Musíte mať aspoň jeden lakehouse odkaz pridaný do práce. Tento lakehouse je predvolený lakehouse kontext pre túto úlohu.
Podporované sú viaceré odkazy na lakehouse. Vyhľadajte predvolený názov jazera a úplnú URL adresu onelake na stránke Nastavenia spark.
Vytvorenie definície úlohy Spark pre Scalu/Java
Ak chcete vytvoriť definíciu úlohy Spark pre Scalu/Java:
Vytvorte novú definíciu úlohy v službe Spark.
V rozbaľovacom zozname Jazyk vyberte spark(Scala/Java).
Nahrajte hlavný súbor definície ako .jar súbor. Hlavným súborom definície je súbor, ktorý obsahuje logiku aplikácie tejto úlohy a je povinný na spustenie úlohy v službe Spark. Pre každú definíciu úlohy služby Spark môžete nahrať iba jeden hlavný súbor definície. Zadajte názov triedy Main (Hlavný).
Nahrajte referenčné súbory ako .jar súbory. Referenčné súbory sú súbory, na ktoré odkazuje/importuje hlavný súbor definície.
V prípade potreby poskytnite argumenty príkazového riadka pre úlohu.
Pridajte odkaz na lakehouse k úlohe. Musíte mať aspoň jeden lakehouse odkaz pridaný do práce. Tento lakehouse je predvolený lakehouse kontext pre túto úlohu.
Vytvorenie definície úlohy Spark pre R
Ak chcete vytvoriť definíciu úlohy SparkR(R):
Vytvorte novú definíciu úlohy v službe Spark.
V rozbaľovacom zozname Jazyk vyberte položku SparkR(R).
Nahrajte hlavný súbor definície ako . Súbor R . Hlavným súborom definície je súbor, ktorý obsahuje logiku aplikácie tejto úlohy a je povinný na spustenie úlohy v službe Spark. Pre každú definíciu úlohy služby Spark môžete nahrať iba jeden hlavný súbor definície.
Nahrajte referenčné súbory ako . Súbory R . Referenčné súbory sú súbory, na ktoré odkazuje/importuje hlavný súbor definície.
V prípade potreby poskytnite argumenty príkazového riadka pre úlohu.
Pridajte odkaz na lakehouse k úlohe. Musíte mať aspoň jeden lakehouse odkaz pridaný do práce. Tento lakehouse je predvolený lakehouse kontext pre túto úlohu.
Poznámka
Definícia úlohy spark sa vytvorí vo vašom aktuálnom pracovnom priestore.
Možnosti prispôsobenia definícií úloh služby Spark
Existuje niekoľko možností, ako ďalej prispôsobiť vykonávanie definícií úloh služby Spark.
- Spark Compute: Na karte Spark Compute (Výpočet služby Spark) môžete vidieť verziu modulu runtime, ktorá je verziou služby Spark, ktorá sa použije na spustenie úlohy. Môžete si tiež pozrieť nastavenia konfigurácie služby Spark, ktoré sa použijú na spustenie úlohy. Nastavenia konfigurácie služby Spark môžete prispôsobiť kliknutím na tlačidlo Pridať .
Optimalizácia: Na karte Optimalizácia môžete zapnúť a nastaviť politiku opakovania pre úlohu. Ak je úloha povolená, v prípade zlyhania sa úloha zopakova. Môžete tiež nastaviť maximálny počet pokusov a interval medzi pokusmi. Pri každom pokuse sa úloha reštartuje. Uistite sa, že práca je idempotentný.