Zdieľať cez


Transformácia údajov spustením aktivity služby Azure HDInsight

Aktivita Azure HDInsight v službe Data Factory pre Microsoft Fabric umožňuje koordinovať nasledujúce typy úloh služby Azure HDInsight:

  • Vykonanie dotazov Hive
  • Vyvolanie programu MapReduce
  • Vykonanie dotazov ošípaných
  • Spustenie programu služby Spark
  • Spustenie programu služby Hadoop Stream

Tento článok poskytuje podrobný návod, ktorý popisuje, ako vytvoriť aktivitu v službe Azure HDInsight pomocou rozhrania Data Factory.

Požiadavky

Na začiatok musíte splniť nasledujúce predpoklady:

Pridanie aktivity Azure HDInsight (HDI) do kanála s používateľskou rozhraním

  1. Vytvorte nový kanál údajov vo svojom pracovnom priestore.

  2. Vyhľadajte položku Azure HDInsight z karty domovskej obrazovky a vyberte ju alebo vyberte aktivitu na paneli Aktivity, čím ju pridáte na plátno kanála.

    • Vytvorenie aktivity z karty domovskej obrazovky:

      Snímka obrazovky znázorňujúca miesto, kde je potrebné vytvoriť novú aktivitu Azure HDInsight.

    • Vytvorenie aktivity z panela Aktivity:

      Snímka obrazovky znázorňujúca miesto na vytvorenie novej aktivity azure HDInsight z panela Aktivity v okne editora kanála.

  3. Vyberte novú aktivitu Azure HDInsight na plátne editora kanála, ak ešte nie je vybratá.

    Snímka obrazovky znázorňujúca aktivitu služby Azure HDInsight na plátne editora kanála.

    Informácie o konfigurácii možností, ktoré nájdete na karte Všeobecné nastavenia, nájdete v časti Všeobecné pokyny na nastavenie.

Konfigurácia klastra HDI

  1. Vyberte kartu klastra HDI. Potom môžete vybrať existujúce pripojenie alebo vytvoriť nové pripojenie HDInsight.

  2. Pre pripojenie k zdroju vyberte ukladací priestor objektu BLOB platformy Azure, ktorý odkazuje na váš klaster Azure HDInsight. Môžete si vybrať existujúci ukladací priestor objektu Blob alebo vytvoriť nový.

    Snímka obrazovky zobrazujúca vlastnosti klastra HDI pre aktivitu Azure HDInsight.

Konfigurácia nastavení

Ak chcete zobraziť rozšírené nastavenia aktivity, vyberte kartu Nastavenia.

Snímka obrazovky znázorňujúca kartu Nastavenia vlastností aktivity Azure HDInsight v okne editora kanála. .

Všetky rozšírené vlastnosti klastra a dynamické výrazy podporované v službe Azure Data Factory a Synapse Analytics HDInsight sú teraz podporované aj v aktivite Azure HDInsight pre Data Factory v službe Microsoft Fabric, v časti Rozšírené v používateľskom rozhraní. Všetky tieto vlastnosti podporujú jednoducho použiteľné vlastné parametrizované výrazy s dynamickým obsahom.

Typ klastra

Ak chcete nakonfigurovať nastavenia pre klaster HDInsight, najskôr si vyberte jeho typ z dostupných možností vrátane hive, Map Reduce, Pig, Spark a Streaming.

Úľ

Ak vyberiete možnosť Hive pre typ, aktivita spustí dotaz Hive. Môžete voliteľne zadať pripojenie skriptu, ktoré odkazuje na konto úložiska s typom Hive. Predvolene sa používa pripojenie úložiska, ktoré ste zadali na karte klastra HDI. Je potrebné zadať cestu k súboru, ktorá sa má vykonať v službe Azure HDInsight. Voliteľne môžete zadať viac konfigurácií v časti Rozšírené , informácie o ladení, časový limit dotazu, argumenty, parametre a premenné.

Snímka obrazovky zobrazujúca typ klastra Hive.

Zmenšenie mapy

Ak v časti Typ vyberiete možnosť Map Reduce (Zníženiepočtu máp), aktivita vyvolá program Map Reduce (Zníženie počtu máp). V pripojení k poháru môžete voliteľne zadať odkazovanie na konto úložiska, v ktorom je uložený typ zníženia počtu máp. Predvolene sa používa pripojenie úložiska, ktoré ste zadali na karte klastra HDI. Musíte zadať názov triedy a cestu k súboru, ktoré sa majú vykonať v službe Azure HDInsight. Voliteľne môžete zadať ďalšie podrobnosti konfigurácie, ako je napríklad import knižníc Jar, informácie o ladení, argumenty a parametre v časti Rozšírené .

Snímka obrazovky znázorňujúca výber možnosti Map Reduce pre typ klastra HDInsight.

Prasa

Ak vyberiete možnosť Prasa pre typ, aktivita vyvolá dotaz Pig (Prasa). Môžete voliteľne zadať nastavenie pripojenia skriptu, ktoré odkazuje na konto úložiska s typom prasaťa. Predvolene sa používa pripojenie úložiska, ktoré ste zadali na karte klastra HDI. Je potrebné zadať cestu k súboru, ktorá sa má vykonať v službe Azure HDInsight. Voliteľne môžete zadať ďalšie konfigurácie, ako napríklad informácie o ladení, argumenty, parametre a premenné v časti Rozšírené .

Snímka obrazovky znázorňujúca výber typu prasaťa pre klaster HDInsight.

Spark

Ak vyberiete možnosť Spark for Type, aktivita vyvolá program Spark. Pre typ Spark vyberte položku Skript alebo Jar. Pripojenie k úlohe môžete voliteľne zadať tak, že odkazujete na konto úložiska, v ktorom je uložený typ Spark. Predvolene sa používa pripojenie úložiska, ktoré ste zadali na karte klastra HDI. Je potrebné zadať cestu k súboru, ktorá sa má vykonať v službe Azure HDInsight. Voliteľne môžete zadať ďalšie konfigurácie, ako napríklad názov triedy, používateľa proxy, informácie o ladení, argumenty a konfiguráciu spark v časti Rozšírené.

Snímka obrazovky znázorňujúca výber typu Spark pre klaster HDInsight.

Streaming

Ak vyberiete možnosť Streamovanie pre typ, aktivita vyvolá program streamovania. Zadajte názvy Mapper a Reducer a môžete voliteľne zadať pripojenie k súboru, keď odkazujete na konto úložiska, v ktorom je uložený typ streamovania. Predvolene sa používa pripojenie úložiska, ktoré ste zadali na karte klastra HDI. Musíte zadať cestu k súboru pre Mapper a cestu k súboru pre Reducer , ktoré sa majú vykonať v službe Azure HDInsight. Zahrňte možnosti Vstupu a Výstup aj pre cestu WASB. Voliteľne môžete zadať ďalšie konfigurácie, ako napríklad informácie o ladení, argumenty a parametre v časti Rozšírené.

Snímka obrazovky znázorňujúca výber typu streamovania pre klaster HDInsight.

Odkaz na vlastnosť

Vlastnosť Description Povinné
zadať V prípade aktivity streamovania hadoop je typ aktivity HDInsightStreaming Áno
Mapper Určuje názov spustiteľného súboru mapper Áno
Redukcia Určuje názov spustiteľného súboru reducer Áno
combiner (kombinovanie) Určuje názov spustiteľného súboru kombinovača No
file connection (pripojenie k súboru) Odkaz na službu Azure Storage Linked Service používanú na uloženie programov Mapper, Combiner a Reducer, ktoré sa majú vykonať. No
Tu sú podporované iba pripojenia Azure Blob Storage a ADLS Gen2. Ak toto pripojenie nezadáte, použije sa ukladacie pripojenie definované v pripojení HDInsight.
filePath Zadajte pole cesty k programom Mapper, Combiner a Reducer uloženým v službe Azure Storage, na ktorú odkazuje pripojenie k súboru. Áno
vstup Určuje cestu WASB k vstupnému súboru pre mapper. Áno
výstup Určuje cestu wasb k výstupného súboru pre Reducer. Áno
getDebugInfo Určuje, kedy sa súbory denníka kopírujú do služby Azure Storage používanej klastrom HDInsight (alebo) špecifikovaným pomocou scriptLinkedService. No
Povolené hodnoty: Žiadne, Vždy alebo Neúspešné. Predvolená hodnota: Žiadne.
Argumenty Určuje pole argumentov pre úlohu servera Hadoop. Argumenty sa odovzdávajú ako argumenty príkazového riadka pre každú úlohu. No
Definuje Ak chcete odkazovať v skripte Hive, zadajte parametre ako páry kľúč/hodnota. No

Uloženie a spustenie alebo naplánovanie kanála

Po nakonfigurovaní ďalších aktivít potrebných pre váš kanál prejdite na kartu Domov v hornej časti editora kanála a vyberte tlačidlo Uložiť, čím kanál uložíte. Vyberte položku Spustiť, aby ste ju spustili priamo, alebo ak ju chcete naplánovať, vyberte položku Spustiť. Históriu spúšťania môžete zobraziť aj tu alebo konfigurovať iné nastavenia.

Snímka obrazovky znázorňujúca kartu Domov editora kanála so zvýrazneným tlačidlami Uložiť, Spustiť a Plánovať.

Ako sledovať spustenie kanála