Transformácia údajov spustením aktivity služby Azure HDInsight
Aktivita Azure HDInsight v službe Data Factory pre Microsoft Fabric umožňuje koordinovať nasledujúce typy úloh služby Azure HDInsight:
- Vykonanie dotazov Hive
- Vyvolanie programu MapReduce
- Vykonanie dotazov ošípaných
- Spustenie programu služby Spark
- Spustenie programu služby Hadoop Stream
Tento článok poskytuje podrobný návod, ktorý popisuje, ako vytvoriť aktivitu v službe Azure HDInsight pomocou rozhrania Data Factory.
Požiadavky
Na začiatok musíte splniť nasledujúce predpoklady:
- Konto nájomníka s aktívnym predplatným. Vytvorte si bezplatné konto.
- Vytvorí sa pracovný priestor.
Pridanie aktivity Azure HDInsight (HDI) do kanála s používateľskou rozhraním
Vytvorte nový kanál údajov vo svojom pracovnom priestore.
Vyhľadajte položku Azure HDInsight z karty domovskej obrazovky a vyberte ju alebo vyberte aktivitu na paneli Aktivity, čím ju pridáte na plátno kanála.
Vyberte novú aktivitu Azure HDInsight na plátne editora kanála, ak ešte nie je vybratá.
Informácie o konfigurácii možností, ktoré nájdete na karte Všeobecné nastavenia, nájdete v časti Všeobecné pokyny na nastavenie.
Konfigurácia klastra HDI
Vyberte kartu klastra HDI. Potom môžete vybrať existujúce pripojenie alebo vytvoriť nové pripojenie HDInsight.
Pre pripojenie k zdroju vyberte ukladací priestor objektu BLOB platformy Azure, ktorý odkazuje na váš klaster Azure HDInsight. Môžete si vybrať existujúci ukladací priestor objektu Blob alebo vytvoriť nový.
Konfigurácia nastavení
Ak chcete zobraziť rozšírené nastavenia aktivity, vyberte kartu Nastavenia.
Všetky rozšírené vlastnosti klastra a dynamické výrazy podporované v službe Azure Data Factory a Synapse Analytics HDInsight sú teraz podporované aj v aktivite Azure HDInsight pre Data Factory v službe Microsoft Fabric, v časti Rozšírené v používateľskom rozhraní. Všetky tieto vlastnosti podporujú jednoducho použiteľné vlastné parametrizované výrazy s dynamickým obsahom.
Typ klastra
Ak chcete nakonfigurovať nastavenia pre klaster HDInsight, najskôr si vyberte jeho typ z dostupných možností vrátane hive, Map Reduce, Pig, Spark a Streaming.
Úľ
Ak vyberiete možnosť Hive pre typ, aktivita spustí dotaz Hive. Môžete voliteľne zadať pripojenie skriptu, ktoré odkazuje na konto úložiska s typom Hive. Predvolene sa používa pripojenie úložiska, ktoré ste zadali na karte klastra HDI. Je potrebné zadať cestu k súboru, ktorá sa má vykonať v službe Azure HDInsight. Voliteľne môžete zadať viac konfigurácií v časti Rozšírené , informácie o ladení, časový limit dotazu, argumenty, parametre a premenné.
Zmenšenie mapy
Ak v časti Typ vyberiete možnosť Map Reduce (Zníženiepočtu máp), aktivita vyvolá program Map Reduce (Zníženie počtu máp). V pripojení k poháru môžete voliteľne zadať odkazovanie na konto úložiska, v ktorom je uložený typ zníženia počtu máp. Predvolene sa používa pripojenie úložiska, ktoré ste zadali na karte klastra HDI. Musíte zadať názov triedy a cestu k súboru, ktoré sa majú vykonať v službe Azure HDInsight. Voliteľne môžete zadať ďalšie podrobnosti konfigurácie, ako je napríklad import knižníc Jar, informácie o ladení, argumenty a parametre v časti Rozšírené .
Prasa
Ak vyberiete možnosť Prasa pre typ, aktivita vyvolá dotaz Pig (Prasa). Môžete voliteľne zadať nastavenie pripojenia skriptu, ktoré odkazuje na konto úložiska s typom prasaťa. Predvolene sa používa pripojenie úložiska, ktoré ste zadali na karte klastra HDI. Je potrebné zadať cestu k súboru, ktorá sa má vykonať v službe Azure HDInsight. Voliteľne môžete zadať ďalšie konfigurácie, ako napríklad informácie o ladení, argumenty, parametre a premenné v časti Rozšírené .
Spark
Ak vyberiete možnosť Spark for Type, aktivita vyvolá program Spark. Pre typ Spark vyberte položku Skript alebo Jar. Pripojenie k úlohe môžete voliteľne zadať tak, že odkazujete na konto úložiska, v ktorom je uložený typ Spark. Predvolene sa používa pripojenie úložiska, ktoré ste zadali na karte klastra HDI. Je potrebné zadať cestu k súboru, ktorá sa má vykonať v službe Azure HDInsight. Voliteľne môžete zadať ďalšie konfigurácie, ako napríklad názov triedy, používateľa proxy, informácie o ladení, argumenty a konfiguráciu spark v časti Rozšírené.
Streaming
Ak vyberiete možnosť Streamovanie pre typ, aktivita vyvolá program streamovania. Zadajte názvy Mapper a Reducer a môžete voliteľne zadať pripojenie k súboru, keď odkazujete na konto úložiska, v ktorom je uložený typ streamovania. Predvolene sa používa pripojenie úložiska, ktoré ste zadali na karte klastra HDI. Musíte zadať cestu k súboru pre Mapper a cestu k súboru pre Reducer , ktoré sa majú vykonať v službe Azure HDInsight. Zahrňte možnosti Vstupu a Výstup aj pre cestu WASB. Voliteľne môžete zadať ďalšie konfigurácie, ako napríklad informácie o ladení, argumenty a parametre v časti Rozšírené.
Odkaz na vlastnosť
Vlastnosť | Description | Povinné |
---|---|---|
zadať | V prípade aktivity streamovania hadoop je typ aktivity HDInsightStreaming | Áno |
Mapper | Určuje názov spustiteľného súboru mapper | Áno |
Redukcia | Určuje názov spustiteľného súboru reducer | Áno |
combiner (kombinovanie) | Určuje názov spustiteľného súboru kombinovača | No |
file connection (pripojenie k súboru) | Odkaz na službu Azure Storage Linked Service používanú na uloženie programov Mapper, Combiner a Reducer, ktoré sa majú vykonať. | No |
Tu sú podporované iba pripojenia Azure Blob Storage a ADLS Gen2. Ak toto pripojenie nezadáte, použije sa ukladacie pripojenie definované v pripojení HDInsight. | ||
filePath | Zadajte pole cesty k programom Mapper, Combiner a Reducer uloženým v službe Azure Storage, na ktorú odkazuje pripojenie k súboru. | Áno |
vstup | Určuje cestu WASB k vstupnému súboru pre mapper. | Áno |
výstup | Určuje cestu wasb k výstupného súboru pre Reducer. | Áno |
getDebugInfo | Určuje, kedy sa súbory denníka kopírujú do služby Azure Storage používanej klastrom HDInsight (alebo) špecifikovaným pomocou scriptLinkedService. | No |
Povolené hodnoty: Žiadne, Vždy alebo Neúspešné. Predvolená hodnota: Žiadne. | ||
Argumenty | Určuje pole argumentov pre úlohu servera Hadoop. Argumenty sa odovzdávajú ako argumenty príkazového riadka pre každú úlohu. | No |
Definuje | Ak chcete odkazovať v skripte Hive, zadajte parametre ako páry kľúč/hodnota. | No |
Uloženie a spustenie alebo naplánovanie kanála
Po nakonfigurovaní ďalších aktivít potrebných pre váš kanál prejdite na kartu Domov v hornej časti editora kanála a vyberte tlačidlo Uložiť, čím kanál uložíte. Vyberte položku Spustiť, aby ste ju spustili priamo, alebo ak ju chcete naplánovať, vyberte položku Spustiť. Históriu spúšťania môžete zobraziť aj tu alebo konfigurovať iné nastavenia.