Transformácia údajov spustením aktivity služby Azure Databricks
Aktivita Azure Databricks v službe Data Factory pre Microsoft Fabric umožňuje koordinovať nasledujúce úlohy v službe Azure Databricks:
- Poznámkový blok
- Nádoba
- Python
Tento článok poskytuje podrobný návod, ktorý popisuje, ako vytvoriť aktivitu v službe Azure Databricks pomocou rozhrania Data Factory.
Požiadavky
Na začiatok musíte splniť nasledujúce predpoklady:
- Konto nájomníka s aktívnym predplatným. Vytvorte si bezplatné konto.
- Vytvorí sa pracovný priestor.
Konfigurácia aktivity Azure Databricks
Ak chcete v kanáli použiť aktivitu Azure Databricks, vykonajte nasledujúce kroky:
Konfigurácia pripojenia
Vytvorte nový kanál vo svojom pracovnom priestore.
Kliknite na položku pridať aktivitu kanála a vyhľadajte položku Azure Databricks.
Môžete tiež vyhľadať položku Azure Databricks na table Aktivity kanála a vybrať ju a pridať ju na plátno kanála.
Vyberte novú aktivitu Azure Databricks na plátne, ak ešte nie je vybratá.
Ak chcete nakonfigurovať kartu Všeobecné nastavenia, prečítajte si tému Všeobecné pokyny na nastavenie.
Konfigurácia klastrov
Vyberte kartu Klaster. Potom môžete vybrať existujúce alebo vytvoriť nové pripojenie Azure Databricks a potom vybrať nový klaster úloh, existujúci interaktívny klaster alebo existujúci fond inštancií.
V závislosti od toho, čo si pre klaster vyberiete, vyplňte zodpovedajúce polia tak, ako sú uvedené.
- V novom klastri úloh a v existujúcom fonde inštancií máte tiež možnosť nakonfigurovať počet pracovníkov a povoliť inštancie na mieste.
Môžete tiež zadať ďalšie nastavenia klastra, ako je napríklad politika klastra, konfigurácia služby Spark, premenné prostredia spark a vlastné značky, ktoré sú potrebné pre klaster, ku ktorom sa pripájate. Databricks init skripty a cieľovú cestu denníka klastra môžu byť tiež pridané v rámci ďalších nastavení klastra.
Poznámka
Všetky rozšírené vlastnosti klastra a dynamické výrazy podporované v prepojenej službe Azure Data Factory Azure Databricks sú teraz podporované aj v aktivite Azure Databricks v službe Microsoft Fabric v časti Konfigurácia ďalšieho klastra v používateľskom rozhraní. Keďže tieto vlastnosti sú teraz zahrnuté do používateľského rozhrania aktivity; Možno ich jednoducho použiť s výrazom (dynamický obsah) bez potreby špecifikácie JSON v prepojenej službe Azure Data Factory Azure Databricks.
Aktivita Azure Databricks teraz podporuje aj politiku klastra a podporu katalógu Unity.
- V časti Rozšírené nastavenia máte možnosť vybrať politiku klastra, aby ste mohli určiť, ktoré konfigurácie klastrov budú povolené.
- V časti Rozšírené nastavenia máte tiež možnosť nakonfigurovať režim prístupu k katalógu Unity pre pridané zabezpečenie. Dostupné typy režimu prístupu sú:
- Single User Access Mode (Režim prístupu pre jedného používateľa) Tento režim je určený pre scenáre, kedy každý klaster používa jeden používateľ. Tým sa zabezpečí, že prístup k údajom v rámci klastra bude obmedzený len na daného používateľa. Tento režim je užitočný pri úlohách, ktoré vyžadujú izoláciu a spracovanie jednotlivých údajov.
- Režim zdieľaného prístupu V tomto režime môžu k rovnakému klastru pristupovať viacerí používatelia. Kombinuje riadenie údajov v katalógu Unity so zoznamami ovládacích prvkov prístupu k starším tabuľkám (ACL). Tento režim umožňuje kolaboratívny prístup k údajom pri zachovaní protokolov riadenia a zabezpečenia. Má však určité obmedzenia, ako napríklad nepodporujú strojové učenie Databricks runtime, úlohy spark-submit a konkrétne rozhrania Spark API a UDF.
- Žiadny režim prístupu Tento režim zakáže interakciu s Katalógom Unity, čo znamená, že klastre nemajú prístup k údajom spravovaných katalógom Unity. Tento režim je užitočný pri vyťaženiach, ktoré nevyžadujú funkcie riadenia katalógu Unity.
Konfigurácia nastavení
Výberom karty Nastavenia si môžete vybrať z 3 možností typu Azure Databricks, ktoré chcete koordinovať.
Organizovanie typu Poznámkový blok v aktivite Azure Databricks:
Ak chcete spustiť poznámkový blok, na karte Nastavenia môžete vybrať tlačidlo Prepínač poznámkového bloku. Budete musieť zadať cestu poznámkového bloku, ktorá sa má vykonať v službe Azure Databricks, voliteľné základné parametre, ktoré sa majú preniesť do poznámkového bloku, a všetky ďalšie knižnice, ktoré sa majú nainštalovať do klastra na vykonanie úlohy.
Organizovanie typu Jar v aktivite Azure Databricks:
Na karte Nastavenia môžete výberom tlačidla prepínača Jar spustiť jar. Budete musieť zadať názov triedy, ktorá sa má vykonať v službe Azure Databricks, voliteľné základné parametre, ktoré sa majú odovzdať do pohára, a všetky ďalšie knižnice, ktoré sa majú nainštalovať v klastri na vykonanie úlohy.
Koordinovanie typu jazyka Python v aktivite Azure Databricks:
Na karte Nastavenia môžete výberom tlačidla prepínača v jazyku Python spustiť súbor v jazyku Python. Budete musieť zadať cestu v službe Azure Databricks k súboru jazyka Python, ktorý sa má vykonať, voliteľné základné parametre, ktoré sa majú odovzdať, a všetky ďalšie knižnice, ktoré sa majú nainštalovať v klastri na vykonanie úlohy.
Podporované knižnice pre aktivitu Azure Databricks
Vo vyššie uvedenej definícii aktivity funkcie Databricks môžete zadať tieto typy knižnice: jar, egg, whl, maven, pypi, cran.
Ďalšie informácie nájdete v dokumentácii databricks pre typy knižníc.
Odovzdávanie parametrov medzi aktivitami a kanálmi Azure Databricks
Parametre môžete do poznámkových blokov odovzdať pomocou vlastnosti baseParameters v aktivite databricks.
V niektorých prípadoch môžete vyžadovať odovzdanie určitých hodnôt z notebooku späť do služby, čo možno použiť na kontrolu postupu (podmienené kontroly) v službe alebo by ich mohli využívať následné aktivity (limit veľkosti je 2 MB).
V poznámkovom počítači môžete napríklad nazvať dbutils.notebook.exit("returnValue") a do služby sa vráti zodpovedajúca hodnota returnValue.
Výstup v službe môžete použiť pomocou výrazu ako
@{activity('databricks activity name').output.runOutput}
.
Uloženie a spustenie alebo naplánovanie kanála
Po nakonfigurovaní ďalších aktivít potrebných pre váš kanál prejdite na kartu Domov v hornej časti editora kanála a vyberte tlačidlo Uložiť, čím kanál uložíte. Vyberte položku Spustiť, aby ste ju spustili priamo, alebo ak ju chcete naplánovať, vyberte položku Spustiť. Históriu spúšťania môžete zobraziť aj tu alebo konfigurovať iné nastavenia.