Zdieľať cez


Transformácia údajov spustením aktivity služby Azure Databricks

Aktivita Azure Databricks v službe Data Factory pre Microsoft Fabric umožňuje koordinovať nasledujúce úlohy v službe Azure Databricks:

  • Poznámkový blok
  • Nádoba
  • Python

Tento článok poskytuje podrobný návod, ktorý popisuje, ako vytvoriť aktivitu v službe Azure Databricks pomocou rozhrania Data Factory.

Požiadavky

Na začiatok musíte splniť nasledujúce predpoklady:

Konfigurácia aktivity Azure Databricks

Ak chcete v kanáli použiť aktivitu Azure Databricks, vykonajte nasledujúce kroky:

Konfigurácia pripojenia

  1. Vytvorte nový kanál vo svojom pracovnom priestore.

  2. Kliknite na položku pridať aktivitu kanála a vyhľadajte položku Azure Databricks.

    Snímka obrazovky stránky prvého kontaktu kanálov údajov služby Fabric a zvýraznenej aktivity služby Azure Databricks.

  3. Môžete tiež vyhľadať položku Azure Databricks na table Aktivity kanála a vybrať ju a pridať ju na plátno kanála.

    Snímka obrazovky používateľského rozhrania služby Fabric so zvýraznenou tablou Aktivity a aktivitami služby Azure Databricks.

  4. Vyberte novú aktivitu Azure Databricks na plátne, ak ešte nie je vybratá.

    Snímka obrazovky zobrazujúca kartu Všeobecné nastavenia aktivity Azure Databricks.

Ak chcete nakonfigurovať kartu Všeobecné nastavenia, prečítajte si tému Všeobecné pokyny na nastavenie.

Konfigurácia klastrov

  1. Vyberte kartu Klaster. Potom môžete vybrať existujúce alebo vytvoriť nové pripojenie Azure Databricks a potom vybrať nový klaster úloh, existujúci interaktívny klaster alebo existujúci fond inštancií.

  2. V závislosti od toho, čo si pre klaster vyberiete, vyplňte zodpovedajúce polia tak, ako sú uvedené.

    • V novom klastri úloh a v existujúcom fonde inštancií máte tiež možnosť nakonfigurovať počet pracovníkov a povoliť inštancie na mieste.
  3. Môžete tiež zadať ďalšie nastavenia klastra, ako je napríklad politika klastra, konfigurácia služby Spark, premenné prostredia spark a vlastné značky, ktoré sú potrebné pre klaster, ku ktorom sa pripájate. Databricks init skripty a cieľovú cestu denníka klastra môžu byť tiež pridané v rámci ďalších nastavení klastra.

    Poznámka

    Všetky rozšírené vlastnosti klastra a dynamické výrazy podporované v prepojenej službe Azure Data Factory Azure Databricks sú teraz podporované aj v aktivite Azure Databricks v službe Microsoft Fabric v časti Konfigurácia ďalšieho klastra v používateľskom rozhraní. Keďže tieto vlastnosti sú teraz zahrnuté do používateľského rozhrania aktivity; Možno ich jednoducho použiť s výrazom (dynamický obsah) bez potreby špecifikácie JSON v prepojenej službe Azure Data Factory Azure Databricks.

    Snímka obrazovky znázorňujúca kartu Nastavenia klastra aktivity Azure Databricks.

  4. Aktivita Azure Databricks teraz podporuje aj politiku klastra a podporu katalógu Unity.

    • V časti Rozšírené nastavenia máte možnosť vybrať politiku klastra, aby ste mohli určiť, ktoré konfigurácie klastrov budú povolené.
    • V časti Rozšírené nastavenia máte tiež možnosť nakonfigurovať režim prístupu k katalógu Unity pre pridané zabezpečenie. Dostupné typy režimu prístupu sú:
      • Single User Access Mode (Režim prístupu pre jedného používateľa) Tento režim je určený pre scenáre, kedy každý klaster používa jeden používateľ. Tým sa zabezpečí, že prístup k údajom v rámci klastra bude obmedzený len na daného používateľa. Tento režim je užitočný pri úlohách, ktoré vyžadujú izoláciu a spracovanie jednotlivých údajov.
      • Režim zdieľaného prístupu V tomto režime môžu k rovnakému klastru pristupovať viacerí používatelia. Kombinuje riadenie údajov v katalógu Unity so zoznamami ovládacích prvkov prístupu k starším tabuľkám (ACL). Tento režim umožňuje kolaboratívny prístup k údajom pri zachovaní protokolov riadenia a zabezpečenia. Má však určité obmedzenia, ako napríklad nepodporujú strojové učenie Databricks runtime, úlohy spark-submit a konkrétne rozhrania Spark API a UDF.
      • Žiadny režim prístupu Tento režim zakáže interakciu s Katalógom Unity, čo znamená, že klastre nemajú prístup k údajom spravovaných katalógom Unity. Tento režim je užitočný pri vyťaženiach, ktoré nevyžadujú funkcie riadenia katalógu Unity.

    Snímka obrazovky znázorňujúca ID politiky a podporu katalógu Unity na karte Nastavenia klastra aktivity Azure Databricks.

Konfigurácia nastavení

Výberom karty Nastavenia si môžete vybrať z 3 možností typu Azure Databricks, ktoré chcete koordinovať.

Snímka obrazovky zobrazujúca kartu Nastavenia aktivity služby Azure Databricks.

Organizovanie typu Poznámkový blok v aktivite Azure Databricks:

  1. Ak chcete spustiť poznámkový blok, na karte Nastavenia môžete vybrať tlačidlo Prepínač poznámkového bloku. Budete musieť zadať cestu poznámkového bloku, ktorá sa má vykonať v službe Azure Databricks, voliteľné základné parametre, ktoré sa majú preniesť do poznámkového bloku, a všetky ďalšie knižnice, ktoré sa majú nainštalovať do klastra na vykonanie úlohy.

    Snímka obrazovky zobrazujúca typ Poznámkové bloky aktivity Azure Databricks.

Organizovanie typu Jar v aktivite Azure Databricks:

  1. Na karte Nastavenia môžete výberom tlačidla prepínača Jar spustiť jar. Budete musieť zadať názov triedy, ktorá sa má vykonať v službe Azure Databricks, voliteľné základné parametre, ktoré sa majú odovzdať do pohára, a všetky ďalšie knižnice, ktoré sa majú nainštalovať v klastri na vykonanie úlohy.

    Snímka obrazovky zobrazujúca typ jar aktivity služby Azure Databricks.

Koordinovanie typu jazyka Python v aktivite Azure Databricks:

  1. Na karte Nastavenia môžete výberom tlačidla prepínača v jazyku Python spustiť súbor v jazyku Python. Budete musieť zadať cestu v službe Azure Databricks k súboru jazyka Python, ktorý sa má vykonať, voliteľné základné parametre, ktoré sa majú odovzdať, a všetky ďalšie knižnice, ktoré sa majú nainštalovať v klastri na vykonanie úlohy.

    Snímka obrazovky zobrazujúca typ aktivity Azure Databricks v jazyku Python.

Podporované knižnice pre aktivitu Azure Databricks

Vo vyššie uvedenej definícii aktivity funkcie Databricks môžete zadať tieto typy knižnice: jar, egg, whl, maven, pypi, cran.

Ďalšie informácie nájdete v dokumentácii databricks pre typy knižníc.

Odovzdávanie parametrov medzi aktivitami a kanálmi Azure Databricks

Parametre môžete do poznámkových blokov odovzdať pomocou vlastnosti baseParameters v aktivite databricks.

V niektorých prípadoch môžete vyžadovať odovzdanie určitých hodnôt z notebooku späť do služby, čo možno použiť na kontrolu postupu (podmienené kontroly) v službe alebo by ich mohli využívať následné aktivity (limit veľkosti je 2 MB).

  1. V poznámkovom počítači môžete napríklad nazvať dbutils.notebook.exit("returnValue") a do služby sa vráti zodpovedajúca hodnota returnValue.

  2. Výstup v službe môžete použiť pomocou výrazu ako @{activity('databricks activity name').output.runOutput}.

Snímka obrazovky znázorňujúca odovzdanie základných parametrov v aktivite Azure Databricks.

Uloženie a spustenie alebo naplánovanie kanála

Po nakonfigurovaní ďalších aktivít potrebných pre váš kanál prejdite na kartu Domov v hornej časti editora kanála a vyberte tlačidlo Uložiť, čím kanál uložíte. Vyberte položku Spustiť, aby ste ju spustili priamo, alebo ak ju chcete naplánovať, vyberte položku Spustiť. Históriu spúšťania môžete zobraziť aj tu alebo konfigurovať iné nastavenia.

Snímka obrazovky znázorňujúca spôsob uloženia a spustenia kanála.

Ako sledovať spustenie kanála