Zdieľať cez


Spravovanie knižníc Apache Spark v službe Microsoft Fabric

Knižnica je kolekcia predpísaného kódu, ktorý vývojári môžu importovať, aby poskytli funkcie. Pomocou knižníc môžete ušetriť čas a námahu tým, že nebudete musieť písať kód úplne od začiatku, aby ste mohli vykonávať bežné úlohy. Namiesto toho importujte knižnicu a použite jej funkcie a triedy na dosiahnutie požadovanej funkcie. Microsoft Fabric poskytuje viacero mechanizmov, ktoré vám pomôžu spravovať a používať knižnice.

  • Vstavané knižnice: Každý modul runtime služby Fabric Spark poskytuje bohatú množinu populárnych predinštalovaných knižníc. Úplný zoznam vstavaných knižníc nájdete v službe Fabric Spark Runtime.
  • Verejné knižnice: Verejné knižnice sa získavajú z odkladacích priestorov, ako sú PyPI a Conda, ktoré sú v súčasnosti podporované.
  • Vlastné knižnice: Vlastné knižnice odkazujú na kód, ktorý ste vytvorili vy alebo vaša organizácia. Fabric ich podporuje vo formátoch .whl, .jar a .tar.gz . Fabric podporuje .tar.gz len pre jazyk R. Pre vlastné knižnice jazyka Python použite formát .whl .

Súhrn osvedčených postupov spravovania knižníc

Nasledujúce scenáre popisujú najvhodnejšie postupy pri používaní knižníc v službe Microsoft Fabric.

Scenár 1: Správca nastaví predvolené knižnice pre pracovný priestor

Ak chcete nastaviť predvolené knižnice, musíte byť správcom pracovného priestoru. Ako správca môžete vykonávať tieto úlohy:

  1. Vytvorte nové prostredie
  2. Inštalácia požadovaných knižníc v prostredí
  3. Pripojte toto prostredie ako predvolené pracovné prostredie

Keď sú vaše poznámkové bloky a definície úloh služby Spark pripojené k nastaveniam pracovného priestoru, začnú relácie s knižnicami inštalovanými v predvolenom prostredí pracovného priestoru.

Scenár 2: Zachovať špecifikácie knižnice pre jednu alebo viacero položiek kódu

Ak máte bežné knižnice pre rôzne položky kódu a nevyžadujete častú aktualizáciu, inštalácia knižníc v prostredí a jeho pripojenie k položkám kódu je dobrou voľbou.

Bude to nejaký čas trvať, kým sa knižnice v prostrediach stanú účinnými pri publikovaní. Zvyčajne to trvá 5 až 15 minút, v závislosti od zložitosti knižníc. Počas tohto procesu systém pomôže vyriešiť potenciálne konflikty a stiahnuť požadované závislosti.

Jednou z výhod tohto prístupu je, že je zaručené, že úspešne nainštalované knižnice budú k dispozícii po spustení relácie služby Spark s priloženým prostredím. Uloží úsilie o udržiavanie spoločných knižníc pre vaše projekty.

Dôrazne sa odporúča pre scenáre kanálov s jeho stabilitou.

Scenár 3: Vnorená inštalácia v interaktívnom spustení

Ak používate poznámkové bloky na interaktívne písanie kódu, najlepším postupom je použitie vnorenej inštalácie na pridanie ďalších nových knižníc PyPI/conda alebo overenie používania vlastných knižníc na jednorazové použitie. Vložené príkazy v službe Fabric umožňujú efektívnu knižnicu v aktuálnej relácii notebooku Spark. Umožňuje rýchlu inštaláciu, ale nainštalovaná knižnica sa v rámci rôznych relácií nezachová.

Keďže %pip install z času na čas generujú rôzne stromy závislosti, čo môže viesť ku konfliktom v knižnici, vnorené príkazy sú predvolene vypnuté v spusteniach kanála a neodporúča sa používať vo vašich kanáloch.

Súhrn podporovaných typov knižníc

Typ knižnice Správa knižnice prostredia Vnorená inštalácia
Verejné v jazyku Python (PyPI a Conda) Podporované Podporované
Vlastný jazyk Python (.whl) Podporované Podporované
R Verejné (CRAN) Nie je podporované Podporované
Vlastný jazyk R (.tar.gz) Podporované ako vlastná knižnica Podporované
Nádoba Podporované ako vlastná knižnica Podporované

Vnorená inštalácia

Vložené príkazy podporujú spravovanie knižníc v jednotlivých notebookoch.

Vnorená inštalácia jazyka Python

Systém reštartuje tlmočníka jazyka Python, aby sa použila zmena knižníc. Všetky premenné definované pred spustením bunky príkazu sa stratia. Dôrazne odporúčame, aby ste na začiatok poznámkového bloku umiestnili všetky príkazy na pridanie, odstránenie alebo aktualizáciu balíkov jazyka Python.

Vnorené príkazy na spravovanie knižníc jazyka Python sú v predvolenom nastavení zakázané v poznámkovom kanáli. Ak chcete povoliť %pip install funkciu kanála, pridajte hodnotu _inlineInstallationEnabled, pretože parameter bool sa v parametroch aktivity poznámkového bloku rovná hodnote True.

Snímka obrazovky znázorňujúca konfiguráciu povolenia inštalácie pip pre spustenie notebookového kanála.

Poznámka

Môže %pip install z času na čas viesť k nekonzistentným výsledkom. Odporúča sa nainštalovať knižnicu v prostredí a použiť ju v kanáli. V prípade spustení odkazu na poznámkový blok nie sú podporované vnorené príkazy na spravovanie knižníc jazyka Python. Ak chcete zabezpečiť správnosť spúšťania, odporúča sa odstrániť tieto vnorené príkazy z odkazovaného poznámkového bloku.

Odporúčame %pip namiesto .!pip !pip je príkaz vstavaného prostredia IPython, ktorý má nasledujúce obmedzenia:

  • !pip Nainštaluje sa len balík na uzle ovládača, nie na uzle spustiteľného súboru.
  • Balíky, ktoré sa inštalujú prostredníctvom !pip , nemajú vplyv na konflikty so vstavanými balíkmi ani na to, či sú balíky už importované do poznámkového bloku.

Spracuje %pip však tieto scenáre. Knižnice nainštalované prostredníctvom %pip sú k dispozícii na uzloch ovládačov aj spúšťača a sú stále účinné, dokonca aj knižnica je už importovaná.

Prepitné

Príkaz %conda install zvyčajne trvá dlhšie, než príkaz na inštaláciu %pip install nových knižníc jazyka Python. Skontroluje všetky závislosti a vyrieši konflikty.

Možno budete chcieť použiť %conda install na väčšiu spoľahlivosť a stabilitu. Môžete použiť %pip install , ak si ste istí, že knižnica, ktorú chcete nainštalovať, nie je v rozpore s predinštalovanými knižnicami v prostredí runtime.

Všetky dostupné príkazy a objasnenia v jazyku Python nájdete v príkazoch %pip a príkazoch %conda.

Spravovanie verejných knižníc jazyka Python prostredníctvom vnorenej inštalácie

V tomto príklade sa dozviete, ako používať vnorené príkazy na spravovanie knižníc. Predpokladajme, že chcete použiť altair, výkonnú knižnicu vizualizácií pre jazyk Python, na jednorazový prieskum údajov. Predpokladajme, že knižnica nie je v pracovnom priestore nainštalovaná. Nasledujúci príklad znázorňuje kroky pomocou príkazov conda.

Pomocou vnorených príkazov môžete povoliť altair v relácii poznámkového bloku bez toho, aby to ovplyvnilo iné relácie poznámkového bloku alebo iných položiek.

  1. V bunke kódu poznámkového bloku spustite nasledujúce príkazy. Prvý príkaz nainštaluje knižnicu altair . Nainštalujte si tiež vega_datasets, ktorý obsahuje sémantický model, ktorý môžete použiť na vizualizáciu.

    %conda install altair          # install latest version through conda command
    %conda install vega_datasets   # install latest version through conda command
    

    Výstup bunky udáva výsledok inštalácie.

  2. Importujte balík a sémantický model spustením nasledujúceho kódu v inej bunke poznámkového bloku.

    import altair as alt
    from vega_datasets import data
    
  3. Teraz sa môžete pohrať s knižnicou altair v rámci relácie.

    # load a simple dataset as a pandas DataFrame
    cars = data.cars()
    alt.Chart(cars).mark_point().encode(
    x='Horsepower',
    y='Miles_per_Gallon',
    color='Origin',
    ).interactive()
    

Spravovanie vlastných knižníc jazyka Python prostredníctvom vnorenej inštalácie

Vlastné knižnice jazyka Python môžete nahrať do priečinka zdrojov poznámkového bloku alebo do pripojeného prostredia. Priečinky prostriedkov sú vstavaným systémom súborov, ktorý poskytujú jednotlivé poznámkové bloky a prostredia. Ďalšie podrobnosti nájdete v téme Poznámkové bloky . Po nahratí môžete vlastnú knižnicu presunúť myšou do bunky kódu, potom sa automaticky vygeneruje príkaz inline na inštaláciu knižnice. Alebo môžete nainštalovať pomocou nasledujúceho príkazu.

# install the .whl through pip command from the notebook built-in folder
%pip install "builtin/wheel_file_name.whl"             

Vnorená inštalácia jazyka R

Na spravovanie knižníc R podporuje install.packages()fabric príkazy , remove.packages()a devtools:: . Všetky dostupné príkazy r vnorenia a objasnenia nájdete v príkaze install.packages a remove.package.

Spravovanie verejných knižníc jazyka R prostredníctvom vnorenej inštalácie

Postupujte podľa tohto príkladu a prejdite si kroky inštalácie verejnej knižnice jazyka R.

Inštalácia knižnice informačného kanála R:

  1. Prepnite pracovný jazyk na sparkr (R) na páse s nástrojmi poznámkového bloku.

  2. Nainštalujte knižnicu notebookov spustením nasledujúceho príkazu v bunke poznámkového bloku.

    install.packages("caesar")
    
  3. Teraz sa môžete pohrať s knižnicou čakaní pri konfigurácii počas relácie pomocou úlohy Spark.

    library(SparkR)
    sparkR.session()
    
    hello <- function(x) {
    library(caesar)
    caesar(x)
    }
    spark.lapply(c("hello world", "good morning", "good evening"), hello)
    

Spravovanie knižníc Jar prostredníctvom vnorenej inštalácie

Súbory .jar podporujú relácie poznámkového bloku pomocou nasledujúceho príkazu.

%%configure -f
{
    "conf": {
        "spark.jars": "abfss://<<Lakehouse prefix>>.dfs.fabric.microsoft.com/<<path to JAR file>>/<<JAR file name>>.jar",
    }
}        

Bunka kódu používa ako príklad úložisko lakehouse. V prieskumníkovi poznámkového bloku môžete skopírovať úplnú cestu k súboru ABFS a nahradiť ju v kóde. Snímka obrazovky s príkazmi v ponuke na získanie cesty K ABFS.