Zdieľať cez


Kurz: Použitie notebooku so službou Apache Spark na dotazovanie databázy KQL

Poznámkové bloky sú čitateľné dokumenty obsahujúce popisy a výsledky analýzy údajov, ako aj spustiteľné dokumenty, ktoré je možné spustiť na vykonanie analýzy údajov. V tomto článku sa dozviete, ako používať poznámkový blok služby Microsoft Fabric na čítanie a zapisovaie údajov do databázy KQL pomocou Apache Spark. V tomto kurze sa používajú vopred vytvorené množiny údajov a poznámkové bloky v prostredí Inteligencia v reálnom čase aj v prostredí na Dátový inžinier v službe Microsoft Fabric. Ďalšie informácie o poznámkových blokoch nájdete v téme Ako používať poznámkové bloky služby Microsoft Fabric.

Konkrétne sa naučíte:

  • Vytvorenie databázy KQL
  • Importovanie poznámkového bloku
  • Zápis údajov do databázy KQL pomocou Apache Spark
  • Dotazovanie údajov z databázy KQL

Požiadavky

1– Vytvorenie databázy KQL

  1. Z ľavého navigačného panela vyberte pracovný priestor.

  2. Ak chcete začať vytvárať udalosť eventstream, postupujte podľa jedného z týchto krokov:

    • Vyberte Nová položka a potom Eventhouse. Do poľa názov Eventhouse zadajte nycGreenTaxi, a potom vyberte položky Vytvoriť. S rovnakým názvom sa vygeneruje databáza KQL.
    • V existujúcom súbore udalostí vyberte položky Databázy. V časti databázy KQL vyberte +, do poľa Názov databázy KQL zadajte nycGreenTaxia potom vyberte položku Vytvoriť.
  3. Skopírujte identifikátor URI dotazu z karty s podrobnosťami databázy na tabuli databázy a vložte ho niekde, ako je poznámkový blok, aby ste ho mohli použiť v ďalšom kroku.

     Snímka obrazovky karty s podrobnosťami databázy, ktorá zobrazuje podrobnosti o databáze. Možnosť URI dotazu s názvom Kopírovať identifikátor URI je zvýraznená.

2- Na stiahnutie NYC GreenTaxi notebook

Vytvorili sme ukážkový poznámkový blok, ktorý vás prevedie všetkými potrebnými krokmi na načítanie údajov do databázy pomocou konektora Spark.

  1. Otvorte odkladací priestor vzoriek tkaniny na GitHube a stiahnite si notebook NYC GreenTaxi KQL..

    Snímka obrazovky odkladacieho priestoru GitHub zobrazujúca poznámkový blok NYC GreenTaxi. Možnosť Nespracované je zvýraznená.

  2. Poznámkový blok uložte lokálne do zariadenia.

    Poznámka

    Poznámkový blok musí byť uložený vo formáte .ipynb súboru.

3– Naimportujte poznámkový blok

Zvyšok tohto pracovného postupu sa nachádza v sekcii Dátový inžinier produktu a na načítanie a dotazovanie údajov v databáze KQL používa poznámkový blok Spark.

  1. Z pracovného priestoru vyberte položky Importovať>Poznámkový blok>Z tohto počítača>nahrať potom vyberte poznámkový blok NYC GreenTaxi, ktorý ste si stiahli v predchádzajúcom kroku.

    Snímka obrazovky s oknom Stavu importu. Tlačidlo s názvom Nahrať je zvýraznené.

  2. Po dokončení importu otvorte poznámkový blok z pracovného priestoru.

4– Získanie údajov

Ak chcete dotazovať databázu pomocou konektora Spark, musíte poskytnúť prístup na čítanie a zápis do kontajnera objektu BLOB NYC GreenTaxi.

Vyberte tlačidlo Prehrať na spustenie nasledujúcich buniek alebo vyberte bunku a stlačte Shift + Enter. Tento krok zopakujte pre každú bunku kódu.

Poznámka

Pred spustením ďalšej bunky počkajte, kým sa zobrazí znak začiarknutia dokončenia.

  1. Spustením nasledujúcej bunky povoľte prístup ku kontajneru objektu BLOB NYC GreenTaxi.

    Snímka obrazovky prvej bunky kódu zobrazujúca informácie o prístupe k úložisku.

  2. Do identifikátora KustoURI prilepte identifikátor URI dotazu, ktorý ste skopírovali skôr , namiesto zástupného textu.

  3. Zmeňte názov databázy zástupného objektu na nycGreenTaxi.

  4. Zmeňte názov tabuľky zástupného objektu na GreenTaxiData.

    Snímka obrazovky druhej bunky kódu zobrazujúca informácie o cieľovej databáze. Identifikátor URI dotazu, názov databázy a názov tabuľky sú zvýraznené.

  5. Spustite bunku.

  6. Spustením ďalšej bunky zapíšte údaje do databázy. Dokončenie tohto kroku môže trvať niekoľko minút.

    Snímka obrazovky s treťou bunkou kódu zobrazujúca priradenie tabuľky a príkaz príjmu.

Databáza má teraz načítané údaje v tabuľke s názvom GreenTaxiData.

5– Spustite poznámkový blok

Spustite zostávajúce dve bunky postupne, aby ste mohli dotazovať údaje z tabuľky. Výsledky ukazujú top 20 najvyšších a najnižších taxi cestovné a vzdialenosti zaznamenané v roku.

Snímka obrazovky štvrtej a piatej bunky kódu zobrazujúca výsledky dotazu.

6- Vyčistenie zdrojov

Vyčistíte položky vytvorené prechodom do pracovného priestoru, v ktorom boli vytvorené.

  1. Vo svojom pracovnom priestore ukážte myšou na notebook, ktorý chcete odstrániť, vyberte ponuku Viac [...] >Vymazať.

    Snímka obrazovky pracovného priestoru zobrazujúca rozbaľovaciu ponuku poznámkového bloku NYC GreenTaxi. Možnosť s názvom Odstrániť je zvýraznená.

  2. Vyberte Odstrániť. Poznámkový blok už nebudete môcť obnoviť, ak ho odstránite.