Kurz: Použitie notebooku so službou Apache Spark na dotazovanie databázy KQL
Poznámkové bloky sú čitateľné dokumenty obsahujúce popisy a výsledky analýzy údajov, ako aj spustiteľné dokumenty, ktoré je možné spustiť na vykonanie analýzy údajov. V tomto článku sa dozviete, ako používať poznámkový blok služby Microsoft Fabric na čítanie a zapisovaie údajov do databázy KQL pomocou Apache Spark. V tomto kurze sa používajú vopred vytvorené množiny údajov a poznámkové bloky v prostredí Inteligencia v reálnom čase aj v prostredí na Dátový inžinier v službe Microsoft Fabric. Ďalšie informácie o poznámkových blokoch nájdete v téme Ako používať poznámkové bloky služby Microsoft Fabric.
Konkrétne sa naučíte:
- Vytvorenie databázy KQL
- Importovanie poznámkového bloku
- Zápis údajov do databázy KQL pomocou Apache Spark
- Dotazovanie údajov z databázy KQL
Požiadavky
- Pracovný priestor s kapacitou povolenou pre službu Microsoft Fabric
1– Vytvorenie databázy KQL
Z ľavého navigačného panela vyberte pracovný priestor.
Ak chcete začať vytvárať udalosť eventstream, postupujte podľa jedného z týchto krokov:
- Vyberte Nová položka
a potom Eventhouse . Do poľa názov Eventhouse zadajte nycGreenTaxi, a potom vyberte položky Vytvoriť. S rovnakým názvom sa vygeneruje databáza KQL. - V existujúcom súbore udalostí vyberte položky Databázy. V časti databázy KQL vyberte +, do poľa Názov databázy KQL zadajte nycGreenTaxia potom vyberte položku Vytvoriť.
- Vyberte Nová položka
Skopírujte identifikátor URI dotazu z karty s podrobnosťami databázy na tabuli databázy a vložte ho niekde, ako je poznámkový blok, aby ste ho mohli použiť v ďalšom kroku.
2- Na stiahnutie NYC GreenTaxi notebook
Vytvorili sme ukážkový poznámkový blok, ktorý vás prevedie všetkými potrebnými krokmi na načítanie údajov do databázy pomocou konektora Spark.
Otvorte odkladací priestor vzoriek tkaniny na GitHube a stiahnite si notebook NYC GreenTaxi KQL..
Poznámkový blok uložte lokálne do zariadenia.
Poznámka
Poznámkový blok musí byť uložený vo formáte
.ipynb
súboru.
3– Naimportujte poznámkový blok
Zvyšok tohto pracovného postupu sa nachádza v sekcii Dátový inžinier produktu a na načítanie a dotazovanie údajov v databáze KQL používa poznámkový blok Spark.
Z pracovného priestoru vyberte položky Importovať>Poznámkový blok>Z tohto počítača>nahrať potom vyberte poznámkový blok NYC GreenTaxi, ktorý ste si stiahli v predchádzajúcom kroku.
Po dokončení importu otvorte poznámkový blok z pracovného priestoru.
4– Získanie údajov
Ak chcete dotazovať databázu pomocou konektora Spark, musíte poskytnúť prístup na čítanie a zápis do kontajnera objektu BLOB NYC GreenTaxi.
Vyberte tlačidlo Prehrať na spustenie nasledujúcich buniek alebo vyberte bunku a stlačte Shift + Enter. Tento krok zopakujte pre každú bunku kódu.
Poznámka
Pred spustením ďalšej bunky počkajte, kým sa zobrazí znak začiarknutia dokončenia.
Spustením nasledujúcej bunky povoľte prístup ku kontajneru objektu BLOB NYC GreenTaxi.
Do identifikátora KustoURI prilepte identifikátor URI dotazu, ktorý ste skopírovali skôr , namiesto zástupného textu.
Zmeňte názov databázy zástupného objektu na nycGreenTaxi.
Zmeňte názov tabuľky zástupného objektu na GreenTaxiData.
Spustite bunku.
Spustením ďalšej bunky zapíšte údaje do databázy. Dokončenie tohto kroku môže trvať niekoľko minút.
Databáza má teraz načítané údaje v tabuľke s názvom GreenTaxiData.
5– Spustite poznámkový blok
Spustite zostávajúce dve bunky postupne, aby ste mohli dotazovať údaje z tabuľky. Výsledky ukazujú top 20 najvyšších a najnižších taxi cestovné a vzdialenosti zaznamenané v roku.
6- Vyčistenie zdrojov
Vyčistíte položky vytvorené prechodom do pracovného priestoru, v ktorom boli vytvorené.
Vo svojom pracovnom priestore ukážte myšou na notebook, ktorý chcete odstrániť, vyberte ponuku Viac [...] >Vymazať.
Vyberte Odstrániť. Poznámkový blok už nebudete môcť obnoviť, ak ho odstránite.