Oktatóanyag: Jegyzetfüzet használata az Apache Spark használatával KQL-adatbázis lekérdezéséhez
A jegyzetfüzetek olvasható dokumentumok, amelyek adatelemzési leírásokat és eredményeket, valamint végrehajtható dokumentumokat tartalmaznak, amelyek az adatelemzés végrehajtásához futtathatók. Ebből a cikkből megtudhatja, hogyan olvashat és írhat adatokat egy KQL-adatbázisba egy Microsoft Fabric-jegyzetfüzet használatával az Apache Spark használatával. Ez az oktatóanyag előre létrehozott adathalmazokat és jegyzetfüzeteket használ a Valós idejű intelligencia és a Microsoft Fabric adatmérnök környezeteiben. A jegyzetfüzetekről további információt a Microsoft Fabric-jegyzetfüzetek használata című témakörben talál.
Pontosabban az alábbiakat sajátíthatja el:
- KQL-adatbázis létrehozása
- Jegyzetfüzet importálása
- Adatok írása KQL-adatbázisba az Apache Spark használatával
- Adatok lekérdezése KQL-adatbázisból
Előfeltételek
1 – KQL-adatbázis létrehozása
Válassza ki a munkaterületet a bal oldali navigációs sávon.
Az eseménystream létrehozásának megkezdéséhez kövesse az alábbi lépéseket:
- Válassza Új elem, majd Eventhouse. Az Eventhouse neve mezőben adja meg nycGreenTaxi, majd válassza a létrehozása lehetőséget. A KQL-adatbázis ugyanazzal a névvel jön létre.
- Egy meglévő eseményházban válassza Adatbázisoklehetőséget. A KQL-adatbázisok alatt válassza ki a +lehetőséget. A KQL-adatbázis neve mezőbe adja meg a nycGreenTaxiértéket, majd válassza ki a Létrehozáslehetőséget.
Másolja ki a lekérdezési URI-t az adatbázis-adatkártyáról az adatbázis irányítópultján, és illessze be valahová, például egy jegyzettömbbe egy későbbi lépésben való használathoz.
2 – Az NYC GreenTaxi jegyzetfüzetének letöltése
Létrehoztunk egy mintajegyzetfüzetet, amely végigvezeti az adatok Spark-összekötővel való betöltéséhez szükséges összes lépésen.
Nyissa meg a Fabric-minták adattárát a GitHubon az NYC GreenTaxi KQL-jegyzetfüzet letöltéséhez.
Mentse a jegyzetfüzetet helyileg az eszközére.
Feljegyzés
A jegyzetfüzetet fájlformátumban
.ipynb
kell menteni.
3 – A jegyzetfüzet importálása
A munkafolyamat többi része a termék adatmérnök szakaszában történik, és egy Spark-jegyzetfüzet használatával tölti be és kérdezi le az adatokat a KQL-adatbázisban.
A munkaterületről válassza a importálás>jegyzetfüzet>számítógépről>feltöltése lehetőséget, majd válassza ki az előző lépésben letöltött NYC GreenTaxi-jegyzetfüzetet.
Az importálás befejezése után nyissa meg a jegyzetfüzetet a munkaterületről.
4 – Adatok lekérése
Az adatbázis Spark-összekötővel való lekérdezéséhez olvasási és írási hozzáférést kell adnia az NYC GreenTaxi blobtárolóhoz.
A lejátszás gombra kattintva futtassa a következő cellákat, vagy jelölje ki a cellát, és nyomja le a Shift+ Enter billentyűkombinációt. Ismételje meg ezt a lépést minden kódcella esetében.
Feljegyzés
Várja meg, amíg megjelenik a befejezési pipa a következő cella futtatása előtt.
Futtassa a következő cellát az NYC GreenTaxi blobtárolóhoz való hozzáférés engedélyezéséhez.
A KustoURI-ban illessze be a korábban másolt lekérdezési URI-ta helyőrző szöveg helyett.
Módosítsa a helyőrző adatbázis nevét nycGreenTaxi névre.
Módosítsa a helyőrző tábla nevét GreenTaxiData-ra.
Futtassa a cellát.
Futtassa a következő cellát az adatok adatbázisba való írásához. A lépés végrehajtása eltarthat néhány percig.
Az adatbázis most már betölti az adatokat egy GreenTaxiData nevű táblába.
5 – A jegyzetfüzet futtatása
Futtassa a fennmaradó két cellát egymás után a tábla adatainak lekérdezéséhez. Az eredmények azt mutatják, hogy az első 20 legmagasabb és legalacsonyabb taxi viteldíjak és távolságok rögzített év.
6 – Erőforrások törlése
Törölje a létrehozott elemeket a munkaterületre való navigálással.
A munkaterületen mutasson a törölni kívánt jegyzetfüzetre, és válassza a Továbbiak menüt [...] >Törlés.
Válassza a Törlés lehetőséget. A jegyzetfüzet törlése után nem állítható helyre.