Vizualizácia poznámkového blokov v službe Microsoft Fabric
Microsoft Fabric je integrovaná analytická služba, ktorá urýchľuje čas na pochopenie v skladoch údajov a analytických systémoch pre veľké objemy údajov. Vizualizácia údajov v poznámkových blokoch je kľúčovou súčasťou, ktorá vám umožňuje získať prehľad o údajoch. Pomáha to uľahčiť pochopenie veľkých aj malých údajov pre ľudí. Uľahčuje tiež zisťovanie vzorov, trendov a odchýlok v skupinách údajov.
Keď používate Apache Spark v službe Fabric, existujú rôzne vstavané možnosti, ktoré vám pomôžu vizualizovať údaje vrátane možností poznámkového grafu služby Fabric a prístupu k populárnym knižniciam open-source.
Pri použití poznámkového bloku služby Fabric môžete pomocou možností grafu zmeniť zobrazenie tabuľkových výsledkov na prispôsobený graf. Tu môžete vizualizovať svoje údaje bez toho, aby ste museli písať kód.
Príkaz na vstavanú vizualizáciu – funkcia display()
Vstavaná funkcia vizualizácie v službe Fabric umožňuje zmeniť údajové rámce Apache Spark, Pandas DataFrames a výsledky dotazu SQL na vizualizácie údajov s bohatým formátom.
Funkciu zobrazenia môžete použiť v údajových rámcoch, ktoré boli vytvorené v PySparku a scala na prvkoch údajovýchframeov Spark alebo v časti Odolný distribuované množiny údajov (RDD), a vytvoriť tak zobrazenie tabuľky s bohatým údajovým rámec a zobrazenia grafu.
Môžete určiť počet riadkov údajového rámca, ktorý sa vykreslí. Predvolená hodnota je 1 000. Poznámkový blok zobrazenie výstupnou miniaplikácia podporuje zobrazenie a profilovanie 10000 riadkami údajového rámca.
Funkciu filtra môžete použiť na globálnom paneli s nástrojmi na efektívne filtrovanie údajov, ktoré sa priraďujú s vašim prispôsobeným pravidlom, podmienka sa použije na zadaný stĺpec a výsledok filtra sa odráža v zobrazení tabuľky aj zobrazení grafu.
Výstupom príkazu SQL sa prijíma rovnaká výstupná miniaplikácia s predvolenou
Zobrazenie tabuľky s bohatým údajovým rámcom
Podpora bezplatného výberu v zobrazení tabuľky
Zobrazenie tabuľky sa vykreslí predvolene pri použití príkazu display( ). Bohatá ukážka údajového rámca v notebooku ponúka funkciu výberu zdarma navrhnutú na vylepšenie prostredia analýzy údajov prostredníctvom flexibilných a intuitívnych možností výberu. Táto funkcia umožňuje používateľom efektívnejšie a jednoduchšie pracovať s údajovými rámcami a získať podrobnejší prehľad.
výberu stĺpca
- položky Jeden stĺpec: Kliknutím na hlavičku stĺpca vyberte celý stĺpec.
- viacero stĺpcov: Po výbere jedného stĺpca stlačte a podržte kláves Shift a kliknutím na ďalšiu hlavičku stĺpca vyberte viacero stĺpcov.
výberu riadka
- Jeden riadok: kliknutím na hlavičku riadka vyberte celý riadok.
- viacero riadkov: Po výbere jedného riadka stlačte a podržte kláves Shift a kliknutím na ďalšiu hlavičku riadka vyberte viacero riadkov.
ukážka obsahu bunky: zobrazte ukážku obsahu jednotlivých buniek, aby ste mohli rýchlo a podrobne preskúmať údaje bez toho, aby bolo potrebné zapísať ďalší kód.
Súhrn stĺpcov: Ak chcete rýchlo porozumieť charakteristikám údajov, získajte súhrn jednotlivých stĺpcov vrátane distribúcie údajov a kľúčových štatistík.
Výber bezplatnej oblasti: Vyberte všetky spojité segmenty tabuľky, aby ste získali prehľad o celkovom súčte vybratých buniek a číselných hodnôt vo vybratej oblasti.
Kopírovať vybratý obsah: Vo všetkých prípadoch výberu môžete rýchlo skopírovať vybratý obsah pomocou skratky Ctrl + C. Vybraté údaje sa skopírujú vo formáte CSV, vďaka čomu sa dajú jednoducho spracovať v iných aplikáciách.
Podpora profilovania údajov prostredníctvom tably Kontrola
Údajový rámec môžete profilovať kliknutím na tlačidlo Skontrolovať . Poskytuje súhrnnú distribúciu údajov a zobrazuje štatistiky jednotlivých stĺpcov.
Každá karta na bočnej table Kontrola sa primapuje k stĺpcu údajového rámca. Ďalšie podrobnosti si môžete zobraziť kliknutím na kartu alebo výberom stĺpca v tabuľke.
Podrobnosti buniek môžete zobraziť kliknutím na bunku tabuľky. Táto funkcia je užitočná v prípade, keď údajový rámec obsahuje dlhý typ obsahu reťazca.
Nové zobrazenie bohatého údajového rámca
Poznámka
V súčasnosti je funkcia vo verzii Preview.
Vylepšené zobrazenie grafu je k dispozícii na obrazovke display(). Poskytuje intuitívnejšie a výkonnejšie prostredie na vizualizáciu údajov pomocou príkazu display().
Teraz môžete pridať až 5 grafov do jednej výstupnej miniaplikácie zobrazenia () kliknutím na položku Nový graf, čo vám umožní jednoducho vytvárať viaceré grafy na základe rôznych stĺpcov a porovnávať grafy.
Pri vytváraní nových grafov môžete získať zoznam odporúčaní grafu na základe cieľového údajového rámca. Môžete si vybrať, či chcete upraviť odporúčaný graf alebo vytvoriť vlastný graf úplne od začiatku.
Vizualizáciu teraz môžete prispôsobiť zadaním nasledujúcich nastavení. Možnosti nastavenia sa môžu meniť podľa vybratého typu grafu:
Kategória Základné nastavenia Popis Typ grafu Funkcia zobrazenia podporuje širokú škálu typov grafov vrátane pruhových grafov, bodových grafov, čiarových grafov, kontingenčných tabuliek a ďalších. Názov Názov Názov grafu. Názov Podnadpis Podnadpis grafu s popismi. Údaje Osi x Zadajte kľúč grafu. Údaje Os y Zadajte hodnoty grafu. Legenda Zobraziť legendu Povoľte alebo zakážte legendu. Legenda Position Prispôsobenie pozície legendy. Iné Skupina radov Pomocou tejto konfigurácie môžete určiť skupiny pre agregáciu. Iné Agregácia Túto metódu použite na agregáciu údajov vo vizualizácii. Iné Skladaný Nakonfigurujte štýl zobrazenia výsledku. Poznámka
V predvolenom nastavení funkcia display(df) použije iba prvých 1 000 riadkov údajov na vykreslenie grafov. Vyberte položku Agregácia cez všetky výsledky a potom výberom položky Použiť použite generovanie grafu z celého údajového rámca. Úloha Spark sa spustí pri zmene nastavenia grafu. Dokončenie výpočtu a vykreslenie grafu môže trvať niekoľko minút.
Kategória Rozšírené nastavenia Popis Farba Motív Definujte množinu farieb motívu v grafe. Osi x Označenie Zadajte označenie na os x. Osi x Mierka Zadajte funkciu mierky osi x. Osi x Rozsah Zadajte os rozsahu hodnôt osi x. Os y Označenie Zadajte označenie na os y. Os y Mierka Zadajte funkciu mierky osi y. Os y Rozsah Zadajte os rozsahu hodnôt Y. Zobrazenie Zobrazenie označení Zobraziť alebo skryť označenia výsledkov v grafe. Zmeny konfigurácií sa prejavia okamžite a všetky konfigurácie sa automaticky uložia do obsahu poznámkového bloku.
Grafy môžete jednoducho premenovať, duplikovať alebo odstrániť v ponuke karty grafu.
V novom prostredí grafu je k dispozícii interaktívny panel s nástrojmi, keď používateľ ukáže myšou na graf. Operácie podpory, ako napríklad priblíženie, oddialenie, výber a priblíženie, resetovanie, posúvanie atď.
Staršie zobrazenie grafu
Poznámka
Staršie zobrazenie grafu bude po skončení ukážky nového zobrazenia grafu zastarané.
Môžete sa prepnúť späť na staršie zobrazenie grafu prepnutím prepínača Nová vizualizácia. Nové prostredie je predvolene povolené.
Po vykreslení zobrazenia tabuľky prepnite na zobrazenie grafu.
Poznámkový blok služby Fabric automaticky odporúča grafy na základe cieľového údajového rámca, aby bol graf zmysluplný s prehľadmi údajov.
Vizualizáciu teraz môžete prispôsobiť zadaním nasledujúcich hodnôt:
Konfigurácia Popis Typ grafu Funkcia zobrazenia podporuje širokú škálu typov grafov vrátane pruhových grafov, bodových grafov, čiarových grafov a ďalších. Kľúč Zadajte rozsah hodnôt pre os x. Hodnota Zadajte rozsah hodnôt pre hodnoty na osi y. Skupina radov Pomocou tejto konfigurácie môžete určiť skupiny pre agregáciu. Agregácia Túto metódu použite na agregáciu údajov vo vizualizácii. Konfigurácie sa automaticky ukladajú do obsahu poznámkového bloku vo výstupe.
Poznámka
V predvolenom nastavení funkcia display(df) vykreslí grafy iba prvých 1 000 riadkov údajov. Vyberte položku Agregácia cez všetky výsledky a potom výberom položky Použiť použite generovanie grafu z celého údajového rámca. Úloha Spark sa spustí pri zmene nastavenia grafu. Dokončenie výpočtu a vykreslenie grafu môže trvať niekoľko minút.
Po dokončení úlohy môžete zobraziť poslednú vizualizáciu a pracovať s ňou.
zobrazenie súhrnu display()
Pomocou display(df, summary = true) môžete skontrolovať súhrn štatistík danej architektúry údajov Apache Spark. Súhrn obsahuje názov stĺpca, typ stĺpca, jedinečné hodnoty a chýbajúce hodnoty pre každý stĺpec. Môžete tiež vybrať konkrétny stĺpec a zobraziť tak jeho minimálnu hodnotu, maximálnu hodnotu, strednú hodnotu a smerodajnú odchýlku.
Možnosť displayHTML()
Poznámkové bloky služby Fabric podporujú grafiku HTML pomocou funkcie displayHTML .
Nasledujúci obrázok je príkladom vytvárania vizualizácií pomocou D3.js.
Ak chcete vytvoriť túto vizualizáciu, spustite nasledujúci kód.
displayHTML("""<!DOCTYPE html>
<meta charset="utf-8">
<!-- Load d3.js -->
<script src="https://d3js.org/d3.v4.js"></script>
<!-- Create a div where the graph will take place -->
<div id="my_dataviz"></div>
<script>
// set the dimensions and margins of the graph
var margin = {top: 10, right: 30, bottom: 30, left: 40},
width = 400 - margin.left - margin.right,
height = 400 - margin.top - margin.bottom;
// append the svg object to the body of the page
var svg = d3.select("#my_dataviz")
.append("svg")
.attr("width", width + margin.left + margin.right)
.attr("height", height + margin.top + margin.bottom)
.append("g")
.attr("transform",
"translate(" + margin.left + "," + margin.top + ")");
// Create Data
var data = [12,19,11,13,12,22,13,4,15,16,18,19,20,12,11,9]
// Compute summary statistics used for the box:
var data_sorted = data.sort(d3.ascending)
var q1 = d3.quantile(data_sorted, .25)
var median = d3.quantile(data_sorted, .5)
var q3 = d3.quantile(data_sorted, .75)
var interQuantileRange = q3 - q1
var min = q1 - 1.5 * interQuantileRange
var max = q1 + 1.5 * interQuantileRange
// Show the Y scale
var y = d3.scaleLinear()
.domain([0,24])
.range([height, 0]);
svg.call(d3.axisLeft(y))
// a few features for the box
var center = 200
var width = 100
// Show the main vertical line
svg
.append("line")
.attr("x1", center)
.attr("x2", center)
.attr("y1", y(min) )
.attr("y2", y(max) )
.attr("stroke", "black")
// Show the box
svg
.append("rect")
.attr("x", center - width/2)
.attr("y", y(q3) )
.attr("height", (y(q1)-y(q3)) )
.attr("width", width )
.attr("stroke", "black")
.style("fill", "#69b3a2")
// show median, min and max horizontal lines
svg
.selectAll("toto")
.data([min, median, max])
.enter()
.append("line")
.attr("x1", center-width/2)
.attr("x2", center+width/2)
.attr("y1", function(d){ return(y(d))} )
.attr("y2", function(d){ return(y(d))} )
.attr("stroke", "black")
</script>
"""
)
Vloženie zostavy Služby Power BI do poznámkového bloku
Dôležité
Táto funkcia je momentálne vo verzii PREVIEW. Tieto informácie sa týkajú predbežnej verzie produktu, ktorý mohol byť podstatne upravený ešte predtým, ako sa dostal k všeobecnej dostupnosti. Spoločnosť Microsoft neposkytuje žiadne záruky, vyjadrené alebo implicitné, na tu uvedené informácie.
Balík jazyka Python v službe Powerbiclient je teraz natívne podporovaný v poznámkových blokoch služby Fabric. Nie je potrebné robiť žiadne ďalšie nastavenia (napríklad proces overovania) na notebooku Fabric Spark runtime 3.4. Stačí importovať powerbiclient
a potom pokračovať v skúmaní. Ďalšie informácie o používaní balíka powerbiclient nájdete v dokumentácii powerbiclient.
Powerbiclient podporuje nasledujúce kľúčové funkcie.
Vykreslenie existujúcej zostavy Power BI
Do poznámkových blokov môžete jednoducho vkladať zostavy Power BI a pracovať s nimi len pomocou niekoľkých riadkov kódu.
Nasledujúci obrázok je príkladom vykresľovania existujúcej zostavy Power BI.
Spustením nasledujúceho kódu vykreslíte existujúcu zostavu Power BI.
from powerbiclient import Report
report_id="Your report id"
report = Report(group_id=None, report_id=report_id)
report
Vytvorenie vizuálov zostáv z údajového rámca Spark
Na rýchle generovanie prehľadných vizualizácií môžete v poznámkovom bloku použiť údajový rámec Spark. Môžete tiež vybrať položku Uložiť vo vloženej zostave a vytvoriť tak položku zostavy v cieľovom pracovnom priestore.
Nasledujúci obrázok je príkladom údajového QuickVisualize()
rámca služby Spark.
Spustením nasledujúceho kódu vykreslíte zostavu z údajového rámca Spark.
# Create a spark dataframe from a Lakehouse parquet table
sdf = spark.sql("SELECT * FROM testlakehouse.table LIMIT 1000")
# Create a Power BI report object from spark data frame
from powerbiclient import QuickVisualize, get_dataset_config
PBI_visualize = QuickVisualize(get_dataset_config(sdf))
# Render new report
PBI_visualize
Vytvorenie vizuálov zostáv z údajového rámca Pandas
V poznámkovom bloku môžete vytvárať zostavy založené na údajovom prvku Pandas.
Nasledujúci obrázok je príkladom údajového QuickVisualize()
rámca pandas.
Spustením nasledujúceho kódu vykreslíte zostavu z údajového rámca Spark.
import pandas as pd
# Create a pandas dataframe from a URL
df = pd.read_csv("https://raw.githubusercontent.com/plotly/datasets/master/fips-unemp-16.csv")
# Create a pandas dataframe from a Lakehouse csv file
from powerbiclient import QuickVisualize, get_dataset_config
# Create a Power BI report object from your data
PBI_visualize = QuickVisualize(get_dataset_config(df))
# Render new report
PBI_visualize
Obľúbené knižnice
Pokiaľ ide o vizualizáciu údajov, jazyk Python ponúka viacero grafových knižníc, ktoré sú plné mnohých rôznych funkcií. Každý fond Apache Spark v službe Fabric predvolene obsahuje množinu vytvorených a populárnych knižníc typu open-source.
Matplotlib
Štandardné knižnice vykreslenia, ako napríklad Matplotlib, môžete vykresliť pomocou vstavaných funkcií vykresľovania pre každú knižnicu.
Nasledujúci obrázok je príkladom vytvorenia pruhového grafu pomocou knižnice Matplotlib.
Nakreslte tento pruhový graf spustením nasledujúceho vzorového kódu.
# Bar chart
import matplotlib.pyplot as plt
x1 = [1, 3, 4, 5, 6, 7, 9]
y1 = [4, 7, 2, 4, 7, 8, 3]
x2 = [2, 4, 6, 8, 10]
y2 = [5, 6, 2, 6, 2]
plt.bar(x1, y1, label="Blue Bar", color='b')
plt.bar(x2, y2, label="Green Bar", color='g')
plt.plot()
plt.xlabel("bar number")
plt.ylabel("bar height")
plt.title("Bar Chart Example")
plt.legend()
plt.show()
Bokeh
Môžete vykresliť HTML alebo interaktívne knižnice, ako napríklad bokeh, pomocou displayHTML(df).
Nasledujúci obrázok je príkladom vykreslenia glyfov na mape pomocou bokeh.
Ak chcete nakresliť tento obrázok, spustite nasledujúci vzorový kód.
from bokeh.plotting import figure, output_file
from bokeh.tile_providers import get_provider, Vendors
from bokeh.embed import file_html
from bokeh.resources import CDN
from bokeh.models import ColumnDataSource
tile_provider = get_provider(Vendors.CARTODBPOSITRON)
# range bounds supplied in web mercator coordinates
p = figure(x_range=(-9000000,-8000000), y_range=(4000000,5000000),
x_axis_type="mercator", y_axis_type="mercator")
p.add_tile(tile_provider)
# plot datapoints on the map
source = ColumnDataSource(
data=dict(x=[ -8800000, -8500000 , -8800000],
y=[4200000, 4500000, 4900000])
)
p.circle(x="x", y="y", size=15, fill_color="blue", fill_alpha=0.8, source=source)
# create an html document that embeds the Bokeh plot
html = file_html(p, CDN, "my plot1")
# display this html
displayHTML(html)
Plotly
Pomocou jazyka displayHTML()môžete vykresliť HTML alebo interaktívne knižnice, ako napríklad Plotly.
Ak chcete nakresliť tento obrázok, spustite nasledujúci vzorový kód.
from urllib.request import urlopen
import json
with urlopen('https://raw.githubusercontent.com/plotly/datasets/master/geojson-counties-fips.json') as response:
counties = json.load(response)
import pandas as pd
df = pd.read_csv("https://raw.githubusercontent.com/plotly/datasets/master/fips-unemp-16.csv",
dtype={"fips": str})
import plotly
import plotly.express as px
fig = px.choropleth(df, geojson=counties, locations='fips', color='unemp',
color_continuous_scale="Viridis",
range_color=(0, 12),
scope="usa",
labels={'unemp':'unemployment rate'}
)
fig.update_layout(margin={"r":0,"t":0,"l":0,"b":0})
# create an html document that embeds the Plotly plot
h = plotly.offline.plot(fig, output_type='div')
# display this html
displayHTML(h)
Pandy
Výstup v jazyku HTML pre pandas dataframes môžete zobraziť ako predvolený výstup. Poznámkové bloky služby Fabric automaticky zobrazujú štylizované obsah HTML.
import pandas as pd
import numpy as np
df = pd.DataFrame([[38.0, 2.0, 18.0, 22.0, 21, np.nan],[19, 439, 6, 452, 226,232]],
index=pd.Index(['Tumour (Positive)', 'Non-Tumour (Negative)'], name='Actual Label:'),
columns=pd.MultiIndex.from_product([['Decision Tree', 'Regression', 'Random'],['Tumour', 'Non-Tumour']], names=['Model:', 'Predicted:']))
df