Zdieľať cez


Vizualizácia poznámkového blokov v službe Microsoft Fabric

Microsoft Fabric je integrovaná analytická služba, ktorá urýchľuje čas na pochopenie v skladoch údajov a analytických systémoch pre veľké objemy údajov. Vizualizácia údajov v poznámkových blokoch je kľúčovou súčasťou, ktorá vám umožňuje získať prehľad o údajoch. Pomáha to uľahčiť pochopenie veľkých aj malých údajov pre ľudí. Uľahčuje tiež zisťovanie vzorov, trendov a odchýlok v skupinách údajov.

Keď používate Apache Spark v službe Fabric, existujú rôzne vstavané možnosti, ktoré vám pomôžu vizualizovať údaje vrátane možností poznámkového grafu služby Fabric a prístupu k populárnym knižniciam open-source.

Pri použití poznámkového bloku služby Fabric môžete pomocou možností grafu zmeniť zobrazenie tabuľkových výsledkov na prispôsobený graf. Tu môžete vizualizovať svoje údaje bez toho, aby ste museli písať kód.

Príkaz na vstavanú vizualizáciu – funkcia display()

Vstavaná funkcia vizualizácie v službe Fabric umožňuje zmeniť údajové rámce Apache Spark, Pandas DataFrames a výsledky dotazu SQL na vizualizácie údajov s bohatým formátom.

Funkciu zobrazenia môžete použiť v údajových rámcoch, ktoré boli vytvorené v PySparku a scala na prvkoch údajovýchframeov Spark alebo v časti Odolný distribuované množiny údajov (RDD), a vytvoriť tak zobrazenie tabuľky s bohatým údajovým rámec a zobrazenia grafu.

Môžete určiť počet riadkov údajového rámca, ktorý sa vykreslí. Predvolená hodnota je 1 000. Poznámkový blok zobrazenie výstupnou miniaplikácia podporuje zobrazenie a profilovanie 10000 riadkami údajového rámca.

Snímka obrazovky s príkladom určenia rozsahu.

Funkciu filtra môžete použiť na globálnom paneli s nástrojmi na efektívne filtrovanie údajov, ktoré sa priraďujú s vašim prispôsobeným pravidlom, podmienka sa použije na zadaný stĺpec a výsledok filtra sa odráža v zobrazení tabuľky aj zobrazení grafu.

Snímka obrazovky s príkladom prispôsobenia stĺpcov.

Výstupom príkazu SQL sa prijíma rovnaká výstupná miniaplikácia s predvolenou display().

Zobrazenie tabuľky s bohatým údajovým rámcom

Podpora bezplatného výberu v zobrazení tabuľky

Zobrazenie tabuľky sa vykreslí predvolene pri použití príkazu display( ). Bohatá ukážka údajového rámca v notebooku ponúka funkciu výberu zdarma navrhnutú na vylepšenie prostredia analýzy údajov prostredníctvom flexibilných a intuitívnych možností výberu. Táto funkcia umožňuje používateľom efektívnejšie a jednoduchšie pracovať s údajovými rámcami a získať podrobnejší prehľad.

  • výberu stĺpca

    • položky Jeden stĺpec: Kliknutím na hlavičku stĺpca vyberte celý stĺpec.
    • viacero stĺpcov: Po výbere jedného stĺpca stlačte a podržte kláves Shift a kliknutím na ďalšiu hlavičku stĺpca vyberte viacero stĺpcov.
  • výberu riadka

    • Jeden riadok: kliknutím na hlavičku riadka vyberte celý riadok.
    • viacero riadkov: Po výbere jedného riadka stlačte a podržte kláves Shift a kliknutím na ďalšiu hlavičku riadka vyberte viacero riadkov.
  • ukážka obsahu bunky: zobrazte ukážku obsahu jednotlivých buniek, aby ste mohli rýchlo a podrobne preskúmať údaje bez toho, aby bolo potrebné zapísať ďalší kód.

  • Súhrn stĺpcov: Ak chcete rýchlo porozumieť charakteristikám údajov, získajte súhrn jednotlivých stĺpcov vrátane distribúcie údajov a kľúčových štatistík.

  • Výber bezplatnej oblasti: Vyberte všetky spojité segmenty tabuľky, aby ste získali prehľad o celkovom súčte vybratých buniek a číselných hodnôt vo vybratej oblasti.

  • Kopírovať vybratý obsah: Vo všetkých prípadoch výberu môžete rýchlo skopírovať vybratý obsah pomocou skratky Ctrl + C. Vybraté údaje sa skopírujú vo formáte CSV, vďaka čomu sa dajú jednoducho spracovať v iných aplikáciách.

    animovaný GIF bezplatnej podpory výberu.

Podpora profilovania údajov prostredníctvom tably Kontrola

Animovaný obrázok GIF bohatej ukážky údajového rámca.

  1. Údajový rámec môžete profilovať kliknutím na tlačidlo Skontrolovať . Poskytuje súhrnnú distribúciu údajov a zobrazuje štatistiky jednotlivých stĺpcov.

  2. Každá karta na bočnej table Kontrola sa primapuje k stĺpcu údajového rámca. Ďalšie podrobnosti si môžete zobraziť kliknutím na kartu alebo výberom stĺpca v tabuľke.

  3. Podrobnosti buniek môžete zobraziť kliknutím na bunku tabuľky. Táto funkcia je užitočná v prípade, keď údajový rámec obsahuje dlhý typ obsahu reťazca.

Nové zobrazenie bohatého údajového rámca

Poznámka

V súčasnosti je funkcia vo verzii Preview.

Vylepšené zobrazenie grafu je k dispozícii na obrazovke display(). Poskytuje intuitívnejšie a výkonnejšie prostredie na vizualizáciu údajov pomocou príkazu display().

  1. Teraz môžete pridať až 5 grafov do jednej výstupnej miniaplikácie zobrazenia () kliknutím na položku Nový graf, čo vám umožní jednoducho vytvárať viaceré grafy na základe rôznych stĺpcov a porovnávať grafy.

  2. Pri vytváraní nových grafov môžete získať zoznam odporúčaní grafu na základe cieľového údajového rámca. Môžete si vybrať, či chcete upraviť odporúčaný graf alebo vytvoriť vlastný graf úplne od začiatku.

    Animovaný obrázok GIF navrhovaných grafov.

  3. Vizualizáciu teraz môžete prispôsobiť zadaním nasledujúcich nastavení. Možnosti nastavenia sa môžu meniť podľa vybratého typu grafu:

    Kategória Základné nastavenia Popis
    Typ grafu Funkcia zobrazenia podporuje širokú škálu typov grafov vrátane pruhových grafov, bodových grafov, čiarových grafov, kontingenčných tabuliek a ďalších.
    Názov Názov Názov grafu.
    Názov Podnadpis Podnadpis grafu s popismi.
    Údaje Osi x Zadajte kľúč grafu.
    Údaje Os y Zadajte hodnoty grafu.
    Legenda Zobraziť legendu Povoľte alebo zakážte legendu.
    Legenda Position Prispôsobenie pozície legendy.
    Iné Skupina radov Pomocou tejto konfigurácie môžete určiť skupiny pre agregáciu.
    Iné Agregácia Túto metódu použite na agregáciu údajov vo vizualizácii.
    Iné Skladaný Nakonfigurujte štýl zobrazenia výsledku.

    Poznámka

    V predvolenom nastavení funkcia display(df) použije iba prvých 1 000 riadkov údajov na vykreslenie grafov. Vyberte položku Agregácia cez všetky výsledky a potom výberom položky Použiť použite generovanie grafu z celého údajového rámca. Úloha Spark sa spustí pri zmene nastavenia grafu. Dokončenie výpočtu a vykreslenie grafu môže trvať niekoľko minút.

    Kategória Rozšírené nastavenia Popis
    Farba Motív Definujte množinu farieb motívu v grafe.
    Osi x Označenie Zadajte označenie na os x.
    Osi x Mierka Zadajte funkciu mierky osi x.
    Osi x Rozsah Zadajte os rozsahu hodnôt osi x.
    Os y Označenie Zadajte označenie na os y.
    Os y Mierka Zadajte funkciu mierky osi y.
    Os y Rozsah Zadajte os rozsahu hodnôt Y.
    Zobrazenie Zobrazenie označení Zobraziť alebo skryť označenia výsledkov v grafe.

    Zmeny konfigurácií sa prejavia okamžite a všetky konfigurácie sa automaticky uložia do obsahu poznámkového bloku.

    Snímka obrazovky s príkladom konfigurácie grafov.

  4. Grafy môžete jednoducho premenovať, duplikovať alebo odstrániť v ponuke karty grafu.

    Snímka obrazovky príkladu operačných grafov.

  5. V novom prostredí grafu je k dispozícii interaktívny panel s nástrojmi, keď používateľ ukáže myšou na graf. Operácie podpory, ako napríklad priblíženie, oddialenie, výber a priblíženie, resetovanie, posúvanie atď.

    Snímka obrazovky príkladu panela s nástrojmi grafu.

Staršie zobrazenie grafu

Poznámka

Staršie zobrazenie grafu bude po skončení ukážky nového zobrazenia grafu zastarané.

Animovaný obrázok GIF zobrazenia grafu.

  1. Môžete sa prepnúť späť na staršie zobrazenie grafu prepnutím prepínača Nová vizualizácia. Nové prostredie je predvolene povolené.

    Snímka obrazovky s prepínačom príkladu novej vizualizácie.

  2. Po vykreslení zobrazenia tabuľky prepnite na zobrazenie grafu.

  3. Poznámkový blok služby Fabric automaticky odporúča grafy na základe cieľového údajového rámca, aby bol graf zmysluplný s prehľadmi údajov.

  4. Vizualizáciu teraz môžete prispôsobiť zadaním nasledujúcich hodnôt:

    Konfigurácia Popis
    Typ grafu Funkcia zobrazenia podporuje širokú škálu typov grafov vrátane pruhových grafov, bodových grafov, čiarových grafov a ďalších.
    Kľúč Zadajte rozsah hodnôt pre os x.
    Hodnota Zadajte rozsah hodnôt pre hodnoty na osi y.
    Skupina radov Pomocou tejto konfigurácie môžete určiť skupiny pre agregáciu.
    Agregácia Túto metódu použite na agregáciu údajov vo vizualizácii.

    Konfigurácie sa automaticky ukladajú do obsahu poznámkového bloku vo výstupe.

    Poznámka

    V predvolenom nastavení funkcia display(df) vykreslí grafy iba prvých 1 000 riadkov údajov. Vyberte položku Agregácia cez všetky výsledky a potom výberom položky Použiť použite generovanie grafu z celého údajového rámca. Úloha Spark sa spustí pri zmene nastavenia grafu. Dokončenie výpočtu a vykreslenie grafu môže trvať niekoľko minút.

  5. Po dokončení úlohy môžete zobraziť poslednú vizualizáciu a pracovať s ňou.

zobrazenie súhrnu display()

Pomocou display(df, summary = true) môžete skontrolovať súhrn štatistík danej architektúry údajov Apache Spark. Súhrn obsahuje názov stĺpca, typ stĺpca, jedinečné hodnoty a chýbajúce hodnoty pre každý stĺpec. Môžete tiež vybrať konkrétny stĺpec a zobraziť tak jeho minimálnu hodnotu, maximálnu hodnotu, strednú hodnotu a smerodajnú odchýlku.

Animovaný obrázok GIF súhrnu zobrazenia.

Možnosť displayHTML()

Poznámkové bloky služby Fabric podporujú grafiku HTML pomocou funkcie displayHTML .

Nasledujúci obrázok je príkladom vytvárania vizualizácií pomocou D3.js.

Snímka obrazovky príkladu grafu vytvoreného pomocou D3.js.

Ak chcete vytvoriť túto vizualizáciu, spustite nasledujúci kód.

displayHTML("""<!DOCTYPE html>
<meta charset="utf-8">

<!-- Load d3.js -->
<script src="https://d3js.org/d3.v4.js"></script>

<!-- Create a div where the graph will take place -->
<div id="my_dataviz"></div>
<script>

// set the dimensions and margins of the graph
var margin = {top: 10, right: 30, bottom: 30, left: 40},
  width = 400 - margin.left - margin.right,
  height = 400 - margin.top - margin.bottom;

// append the svg object to the body of the page
var svg = d3.select("#my_dataviz")
.append("svg")
  .attr("width", width + margin.left + margin.right)
  .attr("height", height + margin.top + margin.bottom)
.append("g")
  .attr("transform",
        "translate(" + margin.left + "," + margin.top + ")");

// Create Data
var data = [12,19,11,13,12,22,13,4,15,16,18,19,20,12,11,9]

// Compute summary statistics used for the box:
var data_sorted = data.sort(d3.ascending)
var q1 = d3.quantile(data_sorted, .25)
var median = d3.quantile(data_sorted, .5)
var q3 = d3.quantile(data_sorted, .75)
var interQuantileRange = q3 - q1
var min = q1 - 1.5 * interQuantileRange
var max = q1 + 1.5 * interQuantileRange

// Show the Y scale
var y = d3.scaleLinear()
  .domain([0,24])
  .range([height, 0]);
svg.call(d3.axisLeft(y))

// a few features for the box
var center = 200
var width = 100

// Show the main vertical line
svg
.append("line")
  .attr("x1", center)
  .attr("x2", center)
  .attr("y1", y(min) )
  .attr("y2", y(max) )
  .attr("stroke", "black")

// Show the box
svg
.append("rect")
  .attr("x", center - width/2)
  .attr("y", y(q3) )
  .attr("height", (y(q1)-y(q3)) )
  .attr("width", width )
  .attr("stroke", "black")
  .style("fill", "#69b3a2")

// show median, min and max horizontal lines
svg
.selectAll("toto")
.data([min, median, max])
.enter()
.append("line")
  .attr("x1", center-width/2)
  .attr("x2", center+width/2)
  .attr("y1", function(d){ return(y(d))} )
  .attr("y2", function(d){ return(y(d))} )
  .attr("stroke", "black")
</script>

"""
)

Vloženie zostavy Služby Power BI do poznámkového bloku

Dôležité

Táto funkcia je momentálne vo verzii PREVIEW. Tieto informácie sa týkajú predbežnej verzie produktu, ktorý mohol byť podstatne upravený ešte predtým, ako sa dostal k všeobecnej dostupnosti. Spoločnosť Microsoft neposkytuje žiadne záruky, vyjadrené alebo implicitné, na tu uvedené informácie.

Balík jazyka Python v službe Powerbiclient je teraz natívne podporovaný v poznámkových blokoch služby Fabric. Nie je potrebné robiť žiadne ďalšie nastavenia (napríklad proces overovania) na notebooku Fabric Spark runtime 3.4. Stačí importovať powerbiclient a potom pokračovať v skúmaní. Ďalšie informácie o používaní balíka powerbiclient nájdete v dokumentácii powerbiclient.

Powerbiclient podporuje nasledujúce kľúčové funkcie.

Vykreslenie existujúcej zostavy Power BI

Do poznámkových blokov môžete jednoducho vkladať zostavy Power BI a pracovať s nimi len pomocou niekoľkých riadkov kódu.

Nasledujúci obrázok je príkladom vykresľovania existujúcej zostavy Power BI.

Snímka obrazovky znázorňujúca vizuál krivky, ktorý vykresľuje zostavu Power BI.

Spustením nasledujúceho kódu vykreslíte existujúcu zostavu Power BI.

from powerbiclient import Report

report_id="Your report id"
report = Report(group_id=None, report_id=report_id)

report

Vytvorenie vizuálov zostáv z údajového rámca Spark

Na rýchle generovanie prehľadných vizualizácií môžete v poznámkovom bloku použiť údajový rámec Spark. Môžete tiež vybrať položku Uložiť vo vloženej zostave a vytvoriť tak položku zostavy v cieľovom pracovnom priestore.

Nasledujúci obrázok je príkladom údajového QuickVisualize() rámca služby Spark.

Snímka obrazovky znázorňujúca zostavu služby Power BI z údajového rámca.

Spustením nasledujúceho kódu vykreslíte zostavu z údajového rámca Spark.

# Create a spark dataframe from a Lakehouse parquet table
sdf = spark.sql("SELECT * FROM testlakehouse.table LIMIT 1000")

# Create a Power BI report object from spark data frame
from powerbiclient import QuickVisualize, get_dataset_config
PBI_visualize = QuickVisualize(get_dataset_config(sdf))

# Render new report
PBI_visualize

Vytvorenie vizuálov zostáv z údajového rámca Pandas

V poznámkovom bloku môžete vytvárať zostavy založené na údajovom prvku Pandas.

Nasledujúci obrázok je príkladom údajového QuickVisualize() rámca pandas.

Snímka obrazovky znázorňujúca zostavu z údajového rámca Pandas.

Spustením nasledujúceho kódu vykreslíte zostavu z údajového rámca Spark.

import pandas as pd

# Create a pandas dataframe from a URL
df = pd.read_csv("https://raw.githubusercontent.com/plotly/datasets/master/fips-unemp-16.csv")

# Create a pandas dataframe from a Lakehouse csv file
from powerbiclient import QuickVisualize, get_dataset_config

# Create a Power BI report object from your data
PBI_visualize = QuickVisualize(get_dataset_config(df))

# Render new report
PBI_visualize

Pokiaľ ide o vizualizáciu údajov, jazyk Python ponúka viacero grafových knižníc, ktoré sú plné mnohých rôznych funkcií. Každý fond Apache Spark v službe Fabric predvolene obsahuje množinu vytvorených a populárnych knižníc typu open-source.

Matplotlib

Štandardné knižnice vykreslenia, ako napríklad Matplotlib, môžete vykresliť pomocou vstavaných funkcií vykresľovania pre každú knižnicu.

Nasledujúci obrázok je príkladom vytvorenia pruhového grafu pomocou knižnice Matplotlib.

Snímka obrazovky čiarového grafu vytvoreného pomocou rozhrania Matplotlib.

Snímka obrazovky pruhového grafu vytvoreného pomocou rozhrania Matplotlib.

Nakreslte tento pruhový graf spustením nasledujúceho vzorového kódu.

# Bar chart

import matplotlib.pyplot as plt

x1 = [1, 3, 4, 5, 6, 7, 9]
y1 = [4, 7, 2, 4, 7, 8, 3]

x2 = [2, 4, 6, 8, 10]
y2 = [5, 6, 2, 6, 2]

plt.bar(x1, y1, label="Blue Bar", color='b')
plt.bar(x2, y2, label="Green Bar", color='g')
plt.plot()

plt.xlabel("bar number")
plt.ylabel("bar height")
plt.title("Bar Chart Example")
plt.legend()
plt.show()

Bokeh

Môžete vykresliť HTML alebo interaktívne knižnice, ako napríklad bokeh, pomocou displayHTML(df).

Nasledujúci obrázok je príkladom vykreslenia glyfov na mape pomocou bokeh.

Snímka obrazovky príkladu vykreslenia glyfov na mape.

Ak chcete nakresliť tento obrázok, spustite nasledujúci vzorový kód.

from bokeh.plotting import figure, output_file
from bokeh.tile_providers import get_provider, Vendors
from bokeh.embed import file_html
from bokeh.resources import CDN
from bokeh.models import ColumnDataSource

tile_provider = get_provider(Vendors.CARTODBPOSITRON)

# range bounds supplied in web mercator coordinates
p = figure(x_range=(-9000000,-8000000), y_range=(4000000,5000000),
           x_axis_type="mercator", y_axis_type="mercator")
p.add_tile(tile_provider)

# plot datapoints on the map
source = ColumnDataSource(
    data=dict(x=[ -8800000, -8500000 , -8800000],
              y=[4200000, 4500000, 4900000])
)

p.circle(x="x", y="y", size=15, fill_color="blue", fill_alpha=0.8, source=source)

# create an html document that embeds the Bokeh plot
html = file_html(p, CDN, "my plot1")

# display this html
displayHTML(html)

Plotly

Pomocou jazyka displayHTML()môžete vykresliť HTML alebo interaktívne knižnice, ako napríklad Plotly.

Ak chcete nakresliť tento obrázok, spustite nasledujúci vzorový kód.

Snímka obrazovky mapy Spojených štátov amerických vytvorenej pomocou možnosti Plotly.

from urllib.request import urlopen
import json
with urlopen('https://raw.githubusercontent.com/plotly/datasets/master/geojson-counties-fips.json') as response:
    counties = json.load(response)

import pandas as pd
df = pd.read_csv("https://raw.githubusercontent.com/plotly/datasets/master/fips-unemp-16.csv",
                   dtype={"fips": str})

import plotly
import plotly.express as px

fig = px.choropleth(df, geojson=counties, locations='fips', color='unemp',
                           color_continuous_scale="Viridis",
                           range_color=(0, 12),
                           scope="usa",
                           labels={'unemp':'unemployment rate'}
                          )
fig.update_layout(margin={"r":0,"t":0,"l":0,"b":0})

# create an html document that embeds the Plotly plot
h = plotly.offline.plot(fig, output_type='div')

# display this html
displayHTML(h)

Pandy

Výstup v jazyku HTML pre pandas dataframes môžete zobraziť ako predvolený výstup. Poznámkové bloky služby Fabric automaticky zobrazujú štylizované obsah HTML.

Snímka obrazovky tabuľky vytvorenej pomocou pandy.

import pandas as pd 
import numpy as np 

df = pd.DataFrame([[38.0, 2.0, 18.0, 22.0, 21, np.nan],[19, 439, 6, 452, 226,232]], 

                  index=pd.Index(['Tumour (Positive)', 'Non-Tumour (Negative)'], name='Actual Label:'), 

                  columns=pd.MultiIndex.from_product([['Decision Tree', 'Regression', 'Random'],['Tumour', 'Non-Tumour']], names=['Model:', 'Predicted:'])) 

df