Adatok profilkészítése a Power BI-ban
Az adatok profilkészítésének célja az adatok apró részleteinek tanulmányozása: a rendellenességek meghatározása, a mögöttes adatstruktúrák vizsgálata és fejlesztése, valamint az olyan adatstatisztikák lekérdezése, mint például a sorszámok, az értékek eloszlásai, a minimális és maximális értékek, az átlagok és egyebek. Ez a koncepció azért fontos, mert lehetővé teszi az adatok olyan alakítását és rendszerezését, ami egyszerűvé teszi az adatok kezelését és az adatok eloszlásának meghatározását, így biztosítva, hogy szinte minden erőfeszítés nélkül használhassa az adatokat az előtérben jelentéselemek fejlesztéséhez.
Tegyük fel, hogy a szervezet értékesítési csapata számára fejleszt jelentéseket. Nem biztos benne, hogy milyen az adatok szerkezete és hogyan vannak tárolva a táblákban, ezért a vizualizációk fejlesztése profilt szeretne készíteni az adatokról a színfalak mögött. A Power BI olyan beépített funkciókat tartalmaz, amelyekkel ezek a feladatok felhasználóbarát módon és egyszerűen elvégezhetők.
Az adatstruktúrák vizsgálata
Mielőtt megkezdené az adatok vizsgálatát a Power Query-szerkesztőben, először ismerkedjen meg a mögöttes adatstruktúrákkal, amelyekben az adatok el vannak rendezve. Az aktuális szemantikai modellt az Power BI Desktop Modell lapján tekintheti meg.
A Modell lapon egy tábla vagy oszlop kiválasztásával szerkesztheti az adott oszlop- és táblatulajdonságokat, és az Adatok átalakítása gombbal átalakíthatja az adatokat, így Power Query-szerkesztő. Emellett a menüszalagon található Kapcsolatok kezelése használatával kezelheti, hozhatja létre, szerkesztheti és törölheti a különböző táblák közötti kapcsolatokat.
Az adatok rendellenességeinek és statisztikáinak keresése
Miután létrehozott egy kapcsolatot egy adatforrással, és az Adatok átalakítása lehetőséget választotta, megnyílik a Power Query-szerkesztő, amelyben meghatározhatja, hogy vannak-e rendellenességek az adatokban. Az adatrendellenességek az adatokban található kiugró értékek. Ha meghatározza, hogy mik ezek a rendellenességek, az segíthet meghatározni az adatok normál eloszlásának tulajdonságait, illetve hogy vannak-e olyan konkrét adatpontok, amelyeket tovább kell vizsgálni. Power Query-szerkesztő az oszlopelosztási funkcióval határozza meg az adatanomáliákat.
Válassza a menüszalag Nézet elemét, és az Adatelőnézet területen néhány lehetőség közül választhat. Az adatanomáliák és statisztikák megismeréséhez válassza az Oszlopeloszlás, az Oszlopminőség és az Oszlopprofil lehetőséget. Az alábbi ábrán a megjelenő statisztikák láthatók.
Az oszlopminőség és az oszlopeloszlás az adatoszlopok fölötti grafikonokon jelenik meg. Az oszlopminőség az érvényes, hibás és üres adatok százalékos arányát jeleníti meg. Ideális esetben azt szeretné, hogy az adatok 100%-a érvényes legyen.
Megjegyzés
Alapértelmezés szerint Power Query megvizsgálja az adathalmaz első 1000 sorát. Ha ezt módosítani szeretné, az állapotsorban válassza a profilkészítési állapotot, és válassza az Oszlopprofil-készítés a teljes adatkészlet alapján lehetőséget. ]
Az Oszlop eloszlása az oszlop adatainak eloszlását, valamint a különböző és az egyedi értékek darabszámát jeleníti meg; mindkettőből megtudhat részleteket az adatok mennyiségeiről. A különböző értékek az oszlop összes különböző értéke, beleértve az ismétlődéseket és a null értékeket is, míg az egyedi értékek nem tartalmaznak duplikált vagy null értékeket. Ezért a táblázatban szereplő különböző értékek azt jelzik, hogy hány érték van jelen, míg az egyedi érték azt jelzi, hogy ezek közül hány csak egyszer jelenik meg.
Az oszlopprofil részletesebb betekintést nyújt az első 1000 adatsor oszlopainak statisztikáiba. Ez az oszlop számos különböző értéket tartalmaz, beleértve a sorok számát is, amely fontos annak ellenőrzéséhez, hogy az adatok importálása sikerült-e. Ha például az eredeti adatbázis 100 sort tartalmazott, akkor ezen sorszám alapján ellenőrizheti, hogy a rendszer valóban helyesen importált-e 100 sort. Emellett ez a sorszám megmutatja, hogy a Power BI hány sort tekint kiugró értéknek, üres sorokat és sztringeket, valamint a minimális és maximális értéket, amely az oszlop legkisebb és legnagyobb értékét jelzi. Ez a különbség különösen fontos numerikus adatok esetében, mert azonnal értesíti Önt, ha olyan maximális érték van, amely meghaladja azt, amit a vállalkozása "maximumként" azonosít. Ez az érték felhívja a figyelmet ezekre az értékekre, ami azt jelenti, hogy az adatok mélyebbre helyezésekor összpontosíthatja erőfeszítéseit. Abban az esetben, ha az adatok egy szöveges oszlopban szerepeltek, ahogy az előző képen is látható, a minimális érték az első érték, a maximális érték pedig az utolsó érték, ha betűrendben vannak.
Az Értékelosztási grafikon emellett az adott oszlopban lévő egyes egyedi értékek számát is megmutatja. Az előző képen látható grafikonon megfigyelheti, hogy az értékeloszlás azt jelzi, hogy az "Anthony Gross" a legtöbb alkalommal jelenik meg a SalesPerson oszlopban, és hogy a "Lily Code" a legkevesebb alkalommal jelenik meg. Ezek az információk különösen fontosak, mivel azonosítja a kiugró értékeket. Ha egy érték jóval többször szerepel egy oszlopban, mint más értékek, az Értékek eloszlása funkcióval pontosan meghatározhat egy helyet, ahonnan kiindulva megkezdheti annak kivizsgálását, hogy ez miért van így.
Egy numerikus oszlopban az Oszlopstatisztika azt is tartalmazza, hogy hány nulla és null érték létezik, valamint az oszlopban lévő átlagérték, az oszlop értékeinek szórása, valamint az oszlopban lévő páros és páratlan értékek száma. Ezek a statisztikai adatok megmutatják az oszlopban szereplő adatok eloszlását, és azért fontosak, mert összefoglalják az oszlopban lévő adatokat, és kiindulási pontként szolgálnak a kiugró értékek meghatározásához.
Például a számlaadatok áttekintésével megfigyelheti, hogy az Értékelosztási grafikonon látható, hogy a SalesPerson oszlopban néhány értékesítő ugyanannyiszor jelenik meg az adatokon belül. Azt is megfigyelheti, hogy ugyanez a helyzet a Profit oszlopban és néhány más táblában is előfordult. A kivizsgálás során felfedezi, hogy az Ön által használt adatok hibásak voltak, és frissítenie kellett őket, így azonnal elvégzi a frissítést. Ha nem tekintette volna meg a diagramot, előfordulhat, hogy nem vette volna észre ilyen gyorsan ezt a hibát, ezért az értékek eloszlása alapvető fontosságú.
Miután befejezte a szerkesztéseket Power Query-szerkesztő, és készen áll a vizualizációk készítésére, térjen vissza a kezdőlapra a Power Query-szerkesztő menüszalagon. Válassza a Bezárás & Alkalmaz lehetőséget, amely visszaadja a Power BI Desktop, és minden oszlop szerkesztése/átalakítása is alkalmazva lesz.
Most már meghatározta azokat az elemeket, amelyek profilkészítési adatokat alkotnak a Power BI-ban, beleértve az adatok Betöltését a Power BI-ban, az oszloptulajdonságok lekérdezését az oszlopokban lévő adatok típusának és formátumának egyértelművé tétele és további szerkesztése, adatanomáliák keresése és adatstatisztikák megtekintése Power Query-szerkesztő. Ezen ismeretekkel felveheti az eszközkészletébe az adatok hatékony és hatásos vizsgálatának képességét.