Fürtértékek

Cikk
06/04/2024

A fürt értékei automatikusan létrehoznak hasonló értékeket tartalmazó csoportokat egy homályos egyező algoritmus használatával, majd az egyes oszlopok értékét a legjobban megfeleltetett csoporthoz rendelik. Ez az átalakítás akkor hasznos, ha olyan adatokkal dolgozik, amelyek számos különböző variációval rendelkeznek ugyanannak az értéknek, és az értékeket konzisztens csoportokba kell egyesítenie.

Vegyünk egy mintatáblát egy azonosító oszlopmal, amely azonosítókat és egy Person oszlopot tartalmaz, amelyek a Miguel, Mike, William és Bill nevek különböző helyesírású és nagybetűs verzióit tartalmazzák.

Képernyőkép a tábláról kilenc sornyi bejegyzéssel, amelyek a Miguel és William név különböző helyesírását és nagybetűit tartalmazzák.

Ebben a példában a keresett eredmény egy új oszlopot tartalmazó táblázat, amely a Személy oszlopban szereplő értékek megfelelő csoportjait jeleníti meg, és nem az azonos szavak különböző változatait.

Képernyőkép a fürtözött értékekről egy új, Fürt nevű oszlopként a kezdeti táblában.

Feljegyzés

A Fürtértékek funkció csak a Power Query Online-hoz érhető el.

Fürtoszlop létrehozása

Fürtértékek esetén először jelölje ki a Személy oszlopot, lépjen a menüszalag Oszlop hozzáadása lapjára, majd válassza a Fürtértékek lehetőséget.

A Fürtértékek párbeszédpanelen erősítse meg a fürtök létrehozásához használni kívánt oszlopot, és adja meg az oszlop új nevét. Ebben az esetben nevezze el ezt az új oszlopfürtöt.

Képernyőkép a fürt értékeinek ablakáról, amelyen a Személy oszlop van kijelölve, és az Új oszlop fürtként van elnevezve.

A művelet eredménye az alábbi képen látható.

Képernyőkép a fürtözött értékekről egy új, Fürt nevű oszlopként a kezdeti táblában.

Feljegyzés

A Power Query minden egyes értékfürt esetében a kiválasztott oszlopban a leggyakoribb példányt választja ki "canonical" példányként. Ha több példány is előfordul ugyanazzal a gyakorisággal, a Power Query az elsőt választja ki.

A homályos fürt beállításainak használata

Az új oszlopban lévő fürtözési értékekhez az alábbi lehetőségek érhetők el:

Hasonlóság küszöbértéke (nem kötelező):Ez a beállítás azt jelzi, hogy a két értéknek hogyan kell csoportosítania. A nulla (0) minimális beállítása miatt az összes érték csoportosítva lesz. Az 1 érték maximális beállítása csak a pontosan egyező értékek csoportosítását teszi lehetővé. Az alapértelmezett érték 0,8.
Kis- és nagybetűk figyelmen kívül hagyása: Szövegsztringek összehasonlítása esetén a kis- és nagybetűk figyelmen kívül lesznek hagyva. A beállítás alapértelmezés szerint engedélyezett.
Csoportosítás szövegrészek kombinálásával: Az algoritmus megpróbálja egyesíteni a szövegrészeket (például a Micro és a Soft egyesítését a Microsofttal) az értékek csoportosításához.
Hasonlósági pontszámok megjelenítése: A bemeneti értékek és a számított reprezentatív értékek közötti hasonlósági pontszámokat jeleníti meg a homályos fürtözés után.
Transzformációs táblázat (nem kötelező):Kiválaszthat egy olyan átalakítási táblát, amely az értékeket leképezi (például az MSFT-et a Microsofthoz rendeli), hogy csoportosítsa őket.

Ebben a példában egy új, Az átalakító tábla nevű átalakítási táblázat az értékek leképezésének bemutatására szolgál. Ez az átalakítási tábla két oszlopból áll:

Feladó: A táblázatban keresni kívánt szöveges sztring.
To: Az a szöveges sztring, amely a Feladó oszlopban lévő szövegsztring helyére lesz behelyettesíteni.

Képernyőkép a tábláról, amelyen Mike és William értékei, Miguel és Bill értékei láthatók.

Fontos

Fontos, hogy az átalakítási táblázat ugyanazokat az oszlopokat és oszlopneveket tartalmazza, mint az előző képen (ezeket "Feladó" és "Címzett" névvel kell elnevezni), ellenkező esetben a Power Query nem ismeri fel ezt a táblát átalakítási táblaként, és nem történik átalakítás.

A korábban létrehozott lekérdezés használatával kattintson duplán a Fürtözött értékek lépésre, majd a Fürtértékek párbeszédpanelen bontsa ki az Fuzzy fürtbeállításokat. Az Fuzzy cluster options (Fuzzy cluster options) területen engedélyezze a Hasonlósági pontszámok megjelenítése lehetőséget. Átalakítási tábla (nem kötelező) esetén válassza ki az átalakító táblát tartalmazó lekérdezést.

Képernyőkép a homályos fürtbeállításokról a minta transzformációs táblázatra beállított transzformációs táblázat legördülő menüjével.

Miután kiválasztotta az átalakítási táblát, és engedélyezte a Hasonlósági pontszámok megjelenítése lehetőséget, válassza az OK gombot. A művelet eredménye egy olyan táblát eredményez, amely ugyanazt az azonosítót és Személy oszlopot tartalmazza, mint az eredeti tábla, de két új, fürt és Person_Cluster_Similarity nevű oszlopot is tartalmaz. A Fürt oszlop a Miguel és Mike verziójú Miguel nevek helyesen írt és nagybetűs verzióit tartalmazza, valamint Williamet Bill, Billy és William verzióihoz. A Person_Cluster_Similarity oszlop az egyes nevek hasonlósági pontszámait tartalmazza.

Képernyőkép az új fürtöt és Person_Cluster_Similarity oszlopokat tartalmazó táblázatról.

Transzformációs tábla-parancsok

Észreveheti, hogy az előző szakaszban lévő átalakítási táblázat azt jelzi, hogy Mike példányai Miguelre változnak, a William-példányok pedig Billre változnak. Az eredményként kapott táblázatban azonban a Bill és a "billy" példányok williamre változtak. A transzformációs táblában ahelyett, hogy közvetlenül a "From to path" (Át-út) átalakítási táblázat lenne, szimmetrikus a fürtözés során, ami azt jelenti, hogy a "mike" egyenértékű a "Miguel" értékével, és fordítva. Az átalakítási táblában megadott megfelelők eredménye a következő szabályoktól függ:

Ha az azonos értékek többsége létezik, ezek az értékek elsőbbséget élveznek a nem dedentikus értékekkel szemben.
Ha nincs több érték, az elsőként megjelenő érték elsőbbséget élvez.

Az ebben a cikkben használt eredeti táblázatban például a Miguel (miguel és Miguel) személy oszlopban lévő verziói alkotják a Miguel és Mike nevű példányok többségét. Ezenkívül a Miguel név kezdeti sapkákkal alkotja a Miguel név többségét. Így Miguel és származékai, valamint Mike és származékai társítása az átalakító táblában azt eredményezi, hogy Miguel név szerepel a Fürt oszlopban.

A William, Bill és "billy" nevek esetében azonban az értékeknek nincs többsége, mivel mind a három egyedi. Mivel Vilmos az első, William a Fürt oszlopban van használatban. Ha a "billy" először megjelenik a táblázatban, akkor a "billy" a Fürt oszlopban lesz használva. Mivel az értékeknek nincs többsége, a rendszer az egyes nevek által használt esetet használja. Ez azt jelenti, hogy ha Vilmos az első, akkor a "W" nagybetűvel rendelkező Vilmos lesz az eredményérték; ha a "billy" az első, akkor a "billy" kisbetűs "b" betűt használja.

Megosztás a következőn keresztül:

Fürtértékek

Fürtoszlop létrehozása

A homályos fürt beállításainak használata

Transzformációs tábla-parancsok

Visszajelzés

További források

Megosztás a következőn keresztül:

Fürtértékek

Fürtoszlop létrehozása

A homályos fürt beállításainak használata

Transzformációs tábla-parancsok

Kapcsolódó tartalom

Visszajelzés

További források