Megosztás a következőn keresztül:


A homályos egyeztetés működése a Power Queryben

A Power Query olyan funkciói, mint a fuzzy merge, a cluster values és a fuzzy grouping ugyanazokkal a mechanizmusokkal működnek, mint a homályos egyezés.

Ez a cikk számos olyan forgatókönyvet mutat be, amelyek bemutatják, hogyan lehet kihasználni a homályos egyezés lehetőségeit azzal a céllal, hogy a "fuzzy" egyértelmű legyen.

A hasonlóság küszöbértékének módosítása

A homályos egyezéses algoritmus alkalmazásának legjobb forgatókönyve, ha egy oszlop összes szöveges sztringje csak azokat a sztringeket tartalmazza, amelyeket össze kell hasonlítani, és nincsenek további összetevők. Például a hozamok összehasonlítása Apples 4ppl3s magasabb hasonlósági pontszámokat eredményez, mint a Apples .My favorite fruit, by far, is Apples. I simply love them!

Mivel a második sztringben szereplő szó Apples csak a teljes szöveges sztring egy kis része, az összehasonlítás alacsonyabb hasonlósági pontszámot eredményez.

A következő adatkészlet például egy olyan felmérésből származó válaszokból áll, amelyeknek csak egy kérdése volt– "Mi a kedvenc gyümölcse?"

Gyümölcs
Áfonya
A kék bogyók egyszerűen a legjobbak
Szamóca
Szamóca = <3
Alma
'sples
4ppl3s
Banán
fav gyümölcs banán
Banas
A kedvenc gyümölcsem messze az Alma. Egyszerűen szeretem őket!

A felmérés egyetlen szövegmezőt adott meg az érték megadásához, és nem volt érvényesség.

Most már az értékek fürtözésével van megbízva. A feladat elvégzéséhez töltse be az előző gyümölcstáblát a Power Querybe, jelölje ki az oszlopot, majd válassza a Fürtértékek lehetőséget a menüszalag Oszlop hozzáadása lapján.

Képernyőkép a fürt értékeinek beállításáról a menüszalag Oszlop hozzáadása lapján, miután kiválasztotta a Gyümölcs oszlopot a táblából.

Megjelenik a Fürtértékek párbeszédpanel, ahol megadhatja az új oszlop nevét. Nevezze el ezt az új oszlopfürtöt, és válassza az OK gombot.

Képernyőkép a fürtértékek párbeszédpanelről a Gyümölcs oszlop kiválasztása után. Az új oszlopnév mező fürtre van állítva.

A Power Query alapértelmezés szerint 0,8 (vagy 80%) hasonlósági küszöbértéket használ. A 0,00 minimális érték miatt az összes hasonlósági szinttel rendelkező érték egyezik egymással, az 1,00-es maximális érték pedig csak a pontos egyezéseket teszi lehetővé. A homályos "pontos egyezés" figyelmen kívül hagyhatja az olyan különbségeket, mint a burkolat, a szórend és az írásjelek. Az előző művelet eredménye az alábbi táblázatot adja meg egy új fürtoszlopmal .

Képernyőkép az alapértelmezett kimenetről egy új fürtoszlopmal, miután végrehajtotta a Fürtértékek műveletet a Fruit oszlopban az alapértelmezett értékekkel.

Amíg a fürtözés befejezve van, nem adja meg az összes sor várt eredményét. A második sor (2) értéke továbbra is megvanBlue berries are simply the best, de fürtözöttnek Blueberrieskell lennie, és hasonló történik a szöveges sztringekhez Strawberries = <3fav fruit is bananasés My favorite fruit, by far, is Apples. I simply love them!a .

Ha meg szeretné állapítani, hogy mi okozza a fürtözést, kattintson duplán a Fürtözött értékek elemre az Alkalmazott lépések panelen a Fürtértékek párbeszédpanel visszaállításához. Ezen a párbeszédpanelen bontsa ki a Fuzzy fürtbeállításokat. Engedélyezze a Hasonlósági pontszámok megjelenítése lehetőséget, majd kattintson az OK gombra.

Képernyőkép a fürt értékeinek ablakáról, amelyen megjelennek a homályos fürtbeállítások és a megjelenítési hasonlósági pontszámok lehetőség.

A hasonlósági pontszámok megjelenítése beállítás engedélyezése új oszlopot hoz létre a táblában. Ez az oszlop a definiált fürt és az eredeti érték közötti pontos hasonlósági pontszámot mutatja.

Képernyőkép a Fruit_Cluster_Similarity nevű új hasonlósági pontszámot tartalmazó tábláról.

Közelebbi vizsgálat esetén a Power Query nem talált más értéket a szövegsztringek Blue berries are simply the besthasonlósági küszöbértékében ,Strawberries = <3fav fruit is bananas és My favorite fruit, by far, is Apples. I simply love them!nem.

Térjen vissza még egyszer a Fürtértékek párbeszédpanelre, ha duplán kattint a Fürtözött értékek elemre az Alkalmazott lépések panelen. Módosítsa a hasonlóság küszöbértékét 0,8-ról 0,6-ra, majd kattintson az OK gombra.

Képernyőkép a fürtértékek párbeszédpanelről, amelyen megjelennek a homályos fürtbeállítások és a 0,6-os hasonlósági küszöbérték.

Ez a módosítás közelebb kerül a keresett eredményhez, a szöveges sztring My favorite fruit, by far, is Apples. I simply love them!kivételével. Amikor a Hasonlóság küszöbértéket 0,8-ról 0,6-ra módosította, a Power Query most már a 0,6-tól egészen 1-ig kezdődő hasonlósági pontszámmal tudta használni az értékeket.

Képernyőkép a tábláról, miután a 0,6-os hasonlósági küszöbértéket a Fürt oszlopban hozzárendelt új értékekkel definiálta.

Feljegyzés

A Power Query mindig a küszöbértékhez legközelebbi értéket használja a fürtök meghatározásához. A küszöbérték határozza meg a hasonlósági pontszám alsó határát, amely elfogadható az érték fürthöz való hozzárendeléséhez.

A hasonlóság pontszámának 0,6-ról egy alacsonyabb számra való módosításával újra próbálkozhat, amíg meg nem kapja a keresett eredményeket. Ebben az esetben módosítsa a Hasonlóság pontszámot 0,5-re. Ez a módosítás a várt eredményt adja a fürthöz Applesmost hozzárendelt szöveges sztringgelMy favorite fruit, by far, is Apples. I simply love them!.

Képernyőkép a fürt oszlopban lévő összes helyes értékkel rendelkező tábláról.

Feljegyzés

Jelenleg csak a Power Query Online Fürtértékek funkciója biztosít egy új oszlopot a hasonlósági pontszámmal.

A transzformációs táblázat különleges szempontjai

Az átalakítási táblázat segít az oszlop értékeinek új értékekre való leképezésében, mielőtt végrehajtja a homályos egyező algoritmust.

Néhány példa az átalakítási tábla használatára:

Fontos

Az átalakítási tábla használata esetén az átalakítási tábla értékeinek maximális hasonlósági pontszáma 0,95. Ez a 0,05-ös szándékos büntetés azért van érvényben, hogy megkülönböztesse, hogy az ilyen oszlop eredeti értéke nem egyenlő az átalakítás óta összehasonlított értékekkel.

Olyan helyzetekben, ahol először le szeretné képezni az értékeket, majd a 0,05-ös büntetés nélkül szeretné végrehajtani a homályos egyeztetést, javasoljuk, hogy cserélje le az oszlop értékeit, majd végezze el a homályos egyeztetést.