A homályos egyeztetés működése a Power Queryben
A Power Query olyan funkciói, mint a fuzzy merge, a cluster values és a fuzzy grouping ugyanazokkal a mechanizmusokkal működnek, mint a homályos egyezés.
Ez a cikk számos olyan forgatókönyvet mutat be, amelyek bemutatják, hogyan lehet kihasználni a homályos egyezés lehetőségeit azzal a céllal, hogy a "fuzzy" egyértelmű legyen.
A hasonlóság küszöbértékének módosítása
A homályos egyezéses algoritmus alkalmazásának legjobb forgatókönyve, ha egy oszlop összes szöveges sztringje csak azokat a sztringeket tartalmazza, amelyeket össze kell hasonlítani, és nincsenek további összetevők. Például a hozamok összehasonlítása Apples
4ppl3s
magasabb hasonlósági pontszámokat eredményez, mint a Apples
.My favorite fruit, by far, is Apples. I simply love them!
Mivel a második sztringben szereplő szó Apples
csak a teljes szöveges sztring egy kis része, az összehasonlítás alacsonyabb hasonlósági pontszámot eredményez.
A következő adatkészlet például egy olyan felmérésből származó válaszokból áll, amelyeknek csak egy kérdése volt– "Mi a kedvenc gyümölcse?"
Gyümölcs |
---|
Áfonya |
A kék bogyók egyszerűen a legjobbak |
Szamóca |
Szamóca = <3 |
Alma |
'sples |
4ppl3s |
Banán |
fav gyümölcs banán |
Banas |
A kedvenc gyümölcsem messze az Alma. Egyszerűen szeretem őket! |
A felmérés egyetlen szövegmezőt adott meg az érték megadásához, és nem volt érvényesség.
Most már az értékek fürtözésével van megbízva. A feladat elvégzéséhez töltse be az előző gyümölcstáblát a Power Querybe, jelölje ki az oszlopot, majd válassza a Fürtértékek lehetőséget a menüszalag Oszlop hozzáadása lapján.
Megjelenik a Fürtértékek párbeszédpanel, ahol megadhatja az új oszlop nevét. Nevezze el ezt az új oszlopfürtöt, és válassza az OK gombot.
A Power Query alapértelmezés szerint 0,8 (vagy 80%) hasonlósági küszöbértéket használ. A 0,00 minimális érték miatt az összes hasonlósági szinttel rendelkező érték egyezik egymással, az 1,00-es maximális érték pedig csak a pontos egyezéseket teszi lehetővé. A homályos "pontos egyezés" figyelmen kívül hagyhatja az olyan különbségeket, mint a burkolat, a szórend és az írásjelek. Az előző művelet eredménye az alábbi táblázatot adja meg egy új fürtoszlopmal .
Amíg a fürtözés befejezve van, nem adja meg az összes sor várt eredményét. A második sor (2) értéke továbbra is megvanBlue berries are simply the best
, de fürtözöttnek Blueberries
kell lennie, és hasonló történik a szöveges sztringekhez Strawberries = <3
fav fruit is bananas
és My favorite fruit, by far, is Apples. I simply love them!
a .
Ha meg szeretné állapítani, hogy mi okozza a fürtözést, kattintson duplán a Fürtözött értékek elemre az Alkalmazott lépések panelen a Fürtértékek párbeszédpanel visszaállításához. Ezen a párbeszédpanelen bontsa ki a Fuzzy fürtbeállításokat. Engedélyezze a Hasonlósági pontszámok megjelenítése lehetőséget, majd kattintson az OK gombra.
A hasonlósági pontszámok megjelenítése beállítás engedélyezése új oszlopot hoz létre a táblában. Ez az oszlop a definiált fürt és az eredeti érték közötti pontos hasonlósági pontszámot mutatja.
Közelebbi vizsgálat esetén a Power Query nem talált más értéket a szövegsztringek Blue berries are simply the best
hasonlósági küszöbértékében ,Strawberries = <3
fav fruit is bananas
és My favorite fruit, by far, is Apples. I simply love them!
nem.
Térjen vissza még egyszer a Fürtértékek párbeszédpanelre, ha duplán kattint a Fürtözött értékek elemre az Alkalmazott lépések panelen. Módosítsa a hasonlóság küszöbértékét 0,8-ról 0,6-ra, majd kattintson az OK gombra.
Ez a módosítás közelebb kerül a keresett eredményhez, a szöveges sztring My favorite fruit, by far, is Apples. I simply love them!
kivételével. Amikor a Hasonlóság küszöbértéket 0,8-ról 0,6-ra módosította, a Power Query most már a 0,6-tól egészen 1-ig kezdődő hasonlósági pontszámmal tudta használni az értékeket.
Feljegyzés
A Power Query mindig a küszöbértékhez legközelebbi értéket használja a fürtök meghatározásához. A küszöbérték határozza meg a hasonlósági pontszám alsó határát, amely elfogadható az érték fürthöz való hozzárendeléséhez.
A hasonlóság pontszámának 0,6-ról egy alacsonyabb számra való módosításával újra próbálkozhat, amíg meg nem kapja a keresett eredményeket. Ebben az esetben módosítsa a Hasonlóság pontszámot 0,5-re. Ez a módosítás a várt eredményt adja a fürthöz Apples
most hozzárendelt szöveges sztringgelMy favorite fruit, by far, is Apples. I simply love them!
.
Feljegyzés
Jelenleg csak a Power Query Online Fürtértékek funkciója biztosít egy új oszlopot a hasonlósági pontszámmal.
A transzformációs táblázat különleges szempontjai
Az átalakítási táblázat segít az oszlop értékeinek új értékekre való leképezésében, mielőtt végrehajtja a homályos egyező algoritmust.
Néhány példa az átalakítási tábla használatára:
- Transzformációs tábla fürtértékekben
- Átalakítási tábla homályos egyesítési lekérdezésekben
- Átalakítási tábla a csoportban a következő szerint:
Fontos
Az átalakítási tábla használata esetén az átalakítási tábla értékeinek maximális hasonlósági pontszáma 0,95. Ez a 0,05-ös szándékos büntetés azért van érvényben, hogy megkülönböztesse, hogy az ilyen oszlop eredeti értéke nem egyenlő az átalakítás óta összehasonlított értékekkel.
Olyan helyzetekben, ahol először le szeretné képezni az értékeket, majd a 0,05-ös büntetés nélkül szeretné végrehajtani a homályos egyeztetést, javasoljuk, hogy cserélje le az oszlop értékeit, majd végezze el a homályos egyeztetést.