Del via


Fuzzyfletning

Fuzzy-fletning er en smart funktion til dataforberedelse, som du kan bruge til at anvende fuzzy matchende algoritmer, når du sammenligner kolonner. Disse algoritmer forsøger at finde match på tværs af de tabeller, der flettes.

Du kan aktivere fuzzymatchning nederst i dialogboksen Flet ved at vælge Brug fuzzymatchning til at udføre fletning alternativknap. Flere oplysninger: oversigt over flettehandlinger

Seddel

Fuzzymatchning understøttes kun ved flettehandlinger over tekstkolonner. Power Query bruger algoritmen Jaccard-lighed til at måle ligheden mellem forekomster.

Eksempelscenarie

En almindelig use case til fuzzymatchning er med kombinationstegningstekstfelter, f.eks. i en undersøgelse. I denne artikel blev eksempeltabellen taget direkte fra en onlineundersøgelse, der blev sendt til en gruppe med kun ét spørgsmål: Hvad er din favorit frugt?

Resultaterne af undersøgelsen vises på følgende billede.

Eksempelundersøgelse med rå poster.

Skærmbillede af outputtabellen for eksempelundersøgelsen, der indeholder søjledistributionsdiagrammet, der viser ni entydige svar med alle svar entydige, og svarene på undersøgelsen med alle stavefejl, flertal eller ental og sagsproblemer.

De ni poster afspejler undersøgelsens indsendelser. Problemet med undersøgelsens bemærkninger er, at nogle har stavefejl, nogle er flertal, nogle er ental, nogle er store bogstaver, og nogle er små bogstaver.

Som en hjælp til at standardisere disse værdier har du i dette eksempel en Frugt referencetabel.

referencetabel med frugter.

Skærmbillede af referencetabellen Frugt, der indeholder søjledistributionsdiagrammet, der viser fire forskellige frugter med alle frugter unikke, og listen over frugter: æble, ananas, vandmelon og banan.

Seddel

For nemheds skyld indeholder denne Frugt referencetabel kun navnet på de frugter, der skal bruges til dette scenarie. Referencetabellen kan indeholde lige så mange rækker, du har brug for.

Målet er at oprette en tabel som følgende, hvor du har standardiseret alle disse værdier, så du kan foretage flere analyser.

Eksempel på outputtabel for undersøgelse.

Skærmbillede af outputtabellen for eksempelundersøgelsen med kolonnen Spørgsmål, der indeholder søjledistributionsdiagrammet. Grafen viser ni forskellige svar, hvor alle svar er entydige. Svarene på undersøgelsen indeholder alle stavefejl, flertal eller ental, og sagsproblemer. Outputtabellen indeholder også kolonnen Fruit. Denne kolonne indeholder søjledistributionsdiagrammet, der viser fire forskellige svar med ét entydigt svar. Det viser også alle frugterne korrekt stavet, ental og korrekt sag.

Fuzzyfletningshandling

Hvis du vil udføre fuzzyfletningen, skal du starte med at udføre en fletning. I dette tilfælde skal du bruge en venstre ydre joinforbindelse, hvor den venstre tabel er den fra undersøgelsen, og den højre tabel er den Frugt referencetabel. Nederst i dialogboksen skal du markere afkrydsningsfeltet Brug fuzzymatchning til at udføre fletningen.

Skærmbillede af dialogboksen Flet, der viser, hvordan du bruger fuzzymatchning til at udføre fletteindstillingen.

Når du har valgt OK, kan du se en ny kolonne i tabellen på grund af denne fletningshandling. Hvis du udvider den, er der én række, der ikke har nogen værdier i den. Det er præcis, hvad dialogboksmeddelelsen på det forrige billede sagde, da der stod "Markeringen svarer til 8 af 9 rækker fra den første tabel".

fuzzymatch resulterer i kolonnen Frugt.

Skærmbillede af den frugtkolonne, der er føjet til tabellen Survey. Alle rækker i kolonnen Spørgsmål udvides med undtagelse af række 9, som ikke kunne udvides, og kolonnen Frugt indeholder null.

Indstillinger for fuzzymatchning

Du kan ændre de Fuzzy-matchende indstillinger for at tilpasse, hvordan det omtrentlige match skal gøres. Vælg først kommandoen Flet forespørgsler , og udvid derefter Fuzzy-matchende indstillingeri dialogboksen Flet .

Skærmbillede af dialogboksen Flet med de fuzzy matchende indstillinger, der vises.

De tilgængelige indstillinger er:

  • Lighedstærskel (valgfrit): En værdi mellem 0,00 og 1,00, der giver mulighed for at matche poster over en given lighedsscore. En grænse på 1,00 er den samme som at angive et nøjagtigt matchkriterier. Druer f.eks. kun matches med Graes (mangler bogstavet p), hvis tærsklen er angivet til mindre end 0,90. Denne værdi er som standard angivet til 0,80.
  • Ignoreraf forskel på små og små bogstaver: Tillader matchende poster, uanset om der er forskel på små og små bogstaver i teksten.
  • Match ved at kombinere tekstdele: Gør det muligt at kombinere tekstdele for at finde forekomster. Micro soft matches f.eks. med Microsoft, hvis denne indstilling er aktiveret.
  • Vis lighedsscores: Viser lighedsscores mellem inputtet og de matchende værdier efter fuzzymatching.
  • Antal match (valgfrit): Angiver det maksimale antal matchende rækker, der kan returneres for hver inputrække.
  • Transformationstabel (valgfrit): Tillader matchende poster baseret på brugerdefinerede værditilknytninger. Druer matches f.eks. med rosiner, hvis der angives en transformationstabel, hvor kolonnen Fra indeholder Druer, og kolonnen til indeholder rosiner.

Transformationstabel

I eksemplet i denne artikel kan du bruge en transformationstabel til at tilknytte den værdi, der mangler et par. Denne værdi er apls, som skal knyttes til Apple. Transformationstabellen indeholder to kolonner:

  • Fra indeholder de værdier, der skal søges efter.
  • Hvis du vil, indeholder de værdier, der bruges til at erstatte de værdier, der blev fundet, ved hjælp af kolonnen Fra.

I denne artikel ser transformationstabellen ud på følgende måde:

Fra Til
apls Æble

Du kan gå tilbage til dialogboksen Flet , og i Fuzzy-matchende indstillinger under Antal matchskal du angive 1. Aktivér indstillingen Vis lighedsscores, og vælg derefter Transformér tabel i rullemenuen under Transformationstabel.

Skærmbillede af dialogboksen Flet, hvor antallet af forekomster er angivet til 1, og tabellen Transformation er angivet til Transformér tabel.

Når du har valgt OK, kan du gå til trinnet til fletning. Når du udvider kolonnen med tabelværdier, kan du ud over feltet Fruit også se feltet lighedsscore. Vælg begge dele, og udvid dem uden at tilføje et præfiks.

Skærmbillede af dialogboksen udvid til tabellen for kolonnen Frugt, der indeholder de valgte resultatfelter frugt og lighed.

Når du har udvidet disse to felter, føjes de til tabellen. Bemærk de værdier, du får for lighedsscores for hver værdi. Disse scorer kan hjælpe dig med yderligere transformationer, hvis det er nødvendigt for at afgøre, om du skal sænke eller hæve tærsklen for lighed.

Skærmbillede af tabeloutputtet, efter at fuzzyfletningsprocessen fandt sted, hvor både de nye felter Frugt og Lighedsscore for hver værdi blev vist.

I dette eksempel fungerer lighedsscore kun som yderligere oplysninger og er ikke nødvendige i outputtet af denne forespørgsel, så du kan fjerne den. Bemærk, hvordan eksemplet startede med ni forskellige værdier, men efter fuzzyfletningen er der kun fire entydige værdier.

outputtabel til fuzzyfletning af undersøgelse.

Skærmbillede af outputtabellen til fuzzyfletning med kolonnen Spørgsmål, der indeholder søjledistributionsdiagrammet, der viser ni forskellige svar med alle svar entydige, og svarene på undersøgelsen med alle stavefejl, flertal eller enkeltstående problemer og sagsproblemer. Indeholder også kolonnen Frugt med søjledistributionsdiagrammet, der viser fire forskellige svar med ét entydigt svar og viser alle frugterne korrekt stavet, ental og korrekt store og små bogstaver.

Du kan få flere oplysninger om, hvordan transformationstabeller fungerer, ved at gå til Forskrifter for transformationstabel.