Jaa


Sumea yhdistäminen

Fuzzy Merge on älykäs tietojen valmisteluominaisuus, jonka avulla voit käyttää sumeita vastaavia algoritmeja sarakkeita verrattaessa. Nämä algoritmit yrittävät löytää vastaavuuksia yhdistettävien taulukoiden välillä.

Voit ottaa sumean vastaavuuden käyttöön Yhdistä -valintaikkunan alaosassa valitsemalla Käytä sumeaa vastaavuutta Merge -asetuspainikkeen suorittamiseen. Lisätietoja: Merge-toimintojen yleiskatsaus

Muistiinpano

Sumeaa vastaavuutta tuetaan vain tekstisarakkeiden yhdistämistoiminnoissa. Power Query käyttää Jaccard-samankaltaisuusalgoritmia esiintymäparien samankaltaisuuden mittaamiseen.

Esimerkkiskenaario

Sumean vastaavuuden yleinen käyttötapaus on vapaamuotoinen tekstikenttä, kuten kyselyssä. Tätä artikkelia varten mallitaulukko on otettu suoraan ryhmälle lähetetystä verkkokyselystä, jossa on vain yksi kysymys: Mikä on suosikkihedelmäsi?

Kyselyn tulokset näkyvät seuraavassa kuvassa.

Mallikysely, joka sisältää raakamerkintöjä.

Näyttökuva kyselyn tulostetaulukosta, joka sisältää sarakkeen jakauman kaavion, jossa on yhdeksän erillistä vastausta ja kaikki yksilölliset vastaukset, sekä vastaukset kyselyyn, jossa on kaikki kirjoitusvirheet, monikkomuotoinen tai yksiköllinen sekä tapausongelmat.

Yhdeksän tietuetta vastaavat kyselyyn toimitettuja tietoja. Kyselyn lähetyksissä ongelmana on, että joillakin on kirjoitusvirheitä, jotkut monikkoa, jotkut singularia, jotkut isoja ja jotkut pieniä.

Näiden arvojen standardoinnin helpottamiseksi tässä esimerkissä on Fruits -viitetaulukko.

Fruits-viitetaulukosta.

Näyttökuva Hedelmät-viitetaulukosta, joka sisältää sarakkeen jakaumakaavion, jossa näkyy neljä erillistä hedelmää ja kaikki hedelmät yksilöllisinä, sekä luettelo hedelmistä: omena, ananas, vesimeloni ja banaani.

Muistiinpano

Selvyyden vuoksi tässä Fruits -viittaustaulukossa on vain tässä skenaariossa tarvittavien hedelmien nimi. Viitetaulukossa voi olla niin monta riviä kuin tarvitset.

Tavoitteena on luoda seuraavanlainen taulukko, jossa olet standardoinut kaikki nämä arvot, jotta voit tehdä enemmän analyyseja.

Kyselyn malli -tulostaulukko.

Näyttökuva kyselyn tulostaulukosta, jossa on Kysymys-sarake, joka sisältää sarakkeen jakaumakaavion. Kaaviossa näkyy yhdeksän erillistä vastausta, kaikki vastaukset yksilöllisiä. Kyselyn vastaukset sisältävät kaikki kirjoitusvirheet, monikon tai yksikön sekä tapausongelmat. Tulostetaulukko sisältää myös Hedelmä-sarakkeen. Tämä sarake sisältää sarakkeen jakelukaavion, joka näyttää neljä erillistä vastausta ja yhden yksilöllisen vastauksen. Siinä luetellaan myös kaikki hedelmät, jotka on kirjoitettu oikein, eristysmuoto ja oikea kirjainkoko.

Sumea yhdistämistoiminto

Aloitat sumean yhdistämisen tekemällä yhdistämisen. Tässä tapauksessa käytät vasenta ulkoliitosta, jossa vasen taulukko on kyselyn vasen taulukko ja oikea taulukko on Fruits -viitetaulukko. Valitse valintaikkunan alareunassa Käytä sumeaa vastaavuutta yhdistämisen -valintaruudun suorittamiseksi.

Yhdistä-valintaikkunan näyttökuva, joka näyttää, miten voit käyttää sumeaa vastaavuutta yhdistämistoiminnon suorittamiseen.

Kun olet valinnut OK, näet taulukossa uuden sarakkeen tämän yhdistämistoiminnon vuoksi. Jos laajennat sen, yhdellä rivillä ei ole arvoja. Juuri niin edellisen kuvan valintaikkunassa sanottiin, kun siinä luki "Valinta vastaa 8/9 riviä ensimmäisestä taulukosta".

Fuzzy-vastaavuus tuottaa tulokseksi Hedelmä-sarakkeen.

Näyttökuva Kysely-taulukkoon lisätystä hedelmäsarakkeesta. Kaikki Kysymys-sarakkeen rivit on laajennettu, lukuun ottamatta riviä 9, jota ei voitu laajentaa, ja Hedelmä-sarake sisältää tyhjäarvon.

Sumea vastaavuus -asetukset

Voit muokata sumean vastaavuuden muokata sitä, miten likimääräinen vastaavuus tulisi tehdä. Valitse ensin Yhdistä kyselyt -komento ja laajenna sitten Yhdistä -valintaikkunassa Sumean vastaavuuden asetukset.

Yhdistä-valintaikkunan näyttökuva, jossa näkyvät sumeat vastaavat asetukset.

Käytettävissä olevat vaihtoehdot ovat:

  • samanlaisuuskynnysarvon (valinnainen): Arvo väliltä 0,00–1,00, jonka avulla voidaan täsmätä tietueet, jotka ylittävät annetun samankaltaisuuspistemäärän. Raja-arvo 1,00 on sama kuin tarkan vastaavuuden perusteen määrittäminen. Esimerkiksi rypäleet vastaa Graes (ei kirjainta, p) vain, jos raja-arvoksi on asetettu alle 0,90. Oletusarvon mukaan tämä arvo on 0,80.
  • Ignore-tapauksen: Mahdollistaa tietueiden vastaavuuden riippumatta siitä, missä tekstissä on kyse.
  • Vastaavuus yhdistämällä tekstiosat: Mahdollistaa tekstiosien yhdistämisen vastaavuudet löytymällä. Esimerkiksi Micro soft on vastaava kuin Microsoft jos tämä asetus on käytössä.
  • Näytä samankaltaisuuspisteet: Näyttää samankaltaisuuspisteet syötteen ja täsmäytettyjen arvojen välillä sumean vastaavuuden jälkeen.
  • vastaavuuksien määrä (valinnainen): Määrittää, montako toisiaan vastaavaa riviä enintään voidaan palauttaa jokaiselle syöteriville.
  • muunnostaulukko (valinnainen): Mahdollistaa tietueiden vastaavuuden mukautettujen arvojen yhdistämismääritysten perusteella. Esimerkiksi Rypäleet on vastaava kuin Rusinat jos annetaan muunnostaulukko, jossa From -sarakkeessa on Rypäleet ja To -sarakkeessa on Rusinat -.

Muunnostaulukko

Tässä artikkelissa olevassa esimerkissä voit käyttää muunnostaulukkoa puuttuvan parin sisältävän arvon yhdistämiseen. Tämä arvo on apls, joka on yhdistettävä Apple. Muunnostaulukossa on kaksi saraketta:

  • From sisältää etsityt arvot.
  • To sisältää arvot, joita käytetään löydettyjen arvojen korvaamiseen käyttämällä From -saraketta.

Tässä artikkelissa muunnostaulukko näyttää seuraavalta:

Alkaen Jotta
apls Omena

Voit palata Merge -valintaikkunaan ja antaa Sumean vastaavuuden asetukset kohdassa Vastaavuuksien määrä, 1. Ota Näytä samankaltaisuuspisteet -asetus käyttöön ja valitse sitten avattavasta valikosta Muunna taulukko-kohdasta Muunna taulukko.

Näyttökuva Yhdistä-valintaikkunasta, jossa vastaavuusten määräksi on asetettu 1 ja Muunna taulukko -arvoksi Muunna taulukko.

Kun olet valinnut okok, voit siirtyä yhdistämisvaiheeseen. Kun laajennat sarakkeen taulukon arvoilla, Fruit -kentän lisäksi näet myös samanlaisuuspistekentän . Valitse molemmat ja laajenna ne lisäämättä etuliitettä.

Näyttökuva Taulukon laajentaminen -valintaikkunasta Hedelmät-sarakkeessa, joka sisältää valitut Hedelmä- ja Samankaltaisuus-pistemäärä -kentät.

Kun olet laajentanut nämä kaksi kenttää, ne lisätään taulukkoosi. Huomaa arvot, jotka saat kunkin arvon samankaltaisuuspisteille. Nämä pisteet voivat auttaa sinua lisämuunnoksissa tarvittaessa sen määrittämiseksi, pitääkö samankaltaisuuskynnystä pienentää vai nostaa.

Näyttökuva sumean yhdistämisprosessin jälkeisestä taulukon tulosteesta, jossa näkyvät sekä kunkin arvon uudet Hedelmä- että Samankaltaisuus-pistemäärä-kentät.

Tässä esimerkissä Samanlaisuuspisteet - toimii vain lisätietona, eikä sitä tarvita tämän kyselyn tuloksessa, joten voit poistaa sen. Huomaa, miten esimerkki alkoi yhdeksällä erillisellä arvolla, mutta sumean yhdistämisen jälkeen siinä on vain neljä erillistä arvoa.

Fuzzy Merge -kyselyn tulostaulukko.

Näyttökuva kyselyn sumeasta tulostaulukosta, jossa on Kysymys-sarake, joka sisältää sarakkeen jakauman kaavion, jossa on yhdeksän erillistä vastausta, joissa kaikki vastaukset ovat yksilöllisiä, ja vastauksia kyselyyn, joka sisältää kaikki kirjoitusvirheet, monikkomuotoiset tulokset ja tapausongelmat. Sisältää myös Hedelmä-sarakkeen sarakkeen jakauman kaavion, joka näyttää neljä erillistä vastausta yhdellä yksilöllisellä vastauksella, ja sisältää kaikki hedelmät oikein kirjoitettuina, yksiköllisenä ja oikeana kirjainkokona.

Jos haluat lisätietoja muunnostaulukoiden toiminnasta, siirry kohtaan Muunnostaulukon ohjeet.