Sumea yhdistäminen
Fuzzy Merge on älykäs tietojen valmisteluominaisuus, jonka avulla voit käyttää sumeita vastaavia algoritmeja sarakkeita verrattaessa. Nämä algoritmit yrittävät löytää vastaavuuksia yhdistettävien taulukoiden välillä.
Voit ottaa sumean vastaavuuden käyttöön Yhdistä -valintaikkunan alaosassa valitsemalla Käytä sumeaa vastaavuutta Merge -asetuspainikkeen suorittamiseen. Lisätietoja: Merge-toimintojen yleiskatsaus
Muistiinpano
Sumeaa vastaavuutta tuetaan vain tekstisarakkeiden yhdistämistoiminnoissa. Power Query käyttää Jaccard-samankaltaisuusalgoritmia esiintymäparien samankaltaisuuden mittaamiseen.
Esimerkkiskenaario
Sumean vastaavuuden yleinen käyttötapaus on vapaamuotoinen tekstikenttä, kuten kyselyssä. Tätä artikkelia varten mallitaulukko on otettu suoraan ryhmälle lähetetystä verkkokyselystä, jossa on vain yksi kysymys: Mikä on suosikkihedelmäsi?
Kyselyn tulokset näkyvät seuraavassa kuvassa.
Näyttökuva kyselyn tulostetaulukosta, joka sisältää sarakkeen jakauman kaavion, jossa on yhdeksän erillistä vastausta ja kaikki yksilölliset vastaukset, sekä vastaukset kyselyyn, jossa on kaikki kirjoitusvirheet, monikkomuotoinen tai yksiköllinen sekä tapausongelmat.
Yhdeksän tietuetta vastaavat kyselyyn toimitettuja tietoja. Kyselyn lähetyksissä ongelmana on, että joillakin on kirjoitusvirheitä, jotkut monikkoa, jotkut singularia, jotkut isoja ja jotkut pieniä.
Näiden arvojen standardoinnin helpottamiseksi tässä esimerkissä on Fruits -viitetaulukko.
Näyttökuva Hedelmät-viitetaulukosta, joka sisältää sarakkeen jakaumakaavion, jossa näkyy neljä erillistä hedelmää ja kaikki hedelmät yksilöllisinä, sekä luettelo hedelmistä: omena, ananas, vesimeloni ja banaani.
Muistiinpano
Selvyyden vuoksi tässä Fruits -viittaustaulukossa on vain tässä skenaariossa tarvittavien hedelmien nimi. Viitetaulukossa voi olla niin monta riviä kuin tarvitset.
Tavoitteena on luoda seuraavanlainen taulukko, jossa olet standardoinut kaikki nämä arvot, jotta voit tehdä enemmän analyyseja.
Näyttökuva kyselyn tulostaulukosta, jossa on Kysymys-sarake, joka sisältää sarakkeen jakaumakaavion. Kaaviossa näkyy yhdeksän erillistä vastausta, kaikki vastaukset yksilöllisiä. Kyselyn vastaukset sisältävät kaikki kirjoitusvirheet, monikon tai yksikön sekä tapausongelmat. Tulostetaulukko sisältää myös Hedelmä-sarakkeen. Tämä sarake sisältää sarakkeen jakelukaavion, joka näyttää neljä erillistä vastausta ja yhden yksilöllisen vastauksen. Siinä luetellaan myös kaikki hedelmät, jotka on kirjoitettu oikein, eristysmuoto ja oikea kirjainkoko.
Sumea yhdistämistoiminto
Aloitat sumean yhdistämisen tekemällä yhdistämisen. Tässä tapauksessa käytät vasenta ulkoliitosta, jossa vasen taulukko on kyselyn vasen taulukko ja oikea taulukko on Fruits -viitetaulukko. Valitse valintaikkunan alareunassa Käytä sumeaa vastaavuutta yhdistämisen -valintaruudun suorittamiseksi.
Kun olet valinnut OK, näet taulukossa uuden sarakkeen tämän yhdistämistoiminnon vuoksi. Jos laajennat sen, yhdellä rivillä ei ole arvoja. Juuri niin edellisen kuvan valintaikkunassa sanottiin, kun siinä luki "Valinta vastaa 8/9 riviä ensimmäisestä taulukosta".
Näyttökuva Kysely-taulukkoon lisätystä hedelmäsarakkeesta. Kaikki Kysymys-sarakkeen rivit on laajennettu, lukuun ottamatta riviä 9, jota ei voitu laajentaa, ja Hedelmä-sarake sisältää tyhjäarvon.
Sumea vastaavuus -asetukset
Voit muokata sumean vastaavuuden muokata sitä, miten likimääräinen vastaavuus tulisi tehdä. Valitse ensin Yhdistä kyselyt -komento ja laajenna sitten Yhdistä -valintaikkunassa Sumean vastaavuuden asetukset.
Käytettävissä olevat vaihtoehdot ovat:
- samanlaisuuskynnysarvon (valinnainen): Arvo väliltä 0,00–1,00, jonka avulla voidaan täsmätä tietueet, jotka ylittävät annetun samankaltaisuuspistemäärän. Raja-arvo 1,00 on sama kuin tarkan vastaavuuden perusteen määrittäminen. Esimerkiksi rypäleet vastaa Graes (ei kirjainta, p) vain, jos raja-arvoksi on asetettu alle 0,90. Oletusarvon mukaan tämä arvo on 0,80.
- Ignore-tapauksen: Mahdollistaa tietueiden vastaavuuden riippumatta siitä, missä tekstissä on kyse.
- Vastaavuus yhdistämällä tekstiosat: Mahdollistaa tekstiosien yhdistämisen vastaavuudet löytymällä. Esimerkiksi Micro soft on vastaava kuin Microsoft jos tämä asetus on käytössä.
- Näytä samankaltaisuuspisteet: Näyttää samankaltaisuuspisteet syötteen ja täsmäytettyjen arvojen välillä sumean vastaavuuden jälkeen.
- vastaavuuksien määrä (valinnainen): Määrittää, montako toisiaan vastaavaa riviä enintään voidaan palauttaa jokaiselle syöteriville.
- muunnostaulukko (valinnainen): Mahdollistaa tietueiden vastaavuuden mukautettujen arvojen yhdistämismääritysten perusteella. Esimerkiksi Rypäleet on vastaava kuin Rusinat jos annetaan muunnostaulukko, jossa From -sarakkeessa on Rypäleet ja To -sarakkeessa on Rusinat -.
Muunnostaulukko
Tässä artikkelissa olevassa esimerkissä voit käyttää muunnostaulukkoa puuttuvan parin sisältävän arvon yhdistämiseen. Tämä arvo on
- From sisältää etsityt arvot.
- To sisältää arvot, joita käytetään löydettyjen arvojen korvaamiseen käyttämällä From -saraketta.
Tässä artikkelissa muunnostaulukko näyttää seuraavalta:
Alkaen | Jotta |
---|---|
apls | Omena |
Voit palata Merge -valintaikkunaan ja antaa Sumean vastaavuuden asetukset kohdassa Vastaavuuksien määrä, 1. Ota Näytä samankaltaisuuspisteet -asetus käyttöön ja valitse sitten avattavasta valikosta Muunna taulukko-kohdasta Muunna taulukko.
Kun olet valinnut okok, voit siirtyä yhdistämisvaiheeseen. Kun laajennat sarakkeen taulukon arvoilla, Fruit -kentän lisäksi näet myös samanlaisuuspistekentän . Valitse molemmat ja laajenna ne lisäämättä etuliitettä.
Kun olet laajentanut nämä kaksi kenttää, ne lisätään taulukkoosi. Huomaa arvot, jotka saat kunkin arvon samankaltaisuuspisteille. Nämä pisteet voivat auttaa sinua lisämuunnoksissa tarvittaessa sen määrittämiseksi, pitääkö samankaltaisuuskynnystä pienentää vai nostaa.
Tässä esimerkissä Samanlaisuuspisteet - toimii vain lisätietona, eikä sitä tarvita tämän kyselyn tuloksessa, joten voit poistaa sen. Huomaa, miten esimerkki alkoi yhdeksällä erillisellä arvolla, mutta sumean yhdistämisen jälkeen siinä on vain neljä erillistä arvoa.
Näyttökuva kyselyn sumeasta tulostaulukosta, jossa on Kysymys-sarake, joka sisältää sarakkeen jakauman kaavion, jossa on yhdeksän erillistä vastausta, joissa kaikki vastaukset ovat yksilöllisiä, ja vastauksia kyselyyn, joka sisältää kaikki kirjoitusvirheet, monikkomuotoiset tulokset ja tapausongelmat. Sisältää myös Hedelmä-sarakkeen sarakkeen jakauman kaavion, joka näyttää neljä erillistä vastausta yhdellä yksilöllisellä vastauksella, ja sisältää kaikki hedelmät oikein kirjoitettuina, yksiköllisenä ja oikeana kirjainkokona.
Jos haluat lisätietoja muunnostaulukoiden toiminnasta, siirry kohtaan Muunnostaulukon ohjeet.