Penggabungan fuzzy
Gabungan Fuzzy adalah fitur persiapan data pintar yang dapat Anda gunakan untuk menerapkan algoritma pencocokan fuzzy saat Anda membandingkan kolom. Algoritma ini mencoba menemukan kecocokan di seluruh tabel yang sedang digabungkan.
Anda dapat mengaktifkan pencocokan fuzzy di bagian bawah kotak dialog Gabungkan dengan memilih Gunakan pencocokan fuzzy untuk melakukan tombol opsi gabungkan. Informasi selengkapnya: gambaran umum operasi Penggabungan
Nota
Pencocokan fuzzy hanya didukung pada operasi penggabungan melalui kolom teks. Power Query menggunakan algoritma kesamaan Jaccard untuk mengukur kesamaan antara pasangan instans.
Skenario Contoh
Kasus penggunaan umum untuk pencocokan fuzzy adalah dengan bidang teks bentuk bebas, seperti dalam survei. Untuk artikel ini, tabel sampel diambil langsung dari survei online yang dikirim ke grup hanya dengan satu pertanyaan: Apa buah favorit Anda?
Hasil survei tersebut ditampilkan dalam gambar berikut.
Cuplikan layar tabel output survei sampel yang berisi grafik distribusi kolom memperlihatkan sembilan jawaban berbeda dengan semua jawaban unik, dan jawaban atas survei dengan semua kesalahan ketik, jamak atau tunggal, dan masalah kasus.
Sembilan catatan tersebut mencerminkan hasil survei. Masalah dengan pengiriman survei adalah bahwa beberapa memiliki kesalahan ketik, ada yang jamak, ada yang tunggal, ada yang huruf besar, dan ada yang huruf kecil.
Untuk membantu menstandarkan nilai-nilai ini, dalam contoh ini Anda memiliki tabel referensi Buah.
Cuplikan layar tabel referensi Buah yang berisi grafik distribusi kolom menunjukkan empat buah yang berbeda dengan semua buah yang unik, dan daftar buah-buahan: apel, nanas, semangka, dan pisang.
Nota
Untuk kesederhanaan, tabel referensi Fruits ini hanya menyertakan nama buah-buahan yang akan diperlukan untuk skenario ini. Tabel referensi Anda dapat memiliki baris sebanyak yang Anda butuhkan.
Tujuannya adalah untuk membuat tabel seperti berikut ini, di mana Anda telah menstandarkan semua nilai ini sehingga Anda dapat melakukan analisis lebih lanjut.
Cuplikan layar tabel output survei sampel dengan kolom Pertanyaan yang berisi grafik distribusi kolom. Grafik menunjukkan sembilan jawaban yang berbeda dengan semua jawaban unik. Jawaban atas survei berisi semua kesalahan ketik, bentuk jamak atau tunggal, dan masalah kasus. Tabel output juga berisi kolom Buah. Kolom ini berisi grafik distribusi kolom yang memperlihatkan empat jawaban berbeda dengan satu jawaban unik. Ini juga mencantumkan semua nama buah dengan ejaan yang benar, dalam bentuk tunggal, dan menggunakan huruf kapital yang tepat.
Operasi penggabungan fuzzy
Untuk melakukan penggabungan fuzzy, Anda mulai dengan melakukan penggabungan. Dalam hal ini, Anda menggunakan gabungan luar kiri, di mana tabel kiri adalah tabel dari survei dan tabel kanan adalah tabel referensi Buah . Di bagian bawah kotak dialog, pilih kotak centang Gunakan pencocokan fuzzy untuk melakukan penggabungan.
Setelah Anda memilih OK, Anda bisa melihat kolom baru di tabel Anda karena operasi penggabungan ini. Jika Anda memperluasnya, ada satu baris yang tidak memiliki nilai apa pun di dalamnya. Itulah tepatnya pesan kotak dialog dalam gambar sebelumnya yang dinyatakan ketika dikatakan "Pilihan cocok dengan 8 dari 9 baris dari tabel pertama."
Cuplikan layar dari kolom buah yang ditambahkan ke tabel Survei. Semua baris di kolom Pertanyaan diperluas, kecuali untuk baris 9, yang tidak dapat diperluas dan kolom Buah berisi null.
Opsi pencocokan fuzzy
Anda dapat memodifikasi opsi pencocokan Fuzzy untuk menyesuaikan cara mendekati kecocokan. Pertama, pilih perintah Penggabungan kueri, lalu di kotak dialog Penggabungan, perluas opsi pencocokan fuzzy.
Opsi yang tersedia adalah:
- Ambang kesamaan (opsional): Nilai antara 0,00 dan 1,00 yang memberikan kemampuan untuk mencocokkan rekaman di atas skor kesamaan tertentu. Ambang batas 1,00 sama dengan menentukan kriteria kecocokan yang tepat. Misalnya, Grapes cocok dengan Graes (kehilangan huruf p) hanya jika batas diatur ke kurang dari 0,90. Secara default, nilai ini diatur ke 0,80.
- Abaikan kasus: Memungkinkan pencocokan catatan tanpa memandang kasus teksnya.
- Cocokkan dengan menggabungkan bagian teks: Memungkinkan menggabungkan bagian teks untuk menemukan kecocokan. Misalnya, Micro soft dicocokkan dengan Microsoft jika opsi ini diaktifkan.
- Tampilkan skor kesamaan: Menampilkan skor kesamaan antara input dan nilai yang cocok setelah pencocokan fuzzy.
- Jumlah kecocokan (opsional): Menentukan jumlah maksimum baris yang cocok yang dapat dikembalikan untuk setiap baris input.
- tabel transformasi (opsional): Memungkinkan mencocokkan catatan berdasarkan pemetaan nilai kustom. Misalnya, Grapes dicocokkan dengan Raisins jika tabel transformasi disediakan di mana kolom From berisi Grapes dan kolom To berisi Raisins.
Tabel transformasi
Untuk contoh dalam artikel ini, Anda dapat menggunakan tabel transformasi untuk memetakan nilai yang memiliki pasangan yang hilang. Nilai tersebut adalah apls, yang perlu dipetakan ke Apple. Tabel transformasi Anda memiliki dua kolom:
- Dari mengandung nilai untuk dicari.
- Ke berisi nilai yang digunakan untuk mengganti nilai yang ditemukan dengan menggunakan kolom Dari.
Untuk artikel ini, tabel transformasi terlihat sebagai berikut:
Dari | Ke |
---|---|
apls | Apple |
Anda bisa kembali ke kotak dialog Penggabungan, dan di opsi Pencocokan Fuzzy di bawah Jumlah kecocokan, masukkan 1. Aktifkan opsi Tampilkan skor kesamaan
Setelah Anda memilih OK, Anda bisa masuk ke langkah penggabungan. Saat Anda memperluas kolom dengan nilai tabel, selain bidang Fruit Anda juga melihat bidang skor Kesamaan . Pilih keduanya dan perluas tanpa menambahkan awalan.
Setelah Anda memperluas dua bidang ini, kedua bidang tersebut ditambahkan ke tabel Anda. Perhatikan nilai yang Anda dapatkan untuk skor kesamaan setiap nilai. Skor ini dapat membantu Anda dengan transformasi lebih lanjut jika diperlukan untuk menentukan apakah Anda harus menurunkan atau menaikkan ambang kesamaan Anda.
Untuk contoh ini, skor kesamaan hanya berfungsi sebagai informasi tambahan dan tidak diperlukan dalam output kueri ini, sehingga Anda dapat menghapusnya. Perhatikan bagaimana contoh dimulai dengan sembilan nilai yang berbeda, tetapi setelah penggabungan fuzzy, hanya ada empat nilai yang berbeda.
Cuplikan layar tabel output survei gabungan fuzzy dengan kolom Pertanyaan yang berisi grafik distribusi kolom memperlihatkan sembilan jawaban berbeda dengan semua jawaban unik, dan jawaban atas survei dengan semua kesalahan ketik, jamak atau tunggal, dan masalah kasus. Juga berisi kolom Buah dengan grafik distribusi kolom yang menunjukkan empat jawaban berbeda dengan satu jawaban unik dan mencantumkan semua nama buah yang ejaannya benar, dalam bentuk tunggal, dan menggunakan huruf besar yang benar.
Untuk informasi selengkapnya tentang cara kerja tabel transformasi, kunjungi pedoman tabel transformasi .
Konten terkait
- pencocokan kabur
- nilai Kluster
- pengelompokan Fuzzy