Aracılığıyla paylaş


Benzer birleştirme

Benzer birleştirme , sütunları karşılaştırırken benzer eşleşen algoritmalar uygulamak için kullanabileceğiniz bir akıllı veri hazırlama özelliğidir. Bu algoritmalar, birleştirilmekte olan tablolardaki eşleşmeleri bulmaya çalışır.

Birleştirme seçeneği düğmesini gerçekleştirmek için Benzer eşleştirmeyi kullan düğmesini seçerek Birleştir iletişim kutusunun en altında benzer eşleşmeyi etkinleştirebilirsiniz. Daha fazla bilgi: Birleştirme işlemlerine genel bakış

Not

Benzer eşleşme yalnızca metin sütunları üzerinden yapılan birleştirme işlemlerinde desteklenir. Power Query, örnek çiftleri arasındaki benzerliği ölçmek için Jaccard benzerlik algoritmasını kullanır.

Örnek senaryo

Benzer eşleştirme için yaygın bir kullanım örneği, anketteki gibi serbest biçimli metin alanlarıdır. Bu makale için örnek tablo doğrudan tek bir soruyla bir gruba gönderilen çevrimiçi bir anketten alınmıştır: En sevdiğiniz meyve nedir?

Bu anketin sonuçları aşağıdaki görüntüde gösterilmiştir.

Ham girişlerle örnek anket.

Tüm yanıtları benzersiz olan dokuz farklı yanıtı ve tüm yazım hataları, çoğul veya tekil ve vaka sorunlarını içeren anketin yanıtlarını gösteren sütun dağıtım grafiğini içeren örnek anket çıktı tablosunun ekran görüntüsü.

Dokuz kayıt anket gönderimlerini yansıtır. Anket gönderimleriyle ilgili sorun, bazılarının yazım hatası olması, bazılarının çoğul, bazılarının tekil, bazılarının büyük ve bazılarının küçük harf olmasıdır.

Bu değerleri standartlaştırmaya yardımcı olmak için, bu örnekte bir Fruits başvuru tablonuz vardır.

Fruits başvuru tablosu.

Tüm meyvelerin benzersiz olduğu dört ayrı meyveyi ve meyve listesini gösteren sütun dağılım grafiğini içeren Fruits başvuru tablosunun ekran görüntüsü: elma, ananas, karpuz ve muz.

Not

Kolaylık olması için, bu Fruits başvuru tablosu yalnızca bu senaryo için gerekli olan meyvelerin adını içerir. Başvuru tablonuzda ihtiyacınız olan sayıda satır olabilir.

Amaç, daha fazla analiz gerçekleştirebilmek için tüm bu değerleri standartlaştırdığınız aşağıdaki gibi bir tablo oluşturmaktır.

Örnek anket çıkış tablosu.

Sütun dağıtım grafiğini içeren Soru sütununun bulunduğu örnek anket çıktı tablosunun ekran görüntüsü. Grafikte, tüm yanıtları benzersiz olan dokuz farklı yanıt gösterilmektedir. Anketin yanıtları tüm yazım hataları, çoğul veya tekil vaka sorunlarını içerir. Çıkış tablosu Fruit sütununu da içerir. Bu sütun, tek bir benzersiz yanıtla dört farklı yanıtı gösteren sütun dağıtım grafiğini içerir. Ayrıca tüm meyvelerin düzgün yazıldığını, tekil ve uygun vakayı listelemektedir.

Benzer birleştirme işlemi

Benzer birleştirmeyi yapmak için bir birleştirme yaparak işe başlarsınız. Bu durumda sol dış birleşim kullanırsınız; burada sol tablo anketteki tablodur ve sağ tablo Fruits başvuru tablosudur. İletişim kutusunun en altında, Birleştirmeyi gerçekleştirmek için benzer eşleştirme kullan onay kutusunu seçin.

Birleştirme seçeneğini gerçekleştirmek için benzer eşleştirmenin nasıl kullanılacağını gösteren Birleştir iletişim kutusunun ekran görüntüsü.

Tamam'ı seçtikten sonra, bu birleştirme işlemi nedeniyle tablonuzda yeni bir sütun görebilirsiniz. Genişletirseniz, içinde değer içermeyen bir satır vardır. Önceki görüntüdeki iletişim kutusu iletisinde "Seçim, ilk tablodan 9 satırın 8'iyle eşleşir" ifadesiyle tam olarak bu belirtildi.

Meyve sütununda benzer eşleşme sonuçları.

Anket tablosuna eklenen meyve sütununun ekran görüntüsü. Soru sütunundaki tüm satırlar genişletilir, ancak 9. satır genişletilemeyebilir ve Fruit sütunu null içerir.

Kısmi eşleştirme seçenekleri

Benzer eşleştirme seçeneklerini değiştirerek yaklaşık eşleşmenin nasıl yapılması gerektiğini ayarlayabilirsiniz. İlk olarak Sorguları birleştir komutunu seçin ve Birleştir iletişim kutusunda Benzer eşleştirme seçenekleri'ni genişletin.

Benzer eşleştirme seçeneklerinin görüntülendiği Birleştir iletişim kutusunun ekran görüntüsü.

Şu seçenekler sağlanır:

  • Benzerlik eşiği (isteğe bağlı):0,00 ile 1,00 arasında, belirli bir benzerlik puanının üzerindeki kayıtları eşleştirme olanağı sağlayan bir değerdir. 1,00 eşiği, tam eşleşme ölçütlerini belirtmekle aynıdır. Örneğin, Üzümler yalnızca eşik 0,90'dan küçükse Graes ile eşleşir (p harfi eksiktir). Varsayılan olarak, bu değer 0,80 olarak ayarlanır.
  • Büyük/küçük harf yoksay: Metnin büyük/küçük harflerinden bağımsız olarak eşleşen kayıtlara izin verir.
  • Metin bölümlerini birleştirerek eşleştir: Eşleşmeleri bulmak için metin bölümlerinin birleştirilmesine izin verir. Örneğin, bu seçenek etkinse Mikro yazılım Microsoft ile eşleştirilir.
  • Benzerlik puanlarını göster: Benzer eşleştirmeden sonra giriş ve eşleşen değerler arasındaki benzerlik puanlarını gösterir.
  • Eşleşme sayısı (isteğe bağlı):Her giriş satırı için döndürülebilecek eşleşen satır sayısı üst sınırını belirtir.
  • Dönüştürme tablosu (isteğe bağlı):Özel değer eşlemelerine göre eşleşen kayıtlara izin verir. Örneğin, Kimden sütununun Üzümleri ve To sütununun kuru üzümleri içerdiği bir dönüştürme tablosu sağlanırsa Üzümler, Kuru Üzümlerle eşleştirilir.

Dönüştürme tablosu

Bu makaledeki örnekte, eksik çifti olan değeri eşlemek için bir dönüştürme tablosu kullanabilirsiniz. Bu değer, Apple ile eşlenmesi gereken apls değeridir. Dönüştürme tablonuzda iki sütun vardır:

  • Kimden , bulunacak değerleri içerir.
  • From sütununu kullanarak bulunan değerleri değiştirmek için kullanılan değerleri içerir.

Bu makale için dönüştürme tablosu aşağıdaki gibi görünür:

Kaynak Amaç
apls Apple

Birleştir iletişim kutusuna geri dönebilirsiniz ve Eşleşme sayısı'nın altındaki Benzer eşleştirme seçenekleri'ne 1 yazın. Benzerlik puanlarını göster seçeneğini etkinleştirin ve dönüştürme tablosunun altında açılan menüden Tabloyu Dönüştür'ü seçin.

Eşleşme sayısı 1 ve Dönüştürme tablosunun Dönüşüm tablosu olarak ayarlandığı Birleştir iletişim kutusunun ekran görüntüsü.

Tamam'ı seçtikten sonra birleştirme adımına gidebilirsiniz. Sütunu tablo değerleriyle genişlettiğiniz zaman Fruit alanının yanı sıra Benzerlik puanı alanını da görürsünüz. Her ikisini de seçin ve ön ek eklemeden genişletin.

Seçili Fruit and Similarity score alanlarını içeren Fruits sütunu için tablo genişletme iletişim kutusunun ekran görüntüsü.

Bu iki alanı genişletdikten sonra bunlar tablonuza eklenir. Her değerin benzerlik puanları için elde ettiğiniz değerleri not edin. Bu puanlar, benzerlik eşiğinizi düşürmeniz mi yoksa yükseltmeniz mi gerektiğini belirlemek için gerekirse daha fazla dönüşümde size yardımcı olabilir.

Benzer birleştirme işlemi gerçekleştikten sonra her değer için hem yeni Fruit hem de Benzerlik puanı alanlarını gösteren tablo çıktısının ekran görüntüsü.

Bu örnekte Benzerlik puanı yalnızca ek bilgi olarak görev alır ve bu sorgunun çıkışında gerekli değildir, dolayısıyla bunu kaldırabilirsiniz. Örneğin dokuz ayrı değerle nasıl başladığına dikkat edin, ancak benzer birleştirme işleminden sonra yalnızca dört ayrı değer vardır.

Benzer birleştirme anketi çıkış tablosu.

Tüm yanıtları benzersiz olan dokuz farklı yanıtı ve tüm yazım hataları, çoğul veya tekil ve servis talebi sorunlarını içeren anketin yanıtlarını gösteren sütun dağıtım grafiğini içeren Soru sütununu içeren benzer birleştirme anketi çıkış tablosunun ekran görüntüsü. Ayrıca, tek bir benzersiz yanıtla dört farklı yanıtı gösteren sütun dağılım grafiğinin bulunduğu Fruit sütununu içerir ve düzgün yazılmış, tekil ve uygun durumdaki tüm meyveleri listeler.

Dönüştürme tablolarının nasıl çalıştığı hakkında daha fazla bilgi için Dönüştürme tablosu önkoşulları bölümüne gidin.