plugin autocluster
Berlaku untuk: ✅Microsoft Fabric✅Azure Data Explorer
autocluster
menemukan pola umum atribut diskrit (dimensi) dalam data. Kemudian mengurangi hasil kueri asli, apakah itu baris 100 atau 100.000, menjadi beberapa pola. Plugin dikembangkan untuk membantu menganalisis kegagalan (seperti pengecualian atau crash) tetapi berpotensi bekerja pada himpunan data yang difilter. Plugin dipanggil dengan operator evaluate
.
Catatan
autocluster
sebagian besar didasarkan pada algoritma Seed-Expand dari makalah berikut: Algorithms for Telemetry Data Mining using Discrete Attributes.
Sintaks
T evaluate
(
|
autocluster
[SizeWeight [,
WeightColumn [,
NumSeeds [,
CustomWildcard [,
... ]]]]])
Pelajari selengkapnya tentang konvensi sintaksis.
Parameter
Parameter harus diurutkan seperti yang ditentukan dalam sintaks. Untuk menunjukkan bahwa nilai default harus digunakan, letakkan nilai ~
tilde string . Untuk informasi selengkapnya, lihat Contoh.
Nama | Tipe | Wajib | Deskripsi |
---|---|---|---|
T | string |
✔️ | Ekspresi tabular input. |
SizeWeight | ganda | Ganda antara 0 dan 1 yang mengontrol keseimbangan antara nilai generik (cakupan tinggi) dan informatif (banyak bersama). Meningkatkan nilai ini biasanya mengurangi kuantitas pola saat memperluas cakupan. Sebaliknya, penurunan nilai ini menghasilkan pola yang lebih spesifik yang ditandai dengan peningkatan nilai bersama dan cakupan persentase yang lebih kecil. Default adalah 0.5 . Rumus adalah rata-rata geometrik tertimbang dengan bobot SizeWeight dan 1-SizeWeight . |
|
WeightColumn | string |
Mempertimbangkan setiap baris dalam input sesuai dengan berat yang ditentukan. Setiap baris memiliki berat 1 default . Argumen harus berupa nama kolom bilangan bulat numerik. Penggunaan umum kolom berat adalah memperhitungkan pengambilan sampel atau wadah atau agregasi data yang sudah disematkan ke dalam setiap baris. |
|
NumSeeds | int |
Menentukan jumlah titik pencarian lokal awal. Menyesuaikan jumlah benih berdampak pada kuantitas hasil atau kualitas berdasarkan struktur data. Meningkatkan benih dapat meningkatkan hasil tetapi dengan tradeoff kueri yang lebih lambat. Penurunan di bawah lima menghasilkan peningkatan yang dapat diabaikan, sementara meningkat di atas 50 jarang menghasilkan lebih banyak pola. Default adalah 25 . |
|
Kartu KustomWild | string |
Jenis harfiah yang mengatur nilai kartubebas untuk jenis tertentu dalam tabel hasil, yang menunjukkan tidak ada batasan pada kolom ini. Defaultnya adalah null , yang mewakili string kosong. Jika default adalah nilai yang baik dalam data, nilai kartubebas yang berbeda harus digunakan, seperti * . Anda dapat menyertakan beberapa wildcard kustom dengan menambahkannya secara berturut-turut. |
Mengembalikan
Plugin autocluster
biasanya mengembalikan set kecil pola. Pola menangkap bagian data dengan nilai umum bersama di beberapa atribut diskrit. Setiap pola diwakili oleh baris dalam hasil.
Kolom pertama adalah ID segmen. Dua kolom berikutnya adalah jumlah dan persentase baris dari kueri asli yang ditangkap oleh pola. Kolom yang tersisa berasal dari kueri asli. Nilainya adalah nilai tertentu dari kolom, atau nilai wildcard (yang secara default null) yang berarti nilai variabel.
Polanya tidak berbeda, mungkin tumpang tindih, dan biasanya tidak mencakup semua baris asli. Beberapa baris mungkin tidak termasuk dalam pola apa pun.
Tip
Gunakan tempat dan proyek dalam alur input untuk mengurangi data menjadi apa yang Anda minati.
Saat menemukan baris yang menarik, Anda mungkin ingin menelusurinya lebih jauh dengan menambahkan nilai spesifiknya ke filter where
Anda.
Contoh
Menggunakan evaluasi
T | evaluate autocluster()
Menggunakan autocluster
StormEvents
| where monthofyear(StartTime) == 5
| extend Damage = iff(DamageCrops + DamageProperty > 0 , "YES" , "NO")
| project State , EventType , Damage
| evaluate autocluster(0.6)
Hasil
SegmentId | Hitung | Persen | Status | EventType | Damage |
---|---|---|---|---|---|
0 | 2278 | 38.7 | Hujan es | TIDAK | |
1 | 512 | 8.7 | Angin Badai Petir | YA | |
2 | 898 | 15.3 | TEXAS |
Menggunakan wildcard kustom
StormEvents
| where monthofyear(StartTime) == 5
| extend Damage = iff(DamageCrops + DamageProperty > 0 , "YES" , "NO")
| project State , EventType , Damage
| evaluate autocluster(0.2, '~', '~', '*')
Hasil
SegmentId | Hitung | Persen | Status | EventType | Damage |
---|---|---|---|---|---|
0 | 2278 | 38.7 | * | Hujan es | TIDAK |
1 | 512 | 8.7 | * | Angin Badai Petir | YA |
2 | 898 | 15.3 | TEXAS | * | * |