Glosarium pembelajaran mesin istilah penting
Daftar berikut adalah kompilasi istilah pembelajaran mesin penting yang berguna saat Anda membangun model kustom Anda di ML.NET.
Ketepatan
Dalam klasifikasi, akurasi adalah jumlah item yang diklasifikasikan dengan benar dibagi dengan jumlah total item dalam set pengujian. Berkisar antara 0 (paling tidak akurat) hingga 1 (paling akurat). Akurasi adalah salah satu metrik evaluasi performa model. Pertimbangkan bersama denganpresisi
Area di bawah kurva (AUC)
Dalam klasifikasi biner, metrik evaluasi yang merupakan nilai area di bawah kurva yang memplot tingkat positif sejati (pada sumbu y) terhadap tingkat positif palsu (pada sumbu x). Berkisar antara 0,5 (terburuk) hingga 1 (terbaik). Juga dikenal sebagai area di bawah kurva ROC, yaitu, kurva karakteristik operasi penerima. Untuk informasi selengkapnya, lihat artikel karakteristik operasi Penerima
Klasifikasi biner
Kasus klasifikasi
Kalibrasi
Kalibrasi adalah proses pemetaan skor mentah ke keanggotaan kelas, untuk klasifikasi biner dan multikelas. Beberapa pelatih ML.NET memiliki akhiran NonCalibrated
. Algoritma ini menghasilkan skor mentah yang kemudian harus dipetakan ke probabilitas kelas.
Katalog
Dalam ML.NET, katalog adalah kumpulan fungsi ekstensi, yang dikelompokkan menurut tujuan umum.
Misalnya, setiap tugas pembelajaran mesin (klasifikasi biner, regresi, peringkat dll) memiliki katalog algoritma pembelajaran mesin (pelatih) yang tersedia. Katalog untuk pelatih klasifikasi biner adalah: BinaryClassificationCatalog.BinaryClassificationTrainers.
Klasifikasi
Ketika data digunakan untuk memprediksi kategori, tugas pembelajaran mesin yang diawasi disebut klasifikasi. Klasifikasi biner mengacu pada memprediksi hanya dua kategori (misalnya, mengklasifikasikan gambar sebagai gambar 'kucing' atau 'anjing'). klasifikasi Multikelas mengacu pada memprediksi beberapa kategori (misalnya, saat mengklasifikasikan gambar sebagai gambar jenis anjing tertentu).
Koefisien penentuan
Dalamregresi
Data
Data adalah pusat dari aplikasi pembelajaran mesin apa pun. Dalam data ML.NET diwakili oleh objek IDataView. Objek tampilan data:
- terdiri dari kolom dan baris
- dievaluasi dengan malas, yaitu hanya memuat data saat operasi memanggilnya
- berisi skema yang menentukan jenis, format, dan panjang setiap kolom
Pengukur
Kelas di ML.NET yang mengimplementasikan antarmuka IEstimator<TTransformer>.
Estimator adalah spesifikasi transformasi (transformasi persiapan data dan transformasi pelatihan model pembelajaran mesin). Estimator dapat dirangkai bersama-sama menjadi alur transformasi. Parameter estimator atau alur estimator dipelajari ketika Fit dipanggil. Hasil
Metode ekstensi
Metode .NET yang merupakan bagian dari kelas tetapi didefinisikan di luar kelas. Parameter pertama dari metode ekstensi adalah referensi this
statis ke kelas tempat metode ekstensi berada.
Metode ekstensi digunakan secara ekstensif dalam ML.NET untuk membuat instans estimator .
Fitur
Properti terukur dari fenomena yang diukur, biasanya nilai numerik (ganda). Beberapa fitur disebut sebagai vektor Fitur
Rekayasa fitur
Rekayasa fitur adalah proses yang melibatkan penentuan serangkaian fitur dan mengembangkan perangkat lunak yang menghasilkan vektor fitur dari data fenomena yang tersedia, yaitu, ekstraksi fitur. Untuk informasi selengkapnya, lihat artikel rekayasa fitur
Skor F
Dalamklasifikasi
Hyperparameter
Parameter algoritma pembelajaran mesin. Contohnya termasuk jumlah pohon yang akan dipelajari di hutan keputusan atau ukuran langkah dalam algoritma penurunan gradien. Nilai Hyperparameter diatur sebelum melatih model dan mengatur proses menemukan parameter fungsi prediksi, misalnya, titik perbandingan dalam pohon keputusan atau bobot dalam model regresi linier. Untuk informasi selengkapnya, lihat artikel hyperparameter
Label
Elemen yang akan diprediksi dengan model pembelajaran mesin. Misalnya, jenis anjing atau harga stok di masa depan.
Kehilangan log
Dalamklasifikasi
Fungsi kehilangan
Fungsi kerugian adalah perbedaan antara nilai label pelatihan dan prediksi yang dibuat oleh model. Parameter model diperkirakan dengan meminimalkan fungsi kehilangan.
Pelatih yang berbeda dapat dikonfigurasi dengan fungsi kehilangan yang berbeda.
Kesalahan absolut rata-rata (MAE)
Dalamregresi
Pola
Secara tradisional, parameter untuk fungsi prediksi. Misalnya, bobot dalam model regresi linier atau titik terpisah di pohon keputusan. Dalam ML.NET, model berisi semua informasi yang diperlukan untuk memprediksi label objek domain (misalnya, gambar atau teks). Ini berarti bahwa model ML.NET mencakup langkah-langkah fiturisasi yang diperlukan serta parameter untuk fungsi prediksi.
Klasifikasi multikelas
Kasus klasifikasi
N-gram
Skema ekstraksi fitur untuk data teks: urutan kata N apa pun berubah menjadi fitur nilai
Normalisasi
Normalisasi adalah proses penskalaan data floating point ke nilai antara 0 dan 1. Banyak algoritma pelatihan yang digunakan dalam ML.NET memerlukan data fitur input untuk dinormalisasi. ML.NET menyediakan serangkaian transformasi untuk normalisasi.
Vektor fitur numerik
Fitur vektor yang hanya terdiri dari nilai numerik. Ini mirip dengan double[]
.
Pipa
Semua operasi yang diperlukan agar sesuai dengan model ke himpunan data. Alur terdiri dari impor data, transformasi, fiturisasi, dan langkah-langkah pembelajaran. Setelah alur dilatih, alur berubah menjadi model.
Presisi
Dalam klasifikasi, presisi untuk kelas adalah jumlah item yang diprediksi dengan benar sebagai milik kelas tersebut dibagi dengan jumlah total item yang diprediksi sebagai milik kelas.
Ingat
Dalam klasifikasi, pengenalan untuk kelas adalah jumlah item yang diprediksi dengan benar sebagai milik kelas tersebut dibagi dengan jumlah total item yang sebenarnya termasuk dalam kelas.
Regularisasi
Regularisasi menghukus model linier karena terlalu rumit. Ada dua jenis regularisasi:
- $L_1$ regularisasi nol bobot untuk fitur yang tidak signifikan. Ukuran model yang disimpan mungkin menjadi lebih kecil setelah jenis regularisasi ini.
- regularisasi $L_2$ meminimalkan rentang berat untuk fitur yang tidak signifikan. Ini adalah proses yang lebih umum dan kurang sensitif terhadap outlier.
Regresi
tugas pembelajaran mesin yang diawasi di mana output adalah nilai nyata, misalnya, ganda. Contohnya termasuk memprediksi harga saham. Untuk informasi selengkapnya, lihat bagian Regresi
Kesalahan absolut relatif
Dalamregresi
Kesalahan kuadrat relatif
Dalamregresi
Akar kesalahan kuadrat rata-rata (RMSE)
Dalam regresi, metrik evaluasi yang merupakan akar kuadrat dari rata-rata kuadrat kesalahan.
Penilaian
Penilaian adalah proses penerapan data baru ke model pembelajaran mesin terlatih, dan menghasilkan prediksi. Penilaian juga dikenal sebagai inferensi. Tergantung pada jenis model, skor bisa menjadi nilai mentah, probabilitas, atau kategori.
Pembelajaran mesin yang diawasi
Subkelas pembelajaran mesin di mana model yang diinginkan memprediksi label untuk data yang belum disembuhkan. Contohnya termasuk klasifikasi, regresi, dan prediksi terstruktur. Untuk informasi selengkapnya, lihat artikel pembelajaran
Pelatihan
Proses mengidentifikasi model untuk himpunan data pelatihan tertentu. Untuk model linier, ini berarti menemukan bobot. Untuk pohon, ini melibatkan identifikasi titik terpisah.
Transformator
Kelas ML.NET yang mengimplementasikan antarmuka ITransformer.
Transformator mengubah satu IDataView menjadi yang lain. Transformator dibuat dengan melatih estimator , atau alur estimator.
Pembelajaran mesin tanpa pengawas
Subkelas pembelajaran mesin di mana model yang diinginkan menemukan struktur tersembunyi (atau laten) dalam data. Contohnya termasuk pengklusteran, pemodelan topik, dan pengurangan dimensi. Untuk informasi selengkapnya, lihat artikel pembelajaran