Bagikan melalui


Glosarium pembelajaran mesin istilah penting

Daftar berikut adalah kompilasi istilah pembelajaran mesin penting yang berguna saat Anda membangun model kustom Anda di ML.NET.

Ketepatan

Dalam klasifikasi, akurasi adalah jumlah item yang diklasifikasikan dengan benar dibagi dengan jumlah total item dalam set pengujian. Berkisar antara 0 (paling tidak akurat) hingga 1 (paling akurat). Akurasi adalah salah satu metrik evaluasi performa model. Pertimbangkan bersama denganpresisi , , danskor F .

Area di bawah kurva (AUC)

Dalam klasifikasi biner, metrik evaluasi yang merupakan nilai area di bawah kurva yang memplot tingkat positif sejati (pada sumbu y) terhadap tingkat positif palsu (pada sumbu x). Berkisar antara 0,5 (terburuk) hingga 1 (terbaik). Juga dikenal sebagai area di bawah kurva ROC, yaitu, kurva karakteristik operasi penerima. Untuk informasi selengkapnya, lihat artikel karakteristik operasi Penerima di Wikipedia.

Klasifikasi biner

Kasus klasifikasi di mana label hanya satu dari dua kelas. Untuk informasi selengkapnya, lihat bagian klasifikasi Biner dari topik Tugas pembelajaran mesin.

Kalibrasi

Kalibrasi adalah proses pemetaan skor mentah ke keanggotaan kelas, untuk klasifikasi biner dan multikelas. Beberapa pelatih ML.NET memiliki akhiran NonCalibrated. Algoritma ini menghasilkan skor mentah yang kemudian harus dipetakan ke probabilitas kelas.

Katalog

Dalam ML.NET, katalog adalah kumpulan fungsi ekstensi, yang dikelompokkan menurut tujuan umum.

Misalnya, setiap tugas pembelajaran mesin (klasifikasi biner, regresi, peringkat dll) memiliki katalog algoritma pembelajaran mesin (pelatih) yang tersedia. Katalog untuk pelatih klasifikasi biner adalah: BinaryClassificationCatalog.BinaryClassificationTrainers.

Klasifikasi

Ketika data digunakan untuk memprediksi kategori, tugas pembelajaran mesin yang diawasi disebut klasifikasi. Klasifikasi biner mengacu pada memprediksi hanya dua kategori (misalnya, mengklasifikasikan gambar sebagai gambar 'kucing' atau 'anjing'). klasifikasi Multikelas mengacu pada memprediksi beberapa kategori (misalnya, saat mengklasifikasikan gambar sebagai gambar jenis anjing tertentu).

Koefisien penentuan

Dalamregresi , metrik evaluasi yang menunjukkan seberapa baik data cocok dengan model. Berkisar antara 0 hingga 1. Nilai 0 berarti bahwa data acak atau tidak dapat sesuai dengan model. Nilai 1 berarti bahwa model sama persis dengan data. Ini sering disebut sebagai r2, R2, atau r-kuadrat.

Data

Data adalah pusat dari aplikasi pembelajaran mesin apa pun. Dalam data ML.NET diwakili oleh objek IDataView. Objek tampilan data:

  • terdiri dari kolom dan baris
  • dievaluasi dengan malas, yaitu hanya memuat data saat operasi memanggilnya
  • berisi skema yang menentukan jenis, format, dan panjang setiap kolom

Pengukur

Kelas di ML.NET yang mengimplementasikan antarmuka IEstimator<TTransformer>.

Estimator adalah spesifikasi transformasi (transformasi persiapan data dan transformasi pelatihan model pembelajaran mesin). Estimator dapat dirangkai bersama-sama menjadi alur transformasi. Parameter estimator atau alur estimator dipelajari ketika Fit dipanggil. Hasil adalahTransformer .

Metode ekstensi

Metode .NET yang merupakan bagian dari kelas tetapi didefinisikan di luar kelas. Parameter pertama dari metode ekstensi adalah referensi this statis ke kelas tempat metode ekstensi berada.

Metode ekstensi digunakan secara ekstensif dalam ML.NET untuk membuat instans estimator .

Fitur

Properti terukur dari fenomena yang diukur, biasanya nilai numerik (ganda). Beberapa fitur disebut sebagai vektor Fitur dan biasanya disimpan sebagai . Fitur menentukan karakteristik penting dari fenomena yang diukur. Untuk informasi selengkapnya, lihat artikel Fitur di Wikipedia.

Rekayasa fitur

Rekayasa fitur adalah proses yang melibatkan penentuan serangkaian fitur dan mengembangkan perangkat lunak yang menghasilkan vektor fitur dari data fenomena yang tersedia, yaitu, ekstraksi fitur. Untuk informasi selengkapnya, lihat artikel rekayasa fitur di Wikipedia.

Skor F

Dalamklasifikasi , metrik evaluasi yang menyeimbangkan presisi dan pengenalan.

Hyperparameter

Parameter algoritma pembelajaran mesin. Contohnya termasuk jumlah pohon yang akan dipelajari di hutan keputusan atau ukuran langkah dalam algoritma penurunan gradien. Nilai Hyperparameter diatur sebelum melatih model dan mengatur proses menemukan parameter fungsi prediksi, misalnya, titik perbandingan dalam pohon keputusan atau bobot dalam model regresi linier. Untuk informasi selengkapnya, lihat artikel hyperparameter di Wikipedia.

Label

Elemen yang akan diprediksi dengan model pembelajaran mesin. Misalnya, jenis anjing atau harga stok di masa depan.

Kehilangan log

Dalamklasifikasi , metrik evaluasi yang mencirikan akurasi pengklasifikasi. Kerugian log yang lebih kecil adalah, semakin akurat pengklasifikasinya.

Fungsi kehilangan

Fungsi kerugian adalah perbedaan antara nilai label pelatihan dan prediksi yang dibuat oleh model. Parameter model diperkirakan dengan meminimalkan fungsi kehilangan.

Pelatih yang berbeda dapat dikonfigurasi dengan fungsi kehilangan yang berbeda.

Kesalahan absolut rata-rata (MAE)

Dalamregresi , metrik evaluasi yang merupakan rata-rata semua kesalahan model, di mana kesalahan model adalah jarak antara label yang diprediksi nilai dan nilai label yang benar.

Pola

Secara tradisional, parameter untuk fungsi prediksi. Misalnya, bobot dalam model regresi linier atau titik terpisah di pohon keputusan. Dalam ML.NET, model berisi semua informasi yang diperlukan untuk memprediksi label objek domain (misalnya, gambar atau teks). Ini berarti bahwa model ML.NET mencakup langkah-langkah fiturisasi yang diperlukan serta parameter untuk fungsi prediksi.

Klasifikasi multikelas

Kasus klasifikasi di mana label adalah salah satu dari tiga kelas atau lebih. Untuk informasi selengkapnya, lihat bagian klasifikasi multikelas dari Tugas pembelajaran mesin topik.

N-gram

Skema ekstraksi fitur untuk data teks: urutan kata N apa pun berubah menjadi fitur nilai .

Normalisasi

Normalisasi adalah proses penskalaan data floating point ke nilai antara 0 dan 1. Banyak algoritma pelatihan yang digunakan dalam ML.NET memerlukan data fitur input untuk dinormalisasi. ML.NET menyediakan serangkaian transformasi untuk normalisasi.

Vektor fitur numerik

Fitur vektor yang hanya terdiri dari nilai numerik. Ini mirip dengan double[].

Pipa

Semua operasi yang diperlukan agar sesuai dengan model ke himpunan data. Alur terdiri dari impor data, transformasi, fiturisasi, dan langkah-langkah pembelajaran. Setelah alur dilatih, alur berubah menjadi model.

Presisi

Dalam klasifikasi, presisi untuk kelas adalah jumlah item yang diprediksi dengan benar sebagai milik kelas tersebut dibagi dengan jumlah total item yang diprediksi sebagai milik kelas.

Ingat

Dalam klasifikasi, pengenalan untuk kelas adalah jumlah item yang diprediksi dengan benar sebagai milik kelas tersebut dibagi dengan jumlah total item yang sebenarnya termasuk dalam kelas.

Regularisasi

Regularisasi menghukus model linier karena terlalu rumit. Ada dua jenis regularisasi:

  • $L_1$ regularisasi nol bobot untuk fitur yang tidak signifikan. Ukuran model yang disimpan mungkin menjadi lebih kecil setelah jenis regularisasi ini.
  • regularisasi $L_2$ meminimalkan rentang berat untuk fitur yang tidak signifikan. Ini adalah proses yang lebih umum dan kurang sensitif terhadap outlier.

Regresi

tugas pembelajaran mesin yang diawasi di mana output adalah nilai nyata, misalnya, ganda. Contohnya termasuk memprediksi harga saham. Untuk informasi selengkapnya, lihat bagian Regresi dari topik tugas pembelajaran mesin .

Kesalahan absolut relatif

Dalamregresi , metrik evaluasi yang merupakan jumlah semua kesalahan absolut dibagi dengan jumlah jarak antara label yang benar nilai dan rata-rata semua nilai label yang benar.

Kesalahan kuadrat relatif

Dalamregresi , metrik evaluasi yang merupakan jumlah semua kesalahan absolut kuadrat dibagi dengan jumlah jarak kuadrat antara label yang benar nilai dan rata-rata semua nilai label yang benar.

Akar kesalahan kuadrat rata-rata (RMSE)

Dalam regresi, metrik evaluasi yang merupakan akar kuadrat dari rata-rata kuadrat kesalahan.

Penilaian

Penilaian adalah proses penerapan data baru ke model pembelajaran mesin terlatih, dan menghasilkan prediksi. Penilaian juga dikenal sebagai inferensi. Tergantung pada jenis model, skor bisa menjadi nilai mentah, probabilitas, atau kategori.

Pembelajaran mesin yang diawasi

Subkelas pembelajaran mesin di mana model yang diinginkan memprediksi label untuk data yang belum disembuhkan. Contohnya termasuk klasifikasi, regresi, dan prediksi terstruktur. Untuk informasi selengkapnya, lihat artikel pembelajaran Diawasi di Wikipedia.

Pelatihan

Proses mengidentifikasi model untuk himpunan data pelatihan tertentu. Untuk model linier, ini berarti menemukan bobot. Untuk pohon, ini melibatkan identifikasi titik terpisah.

Transformator

Kelas ML.NET yang mengimplementasikan antarmuka ITransformer.

Transformator mengubah satu IDataView menjadi yang lain. Transformator dibuat dengan melatih estimator , atau alur estimator.

Pembelajaran mesin tanpa pengawas

Subkelas pembelajaran mesin di mana model yang diinginkan menemukan struktur tersembunyi (atau laten) dalam data. Contohnya termasuk pengklusteran, pemodelan topik, dan pengurangan dimensi. Untuk informasi selengkapnya, lihat artikel pembelajaran Tidak Diawasi di Wikipedia.