Skor hadiah menunjukkan keberhasilan personalisasi

Artikel
10/16/2024

Penting

Mulai tanggal 20 September 2023 Anda tidak akan dapat membuat sumber daya Personalizer baru. Layanan Personalizer dihentikan pada tanggal 1 Oktober 2026.

Skor hadiah menunjukkan seberapa baik pilihan personalisasi, RewardActionID, menghasilkan untuk pengguna. Nilai skor hadiah ditentukan oleh logika bisnis Anda, berdasarkan pengamatan perilaku pengguna.

Personalizer melatih model pembelajaran mesinnya dengan mengevaluasi hadiah.

Pelajari cara mengonfigurasi skor hadiah default di portal Azure untuk sumber daya Personalizer Anda.

Gunakan API Hadiah untuk mengirim skor hadiah ke Personalizer

Hadiah dikirim ke Personalizer oleh API Hadiah. Biasanya, hadiah adalah angka dari 0 hingga 1. Hadiah negatif, dengan nilai -1, dimungkinkan dalam skenario tertentu dan hanya boleh digunakan jika Anda berpengalaman dengan reinforcement learning (RL). Personalizer melatih model untuk mencapai jumlah hadiah setinggi mungkin dari waktu ke waktu.

Hadiah dikirim setelah perilaku pengguna terjadi, yang bisa beberapa hari kemudian. Jumlah waktu maksimum Personalizer akan menunggu sampai acara dianggap tidak memiliki hadiah atau hadiah default dikonfigurasi dengan Waktu Tunggu Hadiah di portal Azure.

Jika skor hadiah untuk acara belum diterima dalam Waktu Tunggu Hadiah, maka Hadiah Default akan diterapkan. Biasanya, Hadiah Default dikonfigurasi menjadi nol.

Perilaku dan data yang perlu dipertimbangkan untuk hadiah

Pertimbangkan sinyal dan perilaku ini untuk konteks skor hadiah:

Input pengguna langsung untuk saran ketika opsi terlibat ("Maksud Anda X?").
Panjang sesi.
Waktu antara sesi.
Analisis sentimen terhadap interaksi pengguna.
Pertanyaan langsung dan survei mini di mana bot meminta umpan balik kepada pengguna tentang kegunaan, akurasi.
Respons terhadap pemberitahuan, atau penundaan respons terhadap peringatan.

Menyusun skor hadiah

Skor Hadiah harus dihitung dalam logika bisnis Anda. Skor dapat diwakili sebagai:

Satu angka terkirim sekali
Skor dikirim segera (seperti 0,8) dan skor tambahan yang dikirim kemudian (biasanya 0,2).

Hadiah Default

Jika tidak ada hadiah yang diterima dalam Waktu Tunggu Hadiah, durasi sejak Panggilan pangkat, Personalizer secara implisit menerapkan Hadiah Default ke Peristiwa pangkat tersebut.

Membangun hadiah dengan beberapa faktor

Untuk personalisasi yang efektif, Anda dapat membangun skor hadiah berdasarkan beberapa faktor.

Misalnya, Anda dapat menerapkan aturan ini untuk mempersonalisasi daftar konten video:

Perilaku pengguna	Nilai skor parsial
Pengguna mengklik item atas.	+0,5 hadiah
Pengguna membuka konten aktual item tersebut.	+0,3 hadiah
Pengguna menonton 5 menit isi atau 30%, mana yang lebih panjang.	+0,2 hadiah

Anda kemudian dapat mengirim total hadiah ke API.

Memanggil API Hadiah beberapa kali

Anda juga dapat memanggil API Reward menggunakan ID peristiwa yang sama, mengirimkan skor hadiah yang berbeda. Ketika Personalizer mendapatkan hadiah tersebut, itu menentukan hadiah akhir untuk acara itu dengan menggabungkannya seperti yang ditentukan dalam konfigurasi Personalizer.

Nilai agregasi:

Pertama: Mengambil skor hadiah pertama yang diterima untuk acara tersebut, dan membuang sisanya.
Jumlah: Mengambil semua skor hadiah yang dikumpulkan untuk eventId, dan menambahkannya bersama-sama.

Semua hadiah untuk acara, yang diterima setelah Waktu Tunggu Hadiah, dibuang dan tidak memengaruhi pelatihan model.

Dengan menambahkan skor hadiah, hadiah akhir Anda mungkin berada di luar kisaran skor yang diharapkan. Ini tidak akan membuat layanan gagal.

Praktik Terbaik untuk menghitung skor hadiah

Pertimbangkan indikator benar dari personalisasi yang sukses: Mudah untuk berpikir dalam hal klik, tetapi hadiah yang baik didasarkan pada apa yang Anda inginkan untuk dicapai pengguna Anda alih-alih apa yang Anda ingin orang lakukan. Misalnya, menghadiahi klik dapat menyebabkan memilih konten yang rawan clickbait.
Gunakan skor hadiah untuk seberapa baik personalisasi bekerja: Mempersonalisasi saran film mudah-mudahan akan mengakibatkan pengguna menonton film dan memberikan peringkat tinggi. Karena rating film mungkin tergantung pada banyak hal (kualitas akting, suasana hati pengguna), itu bukan sinyal hadiah yang baik untuk seberapa baik personalisasi bekerja. Pengguna menonton beberapa menit pertama film, bagaimanapun, mungkin sinyal efektivitas personalisasi yang lebih baik dan mengirim hadiah 1 setelah 5 menit akan menjadi sinyal yang lebih baik.
Hadiah hanya berlaku untuk RewardActionID: Personalizer menerapkan hadiah untuk memahami kemanjuran tindakan yang ditentukan dalam RewardActionID. Jika Anda memilih untuk menampilkan tindakan lain dan pengguna memilihnya, hadiahnya harus nol.
Pertimbangkan konsekuensi yang tidak diinginkan: Buatfungsi hadiah yang mengarah pada hasil yang bertanggung jawab dengan etika dan penggunaan yang bertanggung jawab.
Gunakan Hadiah Inkremental: Menambahkan hadiah parsial untuk perilaku pengguna yang lebih kecil membantu Personalizer untuk mencapai hadiah yang lebih baik. Hadiah inkremental ini memungkinkan algoritma untuk mengetahui semakin dekat untuk melibatkan pengguna dalam perilaku akhir yang diinginkan.
- Jika Anda menampilkan daftar film, jika pengguna mengarahkan mouse ke atas yang pertama untuk sementara waktu untuk melihat informasi selengkapnya, Anda dapat menentukan bahwa beberapa keterlibatan pengguna terjadi. Perilaku dapat dihitung dengan skor hadiah 0,1.
- Jika pengguna membuka halaman dan kemudian keluar, skor hadiah bisa 0,2.

Waktu tunggu hadiah

Personalizer akan menghubungkan informasi panggilan Peringkat dengan hadiah yang dikirim dalam panggilan Hadiah untuk melatih model, yang mungkin datang pada waktu yang berbeda. Personalizer menunggu skor hadiah untuk waktu terbatas yang ditentukan, dimulai ketika panggilan Peringkat yang sesuai terjadi. Ini dilakukan meskipun panggilan Peringkat dilakukan menggunakan aktivasi yang ditangguhkan](concept-active-inactive-events.md).

Jika Waktu Tunggu Hadiah kedaluwarsa dan belum ada informasi hadiah, hadiah default diterapkan ke acara tersebut untuk pelatihan. Anda dapat memilih waktu tunggu hadiah 10 menit, 4 jam, 12 jam, atau 24 jam. Jika skenario Anda memerlukan waktu tunggu hadiah yang lebih lama (misalnya, untuk kampanye email pemasaran) kami menawarkan pratinjau privat dari waktu tunggu yang lebih lama. Buka tiket dukungan di portal Microsoft Azure untuk menghubungi tim dan lihat apakan Anda memenuhi syarat dan tiket dapat ditawarkan kepada Anda.

Praktik terbaik untuk waktu tunggu hadiah

Ikuti rekomendasi ini untuk hasil yang lebih baik.

Buat Waktu Tunggu Hadiah sesingkat mungkin, sambil menyisakan cukup waktu untuk mendapatkan umpan balik pengguna.
Jangan memilih durasi yang lebih singkat dari waktu yang diperlukan untuk mendapatkan umpan balik. Misalnya, jika beberapa hadiah Anda masuk setelah pengguna menonton 1 menit video, panjang eksperimen harus setidaknya dua kali lipat.

Bagikan melalui