Menggunakan tolok ukur dalam ruang Genie
Artikel ini menjelaskan cara menggunakan tolok ukur untuk mengevaluasi akurasi ruang Genie Anda.
Ikhtisar
Tolok ukur memungkinkan Anda membuat serangkaian pertanyaan pengujian yang dapat Anda jalankan untuk menilai akurasi respons Genie secara keseluruhan. Serangkaian tolok ukur yang dirancang dengan baik yang mencakup pertanyaan pengguna yang paling sering diajukan membantu mengevaluasi akurasi ruang Genie Anda saat Anda memperbaikinya.
Pertanyaan tolok ukur dijalankan sebagai percakapan baru. Mereka tidak memiliki konteks yang sama seperti percakapan Genie bersusun. Setiap pertanyaan diproses sebagai kueri baru, menggunakan instruksi yang ditentukan dalam ruang, termasuk contoh fungsi SQL dan SQL yang disediakan.
Menambahkan pertanyaan tolok ukur
Pertanyaan tolok ukur harus mencerminkan berbagai cara untuk membuat frasa pertanyaan umum yang diajukan pengguna Anda. Anda dapat menggunakannya untuk memeriksa respons Genie terhadap variasi dalam pembuatan frasa pertanyaan atau format pertanyaan yang berbeda.
Saat membuat pertanyaan tolok ukur, Anda dapat secara opsional menyertakan kueri SQL yang tataan hasilnya adalah jawaban yang benar. Selama eksekusi tolok ukur, akurasi dinilai dengan membandingkan hasil yang ditetapkan dari kueri SQL Anda dengan yang dihasilkan oleh Genie.
Untuk menambahkan pertanyaan tolok ukur, lakukan langkah-langkah berikut:
Klik di
bar samping kiri di ruang Genie.
Klik tab Pertanyaan . Lalu, klik Tambahkan tolok ukur.
Di bidang Pertanyaan, masukkan pertanyaan tolok ukur untuk diuji.
(Opsional) Masukkan pernyataan SQL yang secara akurat menjawab pertanyaan yang Anda masukkan.
Catatan
Langkah ini direkomendasikan. Hanya pertanyaan yang menyertakan contoh pernyataan SQL ini yang dapat dinilai secara otomatis untuk akurasi. Setiap pertanyaan yang tidak menyertakan Jawaban SQL memerlukan peninjauan manual untuk dinilai.
(Opsional) Klik Jalankan untuk menjalankan kueri Anda dan menampilkan hasilnya.
Setelah selesai mengedit, klik Tambahkan tolok ukur.
Untuk memperbarui pertanyaan setelah menyimpan, klik ikon
ikon pensil untuk membuka dialog pertanyaan PembaruanEdit .
Menggunakan tolok ukur untuk menguji pembuatan frasa pertanyaan alternatif
Saat mengevaluasi akurasi ruang Genie Anda, penting untuk menyusun pengujian untuk mencerminkan skenario realistis. Pengguna dapat mengajukan pertanyaan yang sama dengan cara yang berbeda. Databricks merekomendasikan untuk menambahkan beberapa frasa pertanyaan yang sama dan menggunakan contoh SQL yang sama dalam pengujian tolok ukur Anda untuk sepenuhnya menilai akurasi. Sebagian besar spasi Genie harus menyertakan 2 - 4 frasa pertanyaan yang sama.
Jalankan pertanyaan tolok ukur
Pengguna dengan setidaknya izin EDIT DAPAT di ruang Genie dapat membuat eksekusi tolok ukur kapan saja, yang akan secara otomatis mengevaluasi di semua pertanyaan tolok ukur. Untuk mengevaluasi setiap pertanyaan tolok ukur, pertama-tama kami akan mengirimkan pertanyaan ke Genie, lalu membandingkan hasil Genie dengan tolok ukur. Salah satu label berikut diterapkan ke setiap tolok ukur:
- Bagus: Respons ditandai dengan label ini ketika hasil kueri yang dihasilkan Genie cocok dengan hasil dari Jawaban SQL yang disediakan. Ketika respons ditandai Good, itu berarti bahwa nilai baris cocok persis, terlepas dari urutan pengurutan atau nama kolom.
- Perlu ditinjau: Respons ditandai dengan label ini ketika Genie tidak dapat menilai kebenaran atau ketika hasil kueri yang dihasilkan Genie tidak cocok dengan hasil dari Jawaban SQL yang disediakan. Jika ada perubahan tak terduga pada dimensi tabel dalam respons yang dihasilkan atau jawaban SQL yang disediakan, pertanyaan dapat ditandai untuk ditinjau. Setiap pertanyaan tolok ukur yang tidak menyertakan Jawaban SQL harus ditinjau secara manual.
- Buruk: Respons tidak pernah diberi label secara otomatis sebagai Buruk. Jika hasil kueri yang dihasilkan oleh Genie tidak cocok dengan set hasil dari Jawaban SQLyang disediakan, maka pertanyaan ditandai sebagai Perlu ditinjau. Saat meninjau tolok ukur tersebut, Anda dapat menandai hasilnya sebagai Buruk jika Anda tidak berpikir hasil kueri yang dihasilkan Genie menjawab pertanyaan tersebut.
Untuk menjalankan semua pertanyaan tolok ukur:
- Klik
Tolok Ukur di bar samping ruang Genie di dekat sisi kiri layar.
- Klik Jalankan tolok ukur untuk memulai uji coba.
Catatan
Jika Anda menutup halaman ini, tolok ukur berjalan secara otomatis berhenti. Anda dapat melanjutkan pengujian saat membuka kembali halaman.
Evaluasi tolok ukur akses
Anda dapat mengakses semua evaluasi tolok ukur Anda untuk melacak akurasi di ruang Genie Anda dari waktu ke waktu. Saat Anda mengklik ikon di bilah samping kiri di ruang Genie, daftar proses evaluasi bertanda waktu muncul di tab Evaluasi. Jika tidak ada proses evaluasi yang ditemukan, lihat Tambahkan pertanyaan tolok ukur atau Jalankan pertanyaan tolok ukur.
Tab Evaluasi menunjukkan gambaran umum evaluasi dan performanya yang dilaporkan dalam kategori berikut:
Nama evaluasi: Tanda waktu yang menunjukkan kapan eksekusi evaluasi terjadi. Klik tanda waktu untuk melihat detail evaluasi tersebut. Status eksekusi: Menunjukkan apakah evaluasi selesai, dijeda, atau tidak berhasil. Jika eksekusi evaluasi menyertakan pertanyaan tolok ukur yang tidak memiliki jawaban SQL yang telah ditentukan sebelumnya, itu ditandai untuk ditinjau di kolom ini. Akurasi: Penilaian numerik akurasi di semua pertanyaan tolok ukur. Untuk eksekusi evaluasi yang memerlukan tinjauan manual, ukuran akurasi hanya muncul setelah pertanyaan tersebut ditinjau. Dibuat oleh: Menunjukkan nama pengguna yang menjalankan evaluasi.
Meninjau evaluasi individual
Anda dapat meninjau evaluasi individual untuk mendapatkan tampilan terperinci pada setiap respons. Anda dapat mengedit penilaian untuk pertanyaan apa pun dan memperbarui item apa pun yang memerlukan peninjauan manual.
Untuk meninjau evaluasi individual:
Klik
Tolok Ukur di bar samping ruang Genie di dekat sisi kiri layar.
Klik tanda waktu untuk evaluasi apa pun di kolom Nama evaluasi untuk membuka tampilan terperinci dari eksekusi pengujian tersebut.
Klik pertanyaan di dekat sisi kiri layar untuk melihat detail terkait. Gunakan layar detail evaluasi melakukan langkah-langkah berikutnya.
Tinjau dan bandingkan respons output Model dengan respons Kebenaran dasar.
Catatan
Hasil respons ini muncul dalam detail evaluasi selama satu minggu. Setelah satu minggu, hasilnya tidak lagi terlihat. Pernyataan SQL yang dihasilkan dan contoh pernyataan SQL tetap ada.
Klik pada label untuk mengedit penilaian.
Tandai setiap hasil sebagai Good atau Bad untuk mendapatkan skor yang akurat untuk evaluasi ini.