Memantau model yang dilayani menggunakan tabel inferensi yang didukung AI Gateway
Penting
Fitur ini ada di Pratinjau Umum.
Penting
Artikel ini menjelaskan topik yang berlaku untuk tabel inferensi untuk model eksternal, beban kerja throughput yang disediakan, atau model agen. Untuk model kustom , lihat tabel inferensi untuk memantau dan menelusuri kesalahan pada model.
Artikel ini menjelaskan tabel inferensi berkemampuan Gateway AI untuk memantau model yang dilayani. Tabel inferensi secara otomatis mengambil permintaan masuk dan respons keluar untuk titik akhir dan mencatatnya sebagai tabel Delta Katalog Unity. Anda dapat menggunakan data dalam tabel ini untuk memantau, mengevaluasi, membandingkan, dan menyempurnakan model pembelajaran mesin.
Apa itu tabel inferensi yang didukung AI Gateway?
Tabel inferensi yang didukung AI Gateway menyederhanakan pemantauan dan diagnostik untuk model dengan terus mencatat input permintaan dan respons (prediksi) dari titik akhir Penyajian Model AI Mosaik dan menyimpannya ke dalam tabel Delta di Katalog Unity. Anda kemudian dapat menggunakan semua kemampuan platform Databricks, seperti kueri dan notebook Databricks SQL untuk memantau, men-debug, dan mengoptimalkan model Anda.
Anda dapat mengaktifkan tabel inferensi pada model yang sudah ada atau yang baru dibuat yang melayani titik akhir, dan permintaan ke titik akhir tersebut kemudian secara otomatis dicatat ke tabel di Katalog Unity.
Beberapa aplikasi umum untuk tabel inferensi adalah sebagai berikut:
- Buat korpus pelatihan. Dengan menggabungkan tabel inferensi dengan label kebenaran dasar, Anda dapat membuat korpus pelatihan yang dapat Anda gunakan untuk melatih kembali atau menyempurnakan dan meningkatkan model Anda. Dengan menggunakan Tugas Databricks, Anda dapat menyiapkan loop umpan balik terus-menerus dan mengotomatisasi pelatihan ulang.
- Memantau data dan kualitas model. Anda dapat terus memantau performa model dan penyimpangan data menggunakan Pemantauan Lakehouse. Pemantauan Lakehouse secara otomatis menghasilkan dasbor kualitas data dan model yang dapat Anda bagikan dengan pemangku kepentingan. Selain itu, Anda dapat mengaktifkan pemberitahuan untuk mengetahui kapan Anda perlu melatih kembali model Anda berdasarkan pergeseran dalam data masuk atau pengurangan performa model.
- Mengatasi masalah produksi. Tabel inferensi mencatat data seperti kode status HTTP, kode JSON permintaan dan respons, waktu proses model, dan melacak output selama waktu proses model. Anda dapat menggunakan data kinerja ini untuk tujuan mengatasi bug. Anda juga dapat menggunakan data historis dalam tabel inferensi untuk membandingkan performa model pada permintaan historis.
Persyaratan
Tabel inferensi yang didukung AI Gateway hanya didukung untuk titik akhir yang menggunakan throughput yang disediakan
atau melayani model eksternal . Ruang kerja Databricks di salah satu dari:
Untuk ruang kerja yang memiliki konektivitas privat yang dikonfigurasi pada akun penyimpanan Katalog Unity, ikuti langkah-langkah dalam Mengonfigurasi konektivitas privat dari komputasi tanpa server.
Databricks merekomendasikan agar Anda mengaktifkan pengoptimalan prediktif untuk mengoptimalkan performa tabel inferensi Anda.
Ruang kerja Anda harus mengaktifkan Katalog Unity.
Pembuat titik akhir dan pengubah harus memiliki izin Dapat Mengelola pada titik akhir. Lihat daftar kontrol akses .
Pembuat titik akhir dan pengubah harus memiliki izin berikut di Katalog Unity:
-
USE CATALOG
izin pada katalog yang ditentukan. -
USE SCHEMA
hak akses pada skema yang ditentukan. -
CREATE TABLE
izin di dalam skema.
-
Peringatan
Tabel inferensi dapat menghentikan pengelogan data atau menjadi rusak jika Anda melakukan salah satu hal berikut:
- Ubah skema tabel.
- Ubah nama tabel.
- Hapus tabel.
- Kehilangan hak akses ke Katalog Unity atau skema.
Mengaktifkan dan menonaktifkan tabel inferensi
Bagian ini memperlihatkan kepada Anda cara mengaktifkan atau menonaktifkan tabel inferensi menggunakan Antarmuka pengguna Penyajian. Pemilik tabel inferensi adalah pengguna yang membuat titik akhir. Semua daftar kontrol akses (ACL) pada tabel mengikuti izin Katalog Unity standar dan dapat dimodifikasi oleh pemilik tabel.
Untuk mengaktifkan tabel inferensi selama pembuatan titik akhir, gunakan langkah-langkah berikut:
- Klik Melayani di Antarmuka Pengguna Databricks Mosaic AI.
- Klik Buat titik akhir penyajian.
- Di bagian Gateway AI, pilih Aktifkan tabel inferensi.
Anda juga dapat mengaktifkan tabel inferensi pada titik akhir yang ada. Untuk mengedit konfigurasi titik akhir yang sudah ada, lakukan hal berikut:
- Di bagian Gateway AI, klik Edit Gateway AI.
- Pilih Aktifkan tabel inferensi.
Ikuti instruksi berikut untuk menonaktifkan tabel inferensi:
- Navigasi ke halaman titik akhir Anda.
- Klik Edit Gateway AI.
- Klik Aktifkan tabel inferensi untuk menghapus tanda centang.
- Setelah Anda puas dengan spesifikasi Gateway AI, klik Perbarui.
Mengkueri dan menganalisis hasil dalam tabel inferensi
Setelah model yang dilayani siap, semua permintaan yang dibuat untuk model Anda dicatat secara otomatis ke tabel inferensi, bersama dengan respons. Anda bisa menampilkan tabel di UI, mengkueri tabel dari Databricks SQL atau buku catatan, atau mengkueri tabel menggunakan REST API.
Untuk menampilkan tabel di UI: Pada halaman titik akhir, klik nama tabel inferensi untuk membuka tabel di Catalog Explorer.
Untuk mengkueri tabel dari Databricks SQL atau buku catatan Databricks: Anda bisa menjalankan kode yang mirip dengan yang berikut ini untuk mengkueri tabel inferensi.
SELECT * FROM <catalog>.<schema>.<payload_table>
** Untuk menggabungkan data tabel inferensi Anda dengan detail mengenai model dasar yang digunakan pada titik akhir Anda:** Detail model dasar dicatat dalam tabel sistem system.serving.served_entities.
SELECT * FROM <catalog>.<schema>.<payload_table> payload
JOIN system.serving.served_entities se on payload.served_entity_id = se.served_entity_id
skema tabel inferensi dengan dukungan Gateway AI
Tabel inferensi yang diaktifkan menggunakan Gateway AI memiliki skema berikut:
Nama kolom | Deskripsi | Jenis |
---|---|---|
request_date |
Tanggal UTC ketika permintaan melayani model diterima. | TANGGAL |
databricks_request_id |
Pengidentifikasi permintaan yang dihasilkan oleh Azure Databricks yang terlampir pada semua permintaan layanan model. | TALI |
request_time |
Tanda waktu saat permintaan diterima. | TIMESTAMP |
status_code |
Kode status HTTP yang dikembalikan dari model. | INT |
sampling_fraction |
Fraksi pengambilan sampel yang digunakan ketika permintaan dikurangi tingkat pengambilan sampelnya. Nilai ini antara 0 dan 1, di mana 1 mewakili bahwa 100% permintaan masuk disertakan. | DOBEL |
execution_duration_ms |
Waktu dalam milidetik di mana model melakukan inferensi. Ini tidak termasuk latensi jaringan overhead dan hanya mewakili waktu yang diperlukan model untuk menghasilkan prediksi. | BIGINT |
request |
Isi JSON permintaan mentah yang dikirim ke model yang melayani titik akhir. | TALI |
response |
Isi JSON respons mentah yang dikembalikan oleh model yang melayani titik akhir. | TALI |
served_entity_id |
ID unik entitas yang dilayani. | TALI |
logging_error_codes |
Kesalahan yang terjadi ketika data tidak dapat dicatat. Kode kesalahan termasuk MAX_REQUEST_SIZE_EXCEEDED dan MAX_RESPONSE_SIZE_EXCEEDED . |
ARRAY |
requester |
ID pengguna atau perwakilan layanan yang izinnya digunakan untuk permintaan pemanggilan titik akhir penyajian. | TALI |
Batasan
Beban kerja throughput yang disediakan:
- Jika Anda membuat model baru yang melayani titik akhir yang menggunakan throughput yang disediakan, hanya tabel inferensi yang didukung AI Gateway yang didukung.
- Jika Anda memiliki model yang sudah ada yang melayani titik akhir yang menggunakan throughput yang disediakan dan tidak pernah memiliki tabel inferensi yang sebelumnya dikonfigurasi, Anda dapat memperbaruinya untuk menggunakan tabel inferensi yang didukung AI Gateway.
- Jika Anda memiliki model yang sudah ada yang melayani titik akhir yang menggunakan throughput yang disediakan dan memiliki tabel inferensi yang saat ini atau dikonfigurasi sebelumnya, Anda dapat tidak memperbaruinya untuk menggunakan tabel inferensi yang didukung AI Gateway.
- Untuk log respons agen AI streaming, hanya bidang dan jejak yang kompatibel dengan ChatCompletion yang dikumpulkan.
Pengiriman log tabel inferensi saat ini adalah upaya terbaik, tetapi Anda dapat mengharapkan log tersedia dalam waktu 1 jam dari permintaan. Hubungi tim akun Databricks Anda untuk informasi selengkapnya.
Ukuran permintaan dan respons maksimum yang dicatat adalah 1 MiB (1.048.576 byte). Payload permintaan dan respons yang melebihi ini dicatat sebagai
null
danlogging_error_codes
diisi denganMAX_REQUEST_SIZE_EXCEEDED
atauMAX_RESPONSE_SIZE_EXCEEDED
.
Untuk batasan khusus untuk Gateway AI, lihat batasan . Untuk batasan umum yang terkait dengan titik akhir penyajian model, lihat Batas Penyajian Model dan Wilayah.