Menyebarkan model menggunakan Mosaic AI Model Serving
Artikel ini menjelaskan Mosaic AI Model Serving, solusi Databricks untuk mengimplementasikan model AI dan ML untuk penyajian waktu nyata dan inferensi batch.
Apa itu Mosaic AI Model Serving?
Mosaic AI Model Serving menyediakan antarmuka terpadu untuk menyebarkan, mengatur, dan mengkueri model AI untuk inferensi real time dan batch. Setiap model yang Anda layani tersedia sebagai REST API yang dapat Anda integrasikan ke dalam aplikasi web atau klien Anda.
Model Serving menyediakan layanan dengan ketersediaan tinggi dan latensi rendah untuk menyebarkan model. Layanan ini secara otomatis meningkatkan atau menurunkan skala untuk memenuhi perubahan permintaan, menghemat biaya infrastruktur sambil mengoptimalkan performa latensi. Fungsionalitas ini menggunakan komputasi tanpa server. Lihat halaman Harga Layanan Model untuk detail lebih lanjut.
Model Serving menawarkan REST API terpadu dan API Penyebaran MLflow untuk tugas CRUD dan kueri. Selain itu, ini menyediakan satu antarmuka pengguna untuk mengelola semua model Anda dan setiap titik akhir penyajiannya. Anda juga dapat mengakses model langsung dari SQL menggunakan fungsi AI untuk integrasi yang mudah ke dalam alur kerja analitik.
Lihat panduan berikut untuk memulai:
- Untuk tutorial pengantar tentang cara menyajikan model kustom di Azure Databricks, lihat Tutorial: Menyebarkan dan mengkueri model kustom.
- Untuk tutorial memulai tentang bagaimana melakukan kueri pada model dasar di Databricks, lihat Mulai melakukan kueri LLM di Databricks.
- Untuk melakukan inferensi batch, lihat Menyebarkan model untuk inferensi batch dan prediksi.
Model yang dapat Anda sebarkan
Penyajian model mendukung inferensi real time dan batch untuk jenis model berikut:
-
Model kustom. Ini adalah model Python yang dimas dalam format MLflow. Mereka dapat didaftarkan baik di Katalog Unity atau di registri model ruang kerja. Contohnya termasuk model transformator scikit-learn, XGBoost, PyTorch, dan Hugging Face.
- Pelayanan agen didukung sebagai model kustom. Lihat Menyebarkan agen untuk aplikasi AI generatif
- Model Fondasi.
- model fondasi yang dihosting Databricks seperti Meta Llama. Model-model ini tersedia menggunakan API Model Dasar . Model ini adalah arsitektur model fondasi yang dikumpulkan yang mendukung inferensi yang dioptimalkan. Model dasar, seperti Meta-Llama-3.3-70B-Instruct, GTE-Large, dan Mistral-7B tersedia untuk segera digunakan dengan skema pembayaran per token, dan beban kerja yang memerlukan jaminan performa serta varian model yang disempurnakan dapat digunakan dengan throughput yang telah diatur.
- Model dasar yang dihosting di luar Databricks seperti GPT-4 dari OpenAI. Model ini dapat diakses menggunakan model eksternal . Titik akhir yang melayani model ini dapat diatur secara terpusat dari Azure Databricks, sehingga Anda dapat menyederhanakan penggunaan dan manajemen berbagai penyedia LLM, seperti OpenAI dan Anthropic, dalam organisasi Anda.
Catatan
Anda dapat berinteraksi dengan model bahasa besar yang didukung menggunakan AI Playground. AI Playground adalah sebuah lingkungan yang mirip dengan obrolan, di mana Anda dapat menguji, mengajukan, dan membandingkan LLM. Fungsionalitas ini tersedia di ruang kerja Azure Databricks Anda.
Mengapa menggunakan Model Serving?
- Menyebarkan dan mengkueri model apa pun: Model Serving menyediakan antarmuka terpadu sehingga Anda dapat mengelola semua model di satu lokasi dan mengkuerinya dengan satu API, terlepas dari apakah model tersebut dihosting di Databricks atau secara eksternal. Pendekatan ini menyederhanakan proses bereksperimen dengan, menyesuaikan, dan menyebarkan model dalam produksi di berbagai cloud dan penyedia.
- Sesuaikan model Anda dengan aman menggunakan data privat: Dibangun di atas Platform Kecerdasan Data, Model Serving menyederhanakan integrasi fitur dan embedding ke dalam model melalui integrasi langsung dengan Databricks Feature Store dan Mosaic AI Vector Search. Untuk meningkatkan akurasi dan pemahaman kontekstual lebih lanjut, model dapat disempurnakan dengan data proprietari dan dijalankan dengan mudah pada Model Serving.
- Mengatur dan memantau model: Antarmuka pengguna Penyajian memungkinkan Anda mengelola semua titik akhir model secara terpusat di satu tempat, termasuk yang dihosting secara eksternal. Anda dapat mengelola izin, melacak, dan mengatur batas penggunaan dan memantau kualitas semua jenis model menggunakan Gateway AI. Ini memungkinkan Anda untuk mendemokratisasi akses ke SaaS dan membuka LLM dalam organisasi Anda sambil memastikan pagar pembatas yang sesuai diberlakukan.
- Kurangi biaya dengan inferensi yang dioptimalkan dan penskalaan cepat: Databricks telah menerapkan berbagai pengoptimalan untuk memastikan Anda mendapatkan throughput dan latensi terbaik pada model besar. Titik akhir secara otomatis meningkatkan atau menurunkan skala untuk memenuhi perubahan permintaan, menghemat biaya infrastruktur sambil mengoptimalkan performa latensi. Memantau biaya penyajian model.
Catatan
Untuk beban kerja yang sensitif terhadap latensi atau melibatkan sejumlah besar kueri per detik, Databricks merekomendasikan penggunaan pengoptimalan rute pada model kustom yang melayani titik akhir. Hubungi tim akun Databricks Anda untuk memastikan ruang kerja Anda diaktifkan untuk skalabilitas tinggi.
- Membawa keandalan dan keamanan ke Penyajian Model: Penyajian Model dirancang untuk ketersediaan tinggi, penggunaan produksi dengan latensi rendah dan dapat mendukung lebih dari 25 ribu kueri per detik dengan latensi overhead kurang dari 50 milidetik. Beban kerja layanan dilindungi oleh beberapa lapisan keamanan, memastikan lingkungan yang aman dan andal termasuk untuk tugas yang paling sensitif.
Catatan
Pelayanan Model tidak menyediakan patch keamanan untuk gambar model yang ada karena risiko destabilisasi terhadap implementasi produksi. Gambar model baru yang dibuat dari versi model baru akan berisi patch terbaru. Hubungi tim akun Databricks Anda untuk informasi selengkapnya.
Persyaratan
- Model yang terdaftar di Unity Catalog atau di Registri Model Ruang Kerja .
- Izin pada model terdaftar seperti yang dijelaskan dalam ACL titik akhir penyajian.
- MLflow 1.29 atau lebih tinggi.
- Jika Anda menggunakan Azure Private Link untuk mematuhi aturan masuk terkait jaringan yang diatur pada ruang kerja, Azure Private Link hanya didukung untuk titik akhir penyajian model yang menggunakan throughput yang disediakan atau titik akhir yang melayani model kustom. Lihat Mengonfigurasi konektivitas privat dari komputasi tanpa server.
Aktifkan Pelayanan Model untuk ruang kerja Anda
Tidak ada langkah tambahan yang diperlukan untuk mengaktifkan Penyajian Model di ruang kerja anda.
Keterbatasan dan ketersediaan wilayah
Mosaic AI Model Serving memberlakukan batas default untuk memastikan performa yang andal. Lihat Batas dan wilayah Model Serving. Jika Anda memiliki umpan balik tentang batas ini atau titik akhir di wilayah yang tidak didukung, hubungi tim akun Databricks Anda.
Perlindungan data dalam Model Serving
Databricks menganggap serius keamanan data. Databricks memahami pentingnya data yang Anda analisis menggunakan Mosaic AI Model Serving, dan menerapkan kontrol keamanan berikut untuk melindungi data Anda.
- Setiap permintaan pelanggan ke Model Serving secara logis diisolasi, diautentikasi, dan diotorisasi.
- Mosaic AI Model Serving mengenkripsi semua data tidak aktif (AES-256) dan saat transit (TLS 1.2+).
Untuk semua akun berbayar, Mosaic AI Model Serving tidak menggunakan input pengguna yang dikirimkan ke layanan atau output dari layanan untuk melatih model apa pun atau meningkatkan layanan Databricks apa pun.
Untuk API Model Databricks Foundation, sebagai bagian dari penyediaan layanan, Databricks dapat memproses sementara dan menyimpan input dan output untuk tujuan mencegah, mendeteksi, dan mengurangi penyalahgunaan atau penggunaan yang berbahaya. Input dan output Anda diisolasi dari pelanggan lain, disimpan di wilayah yang sama dengan ruang kerja Anda hingga tiga puluh (30) hari, dan hanya dapat diakses untuk mendeteksi dan menanggapi masalah keamanan atau penyalahgunaan. Foundation Model APIs adalah Databricks Designated Service, yang berarti bahwa layanan ini mematuhi batas-batas residensi data yang diterapkan oleh Databricks Geos.