Pengantar Mosaic AI Gateway

Artikel
03/12/2025

Penting

Artikel ini menjelaskan Mosaic AI Gateway, solusi Databricks untuk mengatur dan memantau akses ke model AI generatif yang didukung dan model terkait yang melayani titik akhir.

Apa itu Mosaic AI Gateway?

Gateway AI Mosaik dirancang untuk menyederhanakan penggunaan dan manajemen model dan agen AI generatif dalam organisasi. Ini adalah layanan terpusat yang membawa tata kelola, pemantauan, dan kesiapan produksi untuk memodelkan titik akhir penyajian. Ini juga memungkinkan Anda untuk menjalankan, mengamankan, dan mengatur lalu lintas AI untuk mendemokratisasi dan mempercepat adopsi AI untuk organisasi Anda.

Semua data masuk ke tabel Delta di Unity Catalog.

Untuk mulai memvisualisasikan wawasan dari data Gateway AI Anda, unduh contoh dasbor Gateway AI dari GitHub. Dashboard ini memanfaatkan data dari tabel inferensi pelacakan penggunaan dan pencatatan payload.

Setelah Anda mengunduh file JSON, impor dasbor ke ruang kerja Anda. Untuk petunjuk tentang mengimpor dasbor, lihat Mengimpor file dasbor.

Fitur yang didukung

Tabel berikut menentukan fitur Gateway AI yang tersedia dan model mana yang melayani jenis titik akhir yang mendukungnya.

Fitur	Definisi	titik akhir model eksternal	Foundation Model API menyediakan titik akhir throughput	Mosaic AI agen
Izin dan pembatasan tarif	Mengontrol siapa yang memiliki akses dan berapa banyak akses.	Didukung	Didukung	Tidak didukung
Pencatatan beban	Pantau dan audit data yang dikirim ke API model menggunakan tabel inferensi .	Didukung	Didukung	Didukung
Pelacakan penggunaan	Pantau penggunaan operasional pada titik akhir dan biaya terkait menggunakan tabel sistem .	Didukung	Didukung	Tidak didukung
Pagar Pembatas AI	Cegah data yang tidak diinginkan dan data yang tidak aman dalam permintaan dan respons. Lihat Pagar Pembatas AI.	Didukung	Didukung	Tidak didukung
Fallbacks	Minimalkan pemadaman produksi selama dan setelah penyebaran.	Didukung	Tidak didukung	Tidak didukung
Pemisahan lalu lintas	Distribusikan beban lalu lintas di antara model-model.	Didukung	Didukung	Tidak didukung

Mosaic AI Gateway dikenakan biaya berdasarkan fitur yang diaktifkan. Selama pratinjau, fitur-fitur berbayar ini termasuk Pengaman AI, pencatatan muatan, dan pelacakan penggunaan. Fitur seperti izin kueri, pembatasan laju, solusi cadangan, dan pembagian lalu lintas tersedia tanpa biaya. Setiap fitur baru dikenakan biaya.

Tabel berikut mencerminkan tarif unit Databricks (DBUs) per juta (M) token untuk fitur AI Gateway berbayar. Biaya tercantum dalam Serverless Real-time Inference SKU.

Fitur	Tarif DBU
Penjaga AI	21.429 DBUs per juta token
Pencatatan beban	2,857 DBU per juta token
Pelacakan penggunaan	0,571 DBUs per juta token

Pembatas AI

Pengaman AI memungkinkan pengguna untuk mengonfigurasi dan menerapkan kepatuhan data pada tingkat titik akhir model dan untuk mengurangi potensi konten berbahaya pada permintaan apa pun yang dikirim ke model dasar. Permintaan dan respons buruk diblokir dan pesan default dikembalikan kepada pengguna. Lihat cara mengonfigurasi pagar pembatas pada endpoint penyajian model.

Penting

Layanan moderasi Pagar Pembatas AI memiliki dependensi pada model API Foundation yang berbasis pembayaran per token. Dependensi ini membatasi ketersediaan layanan moderasi AI Guardrails ke wilayah yang mendukung API Model Foundation bayar per token.

Tabel berikut ini meringkas pagar pembatas yang dapat dikonfigurasi. Lihat Batasan.

Pembatas jalan	Definisi
Pemfilteran keamanan	Pemfilteran keamanan mencegah model Anda berinteraksi dengan konten yang tidak aman dan berbahaya, seperti kejahatan kekerasan, melukai diri sendiri, dan ujaran kebencian. Filter keamanan Gateway AI dibangun dengan Meta Llama 3. Databricks menggunakan Llama Guard 2-8b sebagai filter keamanan. Untuk mempelajari selengkapnya tentang filter keamanan Llama Guard dan topik apa yang berlaku untuk filter keamanan, lihat kartu model Meta Llama Guard 2 8B. Meta Llama 3 dilisensikan berdasarkan LLAMA 3 Community License, Copyright © Meta Platforms, Inc. Hak cipta dilindungi. Pelanggan bertanggung jawab untuk memastikan kepatuhan terhadap lisensi model yang berlaku.
Deteksi informasi identitas pribadi (PII)	Pelanggan dapat mendeteksi informasi sensitif seperti nama, alamat, nomor kartu kredit untuk pengguna. Untuk fitur ini, AI Gateway menggunakan Presidio untuk mendeteksi kategori PII A.S. berikut: nomor kartu kredit, alamat email, nomor telepon, nomor rekening bank, dan nomor jaminan sosial. Pengklasifikasi PII dapat membantu mengidentifikasi informasi sensitif atau PII dalam data terstruktur dan tidak terstruktur. Namun, karena menggunakan mekanisme deteksi otomatis, tidak ada jaminan bahwa layanan akan menemukan semua informasi sensitif. Akibatnya, sistem dan perlindungan tambahan harus digunakan. Metode klasifikasi ini terutama dilingkup ke kategori PII AS, seperti nomor telepon AS, dan nomor jaminan sosial.
Moderasi topik	Kemampuan untuk mencantumkan sekumpulan topik yang diizinkan. Dalam menanggapi permintaan obrolan, batasan ini akan menandai permintaan jika topiknya tidak termasuk dalam topik yang diizinkan.
Pemfilteran kata kunci	Pelanggan dapat menentukan berbagai set kata kunci yang tidak valid untuk input dan output. Salah satu kasus penggunaan potensial untuk pemfilteran kata kunci adalah sehingga model tidak berbicara tentang pesaing. Pagar pembatas ini menggunakan kata kunci atau pencocokan string untuk memutuskan apakah kata kunci ada dalam konten permintaan atau respons.

Menggunakan Gateway AI

Anda dapat mengonfigurasi fitur Gateway AI pada model Anda yang melayani endpoint menggunakan UI Penyajian. Lihat Mengonfigurasi Gateway AI pada titik akhir penyajian model.

Batasan

Berikut ini adalah batasan selama pratinjau:

Gateway AI hanya didukung untuk:
- API Model Dasar dengan kapasitas yang disiapkan untuk melayani titik akhir model.
- Titik akhir penyajian model yang melayani model eksternal.
- Model melayani titik akhir yang melayani agen AI Mosaik.
Ketika pengaman AI digunakan, ukuran batch permintaan, yaitu ukuran batch penyematan, ukuran batch penyelesaian tugas, atau parameter n permintaan obrolan, tidak boleh melebihi 16.
Untuk beban kerja throughput yang dialokasikan, hanya pembatasan laju dan pencatatan payload menggunakan tabel inferensi yang dilengkapi AI Gateway yang didukung.
Lihat batasan tabel inferensi dengan dukungan Gateway AI.
Jika Anda menggunakan fungsi yang memanggil dan menentukan batasan AI, batasan tersebut tidak diterapkan pada permintaan dan respons antara fungsi tersebut. Namun, aturan pembatas diterapkan pada respons output akhir.

Bagikan melalui