Bereitstellen von Modellen mithilfe von Mosaik AI Model Serving
In diesem Artikel werden Mosaik AI Model Serving, die Databricks-Lösung für die Bereitstellung von KI- und ML-Modellen für echtzeitbasierte Bereitstellung und Batchableitung beschrieben.
Was ist Mosaik AI Model Serving?
Mosaik AI Model Serving bietet eine einheitliche Schnittstelle zum Bereitstellen, Steuern und Abfragen von KI-Modellen für Echtzeit- und Batcheinschluss. Jedes von Ihnen bereitgestellte Modell ist als REST-API verfügbar, die Sie in Ihre Web- oder Clientanwendung integrieren können.
Die Modellbereitstellung bietet einen hochverfügbaren Dienst mit niedriger Latenz für die Bereitstellung von Modellen. Der Dienst wird automatisch hoch- oder herunterskaliert, um Bedarfsänderungen zu erfüllen, was Infrastrukturkosten spart und gleichzeitig die Latenzleistung optimiert. Diese Funktionalität verwendet serverloses Compute. Weitere Informationen finden Sie auf der Seite mit den Preisen für die Modellbereitstellung.
Model Serving bietet eine einheitliche REST-API und MLflow-Bereitstellungs-API für CRUD- und Abfrageaufgaben. Darüber hinaus stellt sie eine einzelne Benutzeroberfläche bereit, um alle Ihre Modelle und ihre jeweiligen Dienstendpunkte zu verwalten. Sie können auch direkt über SQL mithilfe von KI-Funktionen auf Modelle zugreifen, um die Integration in Analyseworkflows zu erleichtern.
Sehen Sie sich die folgenden Leitfäden an, um zu beginnen:
- Ein Einführungstutorial zum Bereitstellen benutzerdefinierter Modelle in Azure Databricks finden Sie unter Tutorial: Bereitstellen und Abfragen eines benutzerdefinierten Modells.
- Ein Tutorial zu den ersten Schritten beim Abfragen eines Basismodells in Databricks finden Sie unter Erste Schritte beim Abfragen von LLMs in Databricks.
- Informationen zum Ausführen von Batch-Inferenzen finden Sie unter Bereitstellen von Modellen für Batch-Inferenz und Vorhersage.
Modelle, die Sie bereitstellen können
Modellbereitstellung unterstützt Echtzeit- und Batch-Ableitung für die folgenden Modelltypen:
- Benutzerdefinierte Modelle: Dies sind Python-Modelle, die im MLflow-Format verpackt sind. Sie können in Unity Catalog oder in der Arbeitsbereichsmodellregistrierung registriert werden. Beispiele sind scikit-learn-, XGBoost-, PyTorch- und Hugging Face-Transformationsmodelle.
- Der Agent wird als benutzerdefiniertes Modell unterstützt. Siehe Bereitstellen eines Agents für generative KI-Anwendung
- Basismodelle.
- Von Databricks gehostete Basismodelle wie Meta Llama. Diese Modelle sind mit Foundation Model-APIsverfügbar. Diese Modelle sind kuratierte Basismodellarchitekturen, die optimierte Rückschlüsse unterstützen. Basismodelle wie Meta-Llama-3.3-70B-Instruct, GTE-Large und Mistral-7B stehen für die sofortige Verwendung mit tokenbasierter Bezahlung zur Verfügung. Workloads, die Leistungsgarantien und optimierte Modellvarianten erfordern, können mit bereitgestelltem Durchsatz bereitgestellt werden.
- Außerhalb von Databricks gehostete Basismodelle wie GPT-4 von OpenAI. Auf diese Modelle kann über externe Modelle zugegriffen werden. Die Endpunkte, die diese Modelle bedienen, können zentral von Azure Databricks gesteuert werden, sodass Sie die Verwendung und Verwaltung verschiedener LLM-Anbieter wie OpenAI und Anthropic innerhalb Ihrer Organisation optimieren können.
Hinweis
Sie können mit unterstützten großen Sprachmodellen interagieren, indem Sie den KI-Playground verwenden. Der KI-Playground ist eine chatähnliche Umgebung, in der Sie LLMs testen, auffordern und vergleichen können. Diese Funktionalität ist in Ihrem Azure Databricks-Arbeitsbereich verfügbar.
Gründe für die Verwendung von Modellbereitstellung
- Bereitstellen und Abfragen aller Modelle: Die Modellbereitstellung bietet eine einheitliche Schnittstelle, über die Sie alle Modelle an einem Ort verwalten und mit einer einzigen API abfragen können, unabhängig davon, ob sie in Databricks oder extern gehostet werden. Dieser Ansatz vereinfacht das Experimentieren mit sowie das Anpassen und Bereitstellen von Modellen in der Produktion über verschiedene Clouds und Anbieter hinweg.
- Sicheres Anpassen von Modellen mit Ihren privaten Daten: Die Modellbereitstellung basiert auf einer Data Intelligence-Plattform und vereinfacht die Integration von Features und Einbettungen in Modelle durch native Integration in den Databricks Feature Store und die Mosaik KI-Vektorsuche. Für noch höhere Genauigkeit und besseres Kontextverständnis können Modelle mit geschützten Daten optimiert und mühelos in der Modellbereitstellung bereitgestellt werden.
- Steuern und Überwachen von Modellen: Über die Benutzeroberfläche für die Bereitstellung können Sie alle Modellendpunkte, einschließlich derjenigen, die extern gehostet werden, zentral an einem Ort verwalten. Sie können Berechtigungen verwalten, Nutzungsgrenzwerte nachverfolgen und festlegen und die Qualität aller Arten von Modellen mithilfe AI-Gateway-überwachen. Auf diese Weise können Sie den Zugriff auf SaaS demokratisieren und LLMs innerhalb Ihrer Organisation öffnen sowie gleichzeitig sicherstellen, dass angemessene Schutzmaßnahmen vorhanden sind.
- Reduzieren von Kosten mit optimierten Rückschlüssen und schneller Skalierung: Databricks hat eine Reihe von Optimierungen implementiert, um sicherzustellen, dass Sie den besten Durchsatz und möglichst geringe Wartezeiten für große Modelle erzielen. Die Endpunkte werden automatisch hoch- oder herunterskaliert, um Bedarfsänderungen zu erfüllen, was Infrastrukturkosten spart und gleichzeitig die Latenzleistung optimiert. Überwachen Sie die Kosten für das Bereitstellen von Modellen.
Hinweis
Bei Workloads, die latenzempfindlich sind oder eine hohe Anzahl von Abfragen pro Sekunde umfassen, empfiehlt Databricks die Verwendung der Routenoptimierung für benutzerdefinierte Modellbereitstellungsendpunkte. Wenden Sie sich an Ihr Databricks-Kontoteam, um sicherzustellen, dass Ihr Arbeitsbereich für eine hohe Skalierbarkeit aktiviert ist.
- Zuverlässigkeit und Sicherheit bei der Modellbereitstellung: Die Modellbereitstellung ist für latenzarme Nutzung mit Hochverfügbarkeit in der Produktion konzipiert und kann mehr als 25.000 Abfragen pro Sekunde mit einer Overheadwartezeit von weniger als 50 ms unterstützen. Die Bereitstellungsworkloads werden durch mehrere Sicherheitsebenen geschützt. Dadurch wird eine sichere und zuverlässige Umgebung auch für höchst vertrauliche Aufgaben sichergestellt.
Hinweis
Model Serving stellt keine Sicherheitspatches für vorhandene Modellimages bereit, da das Risiko einer Destabilisierung von Produktionsbereitstellungen besteht. Ein neues Modellimage, das aus einer neuen Modellversion erstellt wurde, enthält die neuesten Patches. Wenden Sie sich an Ihr Databricks-Kontoteam, um weitere Informationen zu erfahren.
Anforderungen
- Registriertes Modell in Unity Catalog oder in der Arbeitsbereichsmodellregistrierung.
- Berechtigungen für die registrierten Modelle, wie unter Bereitstellen von Zugriffssteuerungslisten für Endpunkte beschrieben.
- MLflow 1.29 oder höher.
- Wenn Sie Azure Private Link verwenden, um netzwerkbezogene Eingangsregeln zu respektieren, die für den Arbeitsbereich konfiguriert sind, wird Azure Private Link nur für Modellbereitstellungsendpunkte unterstützt, die den bereitgestellten Durchsatz oder Endpunkte verwenden, die benutzerdefinierte Modelle bedienen. Siehe Konfigurieren der privaten Konnektivität für serverlose Berechnungen.
Aktivieren der Modellbereitstellung für Ihren Arbeitsbereich
Es sind keine zusätzlichen Schritte erforderlich, um die Modellbereitstellung in Ihrem Arbeitsbereich zu aktivieren.
Einschränkungen und regionale Verfügbarkeit
Mosaic AI Model Serving legt Standardgrenzwerte fest, um eine zuverlässige Leistung zu gewährleisten. Weitere Informationen finden Sie unter Grenzwerte und Regionen für die Modellbereitstellung. Wenn Sie Feedback zu diesen Grenzwerten oder einem Endpunkt in einer nicht unterstützten Region haben, wenden Sie sich an Ihr Databricks-Kontoteam.
Datenschutz bei der Modellbereitstellung
Databricks nimmt die Datensicherheit ernst. Databricks weiß um die Bedeutung der Daten, die Sie mit Mosaic AI Model Serving analysieren, und implementiert die folgenden Sicherheitsmaßnahmen zum Schutz Ihrer Daten.
- Jede Kundenanforderung an die Modellbereitstellung ist logisch isoliert, authentifiziert und autorisiert.
- Mosaic AI Model Serving verschlüsselt alle ruhenden Daten (AES-256) und während der Übertragung (TLS 1.2+).
Für alle kostenpflichtigen Konten verwendet Mosaic AI Model Serving keine Benutzereingaben, die an den Dienst übermittelt wurden, oder Ausgaben des Dienstes, um Modelle zu trainieren oder Databricks-Dienste zu verbessern.
Bei Databricks Foundation Model APIs kann Databricks im Rahmen der Bereitstellung des Dienstes Eingaben und Ausgaben vorübergehend verarbeiten und speichern, um Missbrauch oder schädliche Verwendungen zu verhindern, zu erkennen und einzudämmen. Ihre Eingaben und Ausgaben sind von denen anderer Kund*innen isoliert, werden bis zu dreißig (30) Tage lang in derselben Region wie Ihr Arbeitsbereich gespeichert und sind nur zugänglich, um Sicherheits- oder Missbrauchsprobleme zu erkennen und darauf zu reagieren. Foundation Model APIs ist eine Databricks Designated Service, d. h. es hält sich an die Grenzen der Datenresidenz, wie sie von Databricks Geos implementiert werden.
Zusätzliche Ressourcen
- Einstieg ins Abfragen von LLMs mit Databricks.
- Tutorial: Bereitstellen und Abfragen eines benutzerdefinierten Modells
- Lernprogramm: Erstellen externer Modellendpunkte zum Abfragen von OpenAI-Modellen
- Einführung in das Erstellen von generativen KI-Apps in Databricks
- Ausführen einer Batch-LLM-Ableitung mithilfe von AI-Funktionen
- Migrieren zur Modellbereitstellung