Distribuera modeller med hjälp av Mosaic AI Model Serving

Artikel
03/11/2025

Den här artikeln beskriver Mosaic AI Model Serving, Databricks-lösningen för distribution av AI- och ML-modeller för realtidsbetjäning och batchinferens.

Vad är Mosaic AI Model Serving?

Mosaic AI Model Serving tillhandahåller ett enhetligt gränssnitt för att distribuera, styra och fråga AI-modeller för realtids- och batchinferens. Varje modell som du hanterar är tillgänglig som ett REST-API som du kan integrera i ditt webb- eller klientprogram.

Modellservering ger en tjänst med hög tillgänglighet och låg latens för att distribuera modeller. Tjänsten skalas automatiskt upp eller ned för att möta ändringar i efterfrågan, vilket sparar infrastrukturkostnader samtidigt som svarstidsprestandan optimeras. Den här funktionen använder serverlös beräkning. Mer information finns på prissättningssidan för Model Serving.

Modellservern erbjuder ett enhetligt REST API och MLflow Deployment API för CRUD och frågeuppgifter. Dessutom finns det ett enda användargränssnitt för att hantera alla dina modeller och deras respektive serverslutpunkter. Du kan också komma åt modeller direkt från SQL med hjälp av AI-funktioner för enkel integrering i analysarbetsflöden.

Se följande guider för att komma igång:

En introduktionskurs om hur du hanterar anpassade modeller i Azure Databricks finns i Självstudie: Distribuera och fråga efter en anpassad modell.
En introduktionshandledning om hur du kan interagera med en grundmodell i Databricks finns i Kom igång med att fråga LLMs på Databricks.
Information om hur du utför batchinferens finns i Distribuera modeller för batchinferens och förutsägelse.

Modeller som du kan distribuera

Modellservern stöder realtids- och batchinferens för följande modelltyper:

Anpassade modeller. Det här är Python-modeller som paketeras i MLflow-format. De kan registreras antingen i Unity Catalog eller i arbetsytans modellregister. Exempel är scikit-learn, XGBoost, PyTorch och Hugging Face-transformermodeller.
- Agentservern stöds som en anpassad modell. Se Distribuera en agent för generativ AI-applikation
Grundmodeller.
- Databricks-hostade basmodeller som Meta Llama. Dessa modeller är tillgängliga via API:er för Foundation Model. Dessa modeller är utvalda grundmodellarkitekturer som stöder optimerad slutsatsdragning. Basmodellerna, som Meta-Llama-3.3-70B-Instruct, GTE-Large och Mistral-7B, är tillgängliga för omedelbar användning med prissättning per token, och arbetsbelastningar som kräver prestandagarantier och finjusterade modellvarianter kan distribueras med förutbestämt dataflöde.
- Foundation-modeller som finns utanför Databricks som GPT-4 från OpenAI. Dessa modeller är tillgängliga genom att använda externa modeller. Slutpunkterna som hanterar dessa modeller kan styras centralt från Azure Databricks, så att du kan effektivisera användningen och hanteringen av olika LLM-leverantörer, till exempel OpenAI och Anthropic, i din organisation.

Anteckning

Du kan interagera med stora språkmodeller som stöds med hjälp av AI Playground. AI Playground är en chattliknande miljö där du kan testa, fråga och jämföra LLM:er. Den här funktionen är tillgänglig på din Azure Databricks-arbetsyta.

Varför ska vi använda modellhantering?

Distribuera och fråga efter modeller: Modellservern tillhandahåller ett enhetligt gränssnitt som gör att du kan hantera alla modeller på en plats och köra frågor mot dem med ett enda API, oavsett om de finns på Databricks eller externt. Den här metoden förenklar processen att experimentera med, anpassa och distribuera modeller i produktion i olika moln och leverantörer.
Anpassa modeller säkert med dina privata data: Modellservern bygger på en datainformationsplattform och förenklar integreringen av funktioner och inbäddningar i modeller genom intern integrering med Databricks Feature Store och Mosaic AI Vector Search. För ännu bättre noggrannhet och förståelse av sammanhang kan modeller finjusteras med proprietära data och distribueras enkelt på Model Serving.
Styra och övervaka modeller: Med användargränssnittet för servering kan du centralt hantera alla modellslutpunkter på ett ställe, inklusive de som finns externt. Du kan hantera behörigheter, spåra och ange användningsgränser och övervaka kvaliteten på alla typer av modeller med hjälp av AI Gateway-. På så sätt kan du demokratisera åtkomsten till SaaS och öppna LLM:er i din organisation samtidigt som lämpliga skyddsräcken är på plats.
Minska kostnaderna med optimerad slutsatsdragning och snabb skalning: Databricks har implementerat en rad optimeringar för att säkerställa att du får bästa möjliga dataflöde och svarstid för stora modeller. Slutpunkterna skalas automatiskt upp eller ned för att möta efterfrågans ändringar, vilket sparar infrastrukturkostnader samtidigt som svarstidsprestandan optimeras. Övervaka kostnader för modellhantering.

Kommentar

För arbetsbelastningar som är svarstidskänsliga eller omfattar ett stort antal frågor per sekund rekommenderar Databricks att du använder routningsoptimering på anpassade modellserverslutpunkter. Kontakta ditt Databricks-kontoteam för att säkerställa att din arbetsyta är aktiverad för hög skalbarhet.

Ge pålitlighet och säkerhet till Model Serving: Model Serving är utformat för hög tillgänglighet och låg latens i produktionsbruk och kan hantera över 25 000 förfrågningar per sekund med en extra latens på under 50 ms. De betjänande arbetsbelastningarna skyddas av flera säkerhetslager, vilket säkerställer en säker och tillförlitlig miljö för även de mest känsliga uppgifterna.

Anteckning

Modellservern tillhandahåller inte säkerhetskorrigeringar för befintliga modellbilder på grund av risken för destabilisering av produktionsdistributioner. En ny modellbild som skapats från en ny modellversion innehåller de senaste korrigeringarna. Kontakta ditt Databricks-kontoteam för mer information.

Krav

Registrerad modell i Unity Catalog eller Arbetsytans modellregister.
Behörigheter för de registrerade modellerna enligt beskrivningen i Serveringsslutpunkts-ACL:er.
- MLflow 1.29 eller senare.
Om du använder Azure Private Link för att respektera nätverksrelaterade ingressregler som konfigurerats på arbetsytan stöds Endast Azure Private Link för modeller som betjänar slutpunkter som använder etablerat dataflöde eller slutpunkter som hanterar anpassade modeller. Se Konfigurera privat anslutning från serverlös beräkning.

Aktivera modellservering för din arbetsyta

Inga ytterligare steg krävs för att aktivera modellservering på din arbetsyta.

Begränsningar och regiontillgänglighet

Mosaic AI Model Serving inför standardgränser för att säkerställa tillförlitliga prestanda. Se Gränser och regioner för modellhantering. Om du har feedback om dessa gränser eller en slutpunkt i en region som inte stöds kontaktar du ditt Databricks-kontoteam.

Dataskydd i modellservering

Databricks tar datasäkerhet på allvar. Databricks förstår vikten av de data som du analyserar med hjälp av Mosaic AI Model Serving och implementerar följande säkerhetskontroller för att skydda dina data.

Varje kundbegäran till modellservern är logiskt isolerad, autentiserad och auktoriserad.
Mosaic AI Model Serving krypterar alla vilande data (AES-256) och under överföring (TLS 1.2+).

För alla betalda konton använder Mosaic AI Model Serving inte användarindata som skickas till tjänsten eller utdata från tjänsten för att träna modeller eller förbättra databricks-tjänster.

För Databricks Foundation-modell-API:er kan Databricks tillfälligt bearbeta och lagra indata och utdata i syfte att förhindra, identifiera och minimera missbruk eller skadliga användningsområden. Dina indata och utdata är isolerade från andra kunders, lagras i samma region som din arbetsyta i upp till trettio (30) dagar och är endast tillgängliga för att identifiera och svara på säkerhetsproblem eller missbruksproblem. Foundation-modell-API:er är en Databricks Designated Service, vilket innebär att denna följer gränser för datahemvist som tillämpas av Databricks Geos.

Dela via