Wdrażanie modeli z użyciem Mosaic AI Model Serving
W tym artykule opisano usługę Mosaic AI Model Serving , rozwiązanie usługi Databricks do wdrażania modeli sztucznej inteligencji i uczenia maszynowego na potrzeby obsługi w czasie rzeczywistym i wnioskowania wsadowego.
Co to jest Mosaic AI Model Serving?
Obsługa modeli mozaiki sztucznej inteligencji zapewnia ujednolicony interfejs do wdrażania modeli sztucznej inteligencji, zarządzania nimi i wykonywania zapytań na potrzeby wnioskowania w czasie rzeczywistym i wsadowego. Każdy udostępniany model jest dostępny jako REST API, które można zintegrować z aplikacją webową lub klienta.
Obsługa modeli zapewnia usługę o wysokiej dostępności i małym opóźnieniu na potrzeby wdrażania modeli. Usługa automatycznie skaluje się w górę lub w dół, aby sprostać zmianom zapotrzebowania, oszczędzając koszty infrastruktury i optymalizując wydajność w zakresie opóźnień. Ta funkcja korzysta z bezserwerowych obliczeń. Aby uzyskać więcej informacji, zobacz stronę Cennik obsługi modelu.
Obsługa Modeli oferuje ujednolicony interfejs API REST oraz interfejs wdrażania MLflow do zadań CRUD i zapytań. Ponadto zapewnia jeden interfejs użytkownika do zarządzania wszystkimi modelami i odpowiednimi punktami końcowymi obsługującymi. Możesz również uzyskiwać dostęp do modeli bezpośrednio z bazy danych SQL przy użyciu funkcji sztucznej inteligencji w celu łatwej integracji z przepływami pracy analizy.
Zapoznaj się z następującymi przewodnikami, aby rozpocząć pracę:
- Aby zapoznać się z samouczkiem wprowadzającym dotyczącym obsługi modeli niestandardowych w usłudze Azure Databricks, zobacz Samouczek: wdrażanie i wykonywanie zapytań dotyczących modelu niestandardowego.
- Aby zapoznać się z samouczkiem wprowadzającym dotyczącym wykonywania zapytań względem modelu podstawowego w usłudze Databricks, zobacz Wprowadzenie do wykonywania zapytań o duże modele językowe (LLM) w usłudze Databricks.
- Aby uzyskać informacje o wykonywaniu wnioskowania wsadowego, zobacz Wdrażanie modeli na potrzeby wnioskowania wsadowego i przewidywania.
Modele, które można wdrożyć
Serwowanie modeli umożliwia wnioskowanie w czasie rzeczywistym i w trybie wsadowym dla następujących typów modeli:
-
Modele niestandardowe. Są to modele języka Python spakowane w formacie MLflow. Można je zarejestrować w Unity Catalog lub w rejestrze modeli przestrzeni roboczej. Przykłady obejmują scikit-learn, XGBoost, PyTorch i modele transformer Hugging Face.
- Obsługa agenta jest wspierana jako model niestandardowy. Zobacz Wdróż agenta dla aplikacji wykorzystujących generatywną sztuczną inteligencję
- modele bazowe
- Modele bazowe hostowane na platformie Databricks takie jak Meta Llama. Modele te są dostępne za pomocą API modelu fundacyjnego . Te modele podstawowe są wyselekcjonowanymi architekturami, które obsługują zoptymalizowaną analizę. Modele podstawowe, takie jak Meta-Llama-3.3-70B-Instruct, GTE-Large i Mistral-7B, dostępne są do natychmiastowego użycia z płatnością za token, a obciążenia wymagające gwarancji wydajności i dostrojonych wariantów modelu można wdrożyć z zarezerwowaną przepustowością.
- Modele bazowe hostowane poza Databricks, takie jak GPT-4 od OpenAI. Te modele są dostępne za pomocą zewnętrznych modeli . Punkty końcowe obsługujące te modele mogą być centralnie zarządzane przez usługę Azure Databricks, dzięki czemu można usprawnić korzystanie z różnych dostawców LLM i zarządzanie nimi, takich jak OpenAI i Anthropic, w organizacji.
Uwaga
Możesz wchodzić w interakcje z obsługiwanymi dużymi modelami językowymi przy użyciu narzędzia AI Playground. Strefa testowa AI to środowisko przypominające czat, w którym można testować, inicjować i porównywać modele LLM. Ta funkcja jest dostępna w obszarze roboczym usługi Azure Databricks.
Dlaczego warto używać funkcji obsługi modelu?
- Wdrażanie i wykonywanie zapytań o dowolne modele: obsługa modelu udostępnia ujednolicony interfejs, który umożliwia zarządzanie wszystkimi modelami w jednej lokalizacji i wykonywanie zapytań względem nich za pomocą jednego interfejsu API, niezależnie od tego, czy są hostowane w usłudze Databricks, czy zewnętrznie. Takie podejście upraszcza proces eksperymentowania, dostosowywania i wdrażania modeli w środowisku produkcyjnym w różnych chmurach i dostawcach.
- Bezpieczne dostosowywanie modeli przy użyciu danych prywatnych: oparta na platformie analizy danych funkcja Model Serving upraszcza integrację funkcji i osadzania w modelach za pomocą natywnej integracji z usługą Databricks Feature Store i mozaikowym wyszukiwaniem wektorów sztucznej inteligencji. Aby uzyskać jeszcze większą dokładność i kontekstowe zrozumienie, modele można dostosować do zastrzeżonych danych i bez wysiłku wdrażać w obsłudze modeli.
- Zarządzanie i monitorowanie modeli: interfejs użytkownika obsługujący umożliwia centralne zarządzanie wszystkimi punktami końcowymi modelu w jednym miejscu, w tym tymi, które są hostowane zewnętrznie. Możesz zarządzać uprawnieniami, śledzić i ustawiać limity użycia oraz monitorować jakość wszystkich typów modeli, wykorzystując bramę sztucznej inteligencji. Dzięki temu można zdemokratyzować dostęp do SaaS oraz korzystać z otwartych modeli językowych LLM w organizacji, zapewniając jednocześnie odpowiednie zabezpieczenia kontrolne.
- Obniżenie kosztów dzięki zoptymalizowanemu wnioskowaniu i szybkiemu skalowaniu: usługa Databricks zaimplementowała szereg optymalizacji, aby zapewnić najlepszą przepływność i opóźnienie dla dużych modeli. Punkty końcowe są automatycznie skalowane w górę lub w dół w celu spełnienia zmian zapotrzebowania, co pozwala zaoszczędzić koszty infrastruktury podczas optymalizowania wydajności opóźnień. Monitorowanie kosztów obsługi modelu.
Uwaga
W przypadku obciążeń, które są wrażliwe na opóźnienia lub obejmują dużą liczbę zapytań na sekundę, usługa Databricks zaleca korzystanie z optymalizacji tras w niestandardowych punktach końcowych obsługujących model. Skontaktuj się z zespołem ds. konta w Databricks, aby upewnić się, że obszar roboczy jest przygotowany do zapewnienia wysokiej skalowalności.
- Zapewnienie niezawodności i bezpieczeństwa dla rozwiązania Model Serving: Model Serving zaprojektowano z myślą o wysokiej dostępności, niskich opóźnieniach w użytkowaniu produkcyjnym i zdolności obsługi ponad 25 tys. zapytań na sekundę z opóźnieniem mniejszym niż 50 ms. Obciążenia obsługujące są chronione przez wiele warstw zabezpieczeń, zapewniając bezpieczne i niezawodne środowisko nawet dla najbardziej wrażliwych zadań.
Uwaga
Obsługa modelu nie zapewnia poprawek zabezpieczeń istniejących obrazów modelu ze względu na ryzyko destabilizacji wdrożeń produkcyjnych. Nowy obraz modelu utworzony na podstawie nowej wersji modelu będzie zawierać najnowsze poprawki. Skontaktuj się z zespołem kont usługi Databricks, aby uzyskać więcej informacji.
Wymagania
- Zarejestrowany model w Unity Catalog lub Workspace Model Registry.
- Uprawnienia do zarejestrowanych modeli zgodnie z opisem w temacie Lista kontroli dostępu (ACL) do punktu końcowego.
- MLflow 1.29 lub nowszy.
- Jeśli używasz usługi Azure Private Link do przestrzegania reguł ruchu przychodzącego związanych z siecią skonfigurowanych w obszarze roboczym, usługa Azure Private Link jest obsługiwana tylko w przypadku punktów końcowych, które wykorzystują aprowizowaną przepływność lub obsługują modele niestandardowe. Zobacz Konfigurowanie łączności prywatnej z zasobów obliczeniowych bezserwerowych.
Włącz obsługę modelu dla Twojego obszaru roboczego
Do włączenia obsługi modelu w obszarze roboczym nie są wymagane żadne dodatkowe kroki.
Ograniczenia i dostępność regionów
Obsługa modelu mozaiki sztucznej inteligencji nakłada domyślne limity, aby zapewnić niezawodną wydajność. Zobacz Limity i regiony serwerowania modeli. Jeśli masz opinię na temat tych limitów lub punktu końcowego w nieobsługiwanym regionie, skontaktuj się z zespołem konta usługi Databricks.
Ochrona danych w usłudze modelowania
Usługa Databricks poważnie traktuje zabezpieczenia danych. Usługa Databricks rozumie znaczenie analizowanych danych przy użyciu usługi Mosaic AI Model Serving i implementuje następujące mechanizmy kontroli zabezpieczeń w celu ochrony danych.
- Każde żądanie klienta do obsługi modelu jest logicznie izolowane, uwierzytelniane i autoryzowane.
- Usługa mozaikowego modelu sztucznej inteligencji szyfruje wszystkie dane magazynowane (AES-256) i podczas przesyłania (TLS 1.2+).
W przypadku wszystkich płatnych kont usługa Mosaic AI Model Serving nie używa danych wejściowych użytkownika przesłanych do usługi lub danych wyjściowych z usługi w celu trenowania modeli ani ulepszania żadnych usług usługi Databricks.
W przypadku interfejsów API modelu usługi Databricks Foundation w ramach świadczenia usługi usługa Databricks może tymczasowo przetwarzać i przechowywać dane wejściowe i wyjściowe w celu zapobiegania, wykrywania i ograniczania nadużyć lub szkodliwych zastosowań. Dane wejściowe i wyjściowe są odizolowane od innych klientów, przechowywane w tym samym regionie co obszar roboczy przez maksymalnie trzydzieści (30) dni i dostępne tylko do wykrywania i reagowania na problemy związane z bezpieczeństwem lub nadużyciami. Interfejsy API modelu podstawowego to wyznaczona usługa przez Databricks, co oznacza, że są one zgodne z granicami rezydencji danych wdrożonymi przez Databricks Geos.
Dodatkowe zasoby
- Rozpocznij wykonywanie zapytań dotyczących usługi LLMs w usłudze Databricks.
- Samouczek: wdrażanie i wykonywanie zapytań względem modelu niestandardowego
- Samouczek: tworzenie punktów końcowych modelu zewnętrznego w celu wykonywania zapytań dotyczących modeli OpenAI
- Wprowadzenie do tworzenia aplikacji generatywnej sztucznej inteligencji w usłudze Databricks
- Przeprowadź wsadowe wnioskowanie LLM z użyciem funkcji AI
- Migrowanie do środowiska obsługi modeli