Modellek üzembe helyezése a Mozaik AI-modellkiszolgálóval

Cikk
03/11/2025

Ez a cikk a Mozaik AI-modell-kiszolgálót, a Databricks megoldását ismerteti az AI- és ML-modellek valós idejű kiszolgálás és kötegelt következtetés céljából történő üzembe helyezésére.

Mi az a Mozaik AI-modell szolgáltatás?

A Mozaik AI-modellkiszolgáló egységes felületet biztosít az AI-modellek valós idejű és kötegelt következtetéshez való üzembe helyezéséhez, szabályozásához és lekérdezéséhez. Minden kiszolgált modell REST API-ként érhető el, amelyet integrálhat a web- vagy ügyfélalkalmazásba.

A Modellszolgáltatás magas rendelkezésre állású és alacsony késésű szolgáltatást biztosít a modellek üzembe helyezéséhez. A szolgáltatás automatikusan vertikálisan fel- vagy leskálázható az igényváltozások kielégítése érdekében, így az infrastruktúra költségeinek megtakarítása mellett optimalizálható a késési teljesítmény. Ez a funkció kiszolgáló nélküli számítást használ. További részletekért lásd a Modellezési szolgáltatások árképzési oldalát.

A Modellkiszolgáló egységes REST API-t és MLflow Deployment API-t kínál a CRUD-hoz és a feladatok lekérdezéséhez. Emellett egyetlen felhasználói felületet is biztosít az összes modell és a hozzájuk tartozó kiszolgáló végpontok kezeléséhez. A modelleket közvetlenül az SQL-ből is elérheti az AI-függvények használatával az elemzési munkafolyamatokba való egyszerű integráció érdekében.

Első lépésként tekintse meg az alábbi útmutatókat:

Az egyéni modellek Azure Databricksben való kiszolgálásáról szóló bevezető oktatóanyagért tekintse meg az egyéni modellek üzembe helyezését és lekérdezését ismertető oktatóanyagot.
A Databricks alapmodell lekérdezésének megkezdéséről szóló útmutatóért lásd: LLM-ek lekérdezésének megkezdése a Databricks-ben.
A kötegelt következtetés végrehajtásához lásd: Modellek üzembe helyezése kötegelt következtetéshez és előrejelzéshez.

Üzembe helyezhető modellek

A modellkiszolgálók valós idejű és kötegelt következtetést támogatnak a következő modelltípusok esetében:

Egyéni modellek. Ezek MLflow formátumban csomagolt Python-modellek. Regisztrálhatók a Unity Katalógusban vagy a munkaterület-modell beállításjegyzékében. Ilyenek például a scikit-learn, az XGBoost, a PyTorch és a Hugging Face Transzformátormodellek.
- Az ügynöki kiszolgálás egyedi modellként támogatott. Lásd: Ügynök üzembe helyezése generatív AI-alkalmazáshoz
Alapmodellek.
- Databricks által üzemeltetett alapmodellek, mint például a Meta Llama. Ezek a modellek Foundation Model API-khasználatával érhetők el. Ezek a modellek olyan válogatott alapmodell-architektúrák, amelyek támogatják az optimalizált következtetést. Az alapmodellek, mint a Meta-Llama-3.3-70B-Instruct, a GTE-Large és a Mistral-7B, azonnal rendelkezésre állnak jogkivonatonkénti díjazás mellett, és a teljesítménygaranciát valamint finomhangolt modellvariánsokat igénylő feladatok létesített átviteli kapacitássalis telepíthetők.
- A Databricks rendszeren kívül üzemeltetett alapvető modellek, mint például az OpenAI GPT-4 modelljei. Ezek a modellek külső modellekhasználatával érhetők el. Az ezeket a modelleket kiszolgáló végpontok központilag szabályozhatók az Azure Databricksből, így egyszerűbbé teheti a különböző LLM-szolgáltatók, például az OpenAI és az antropikus használatát és kezelését a szervezeten belül.

Feljegyzés

A támogatott nagy nyelvi modelleket az AI Playground használatával használhatja. Az AI-játszótér egy csevegéshez hasonló környezet, ahol tesztelheti, kérheti és összehasonlíthatja az LLM-eket. Ez a funkció az Azure Databricks-munkaterületen érhető el.

Miért érdemes modellkiszolgálót használni?

Bármilyen modell üzembe helyezése és lekérdezése: A Modellkiszolgáló egységes felületet biztosít, amellyel az összes modellt egyetlen API-val kezelheti, függetlenül attól, hogy a Databricksen vagy külsőleg vannak-e üzemeltetve. Ez a megközelítés leegyszerűsíti a modellek éles környezetben való kipróbálásának, testreszabásának és üzembe helyezésének folyamatát különböző felhőkben és szolgáltatókban.
Modellek biztonságos testreszabása a személyes adatokkal: Az adatintelligencia-platformra épülő Modellkiszolgáló leegyszerűsíti a funkciók és a beágyazások modellekbe való integrálását a Databricks szolgáltatástárolóval és a Mozaik AI-vektorkereséssel való natív integrációval. A még pontosabb és kontextusbeli megértés érdekében a modellek finomhangolása saját fejlesztésű adatokkal történhet, és akadálymentesen alkalmazhatók a Model Serving platformon.
Modellek szabályozása és monitorozása: A kiszolgáló felhasználói felületén központilag kezelheti az összes modellvégpontot egy helyen, beleértve a külsőleg üzemeltetetteket is. Az AI Gateway segítségével kezelheti az engedélyeket, nyomon követheti és beállíthatja a használati korlátokat, és monitorozhatja az összes modelltípus minőségét. Ez lehetővé teszi az SaaS-hozzáférés demokratizálását és a szervezeten belüli LLM-ek megnyitását, miközben biztosítja a megfelelő védőkorlátokat.
Költségek csökkentése optimalizált következtetéssel és gyors skálázási: A Databricks számos optimalizálást hajtott végre, hogy a lehető legjobb teljesítményt és késést biztosítsa a nagy modellek számára. A végpontok automatikusan fel- vagy leskálázhatók az igényváltozások kielégítése érdekében, így az infrastruktúra költségeinek megtakarítása mellett optimalizálható a késési teljesítmény. A modell kiszolgálási költségeinek monitorozása

Feljegyzés

A késés szempontjából érzékeny vagy másodpercenként nagy számú lekérdezést tartalmazó számítási feladatok esetében a Databricks az útvonaloptimalizálás használatát javasolja a végpontokat kiszolgáló egyéni modellen. Forduljon a Databricks fiókkezelő csapatához, hogy munkaterülete a magas szintű skálázhatóság érdekében fel legyen készítve.

A modellkiszolgálók megbízhatóságának és biztonságának növelése: A modellkiszolgálók magas rendelkezésre állású, alacsony késésű éles használatra készültek, és másodpercenként több mint 25 ezer lekérdezést támogatnak 50 ms-nál kisebb többletkéséssel. A kiszolgáló számítási feladatokat több biztonsági réteg védi, így a legérzékenyebb feladatokhoz is biztonságos és megbízható környezetet biztosít.

Megjegyzés

A modellkiszolgáló nem biztosít biztonsági javításokat a meglévő modellrendszerképekhez, mert fennáll a veszélye annak, hogy az éles környezetek destabilizálva lesznek. Az új modellverzióból létrehozott új modellképek a legújabb javításokat tartalmazzák. További információért forduljon a Databricks-fiók csapatához.

Követelmények

Modell regisztrálva a Unity Catalog-ban, vagy a Workspace Model Registry-ban.
A regisztrált modellekre vonatkozó engedélyek a Kiszolgáló végpontok hozzáférési listái című részben leírtak szerint.
- MLflow 1.29 vagy újabb.
Ha az Azure Private Linket használja a munkaterületen konfigurált hálózatkezeléssel kapcsolatos bejövő szabályok tiszteletben tartására, az Azure Private Link csak az egyéni modelleket kiszolgáló, kiosztott átviteli sebességet vagy végpontokat kiszolgáló modellek esetében támogatott. Lásd: Privát kapcsolat konfigurálása kiszolgáló nélküli számításból.

Engedélyezze a modellkiszolgálót a munkaterülethez

A modellkiszolgálók munkaterületen való engedélyezéséhez nincs szükség további lépésekre.

Korlátozások és régiók rendelkezésre állása

A Mozaik AI-modell kiszolgálása alapértelmezett korlátokat szab a megbízható teljesítmény biztosításához. Lásd: Modellmegjelenítési korlátok és régiók. Ha visszajelzést szeretne küldeni ezekről a korlátokról vagy egy nem támogatott régióban lévő végpontról, forduljon a Databricks-fiók csapatához.

Adatvédelem a modellkiszolgálóban

A Databricks komolyan veszi az adatbiztonságot. A Databricks tisztában van a Mozaik AI-modell-szolgáltatással elemezni kívánt adatok fontosságával, és a következő biztonsági vezérlőket implementálja az adatok védelme érdekében.

A Modellkiszolgálónak küldött minden ügyfélkérés logikailag elkülönítve, hitelesítve és engedélyezve van.
A Mozaik AI-modell kiszolgálója minden inaktív adatot (AES-256) és átvitel alatt (TLS 1.2+) titkosít.

Minden fizetős fiók esetében a Mozaik AI-modellszolgáltatás nem használja a szolgáltatásnak küldött felhasználói bemeneteket vagy a szolgáltatás kimeneteit a modellek betanítása vagy a Databricks-szolgáltatások fejlesztése érdekében.

A Databricks Foundation Model API-k esetében a szolgáltatás biztosítása részeként a Databricks ideiglenesen feldolgozhatja és tárolhatja a bemeneteket és kimeneteket a visszaélések vagy a káros felhasználások megelőzése, észlelése és enyhítése céljából. A bemenetek és kimenetek el vannak különítve más ügyfelektől, a munkaterületével megegyező régióban tárolva legfeljebb harminc (30) napig, és csak a biztonsági vagy visszaélési problémák észleléséhez és megválaszolásához érhetők el. Az alapmodell API-k egy Databricks-kijelölt szolgáltatás, ami azt jelenti, hogy az adattárolási helyszínek határait követi, amelyeket a Databricks Geos valósít meg.

Megosztás a következőn keresztül: