A gépi tanulási műveletek (MLOps) ajánlott eljárásai az Azure Kubernetes Service-ben (AKS)

Cikk
10/23/2024

Ez a cikk az MLOps AKS-ben való használatakor figyelembe veendő ajánlott eljárásokat és szempontokat ismerteti. További információ az MLOpsról: Gépi tanulási műveletek (MLOps) AI- és gépi tanulási munkafolyamatokhoz.

Infrastruktúra kódként (IaC)

Az IaC konzisztens és reprodukálható infrastruktúra kiépítését és kezelését teszi lehetővé számos alkalmazástípushoz. Intelligens alkalmazástelepítések esetén az IaC-implementáció az AI-folyamat során változhat, mivel a számítási teljesítmény és a következtetésekhez, a kiszolgáláshoz, a betanításhoz és a finomhangolási modellekhez szükséges erőforrások eltérőek lehetnek. Az AI-fejlesztői csapatok IaC-sablonjainak definiálása és verziószámozása segíthet a feladattípusok konzisztenciájának és költséghatékonyságának biztosításában, miközben az egyes hardverkövetelmények demystifyinggel és az üzembe helyezési folyamat felgyorsításával jár.

Tárolóra bontás

A modell súlyainak, metaadatainak és konfigurációinak tárolórendszerképekben való kezelése lehetővé teszi a hordozhatóságot, az egyszerűsített verziószámozást és a tárolási költségek csökkentését. A tárolók használatával a következő megoldásokat végezheti el:

Használja ki a meglévő tárolólemezképeket, különösen a nagy méretű, több millió és több milliárd paramétert tartalmazó, biztonságos tárolóregisztrációs adatbázisokban tárolt, nagyméretű nyelvi modellek (LLM-ek) esetében.
A folyamat egyetlen meghibásodási pontjának (SPOF) elkerülése érdekében használjon több egyszerű tárolót, amelyek az egyes tevékenységek egyedi függőségeit tartalmazzák ahelyett, hogy egyetlen nagy rendszerképet tartanának fenn.
Nagy méretű szöveges/képadatkészleteket tárolhat az alaptároló lemezképén kívül, és szükség esetén hivatkozhat rájuk futásidőben.

Ismerkedés a Kubernetes AI eszközlánc-operátorral , hogy percek alatt üzembe helyezhesse a nagy teljesítményű LLM-et az AKS-en.

Modellkezelés és verziószámozás

A modellkezelés és a verziószámozás elengedhetetlen a modellek időbeli változásainak nyomon követéséhez. A modellek verziószámozásával a következőket teheti:

A modelltárolók konzisztenciájának fenntartása a különböző környezetekben való egyszerű üzembe helyezés érdekében.
Paraméterhatékony finomhangolási (PEFT) metódusok alkalmazásával gyorsabban iterálhat a modell súlyainak egy részhalmazán, és új verziókat tarthat fenn egyszerűsített tárolókban.

Automation

Az automatizálás kulcsfontosságú a manuális hibák csökkentéséhez, a hatékonyság növeléséhez és az ml-életciklus konzisztenciájának biztosításához. A feladatok automatizálásával a következő műveleteket végezheti el:

A riasztási eszközök integrálása a vektorbetöltési folyamat automatikus aktiválásához új adatfolyamként az alkalmazásba.
Modellteljesítmény-küszöbértékek beállítása a romlások nyomon követéséhez és az újratanítási folyamatok aktiválásához.

Méretezhetőség és erőforrás-kezelés

A méretezhetőség és az erőforrás-kezelés kritikus fontosságú annak biztosításához, hogy az AI-folyamat képes legyen kezelni az alkalmazás igényeit. Az erőforrás-használat optimalizálásával a következőt teheti:

Integrálhatja azokat az eszközöket, amelyek hatékonyan használják a lefoglalt CPU-, GPU- és memória-erőforrásokat elosztott számítástechnika és több párhuzamossági szint (például adatok, modellek és folyamatok párhuzamossága) révén.
Engedélyezze az automatikus skálázást a számítási erőforrásokon a magas modellkérelmek csúcsidőben történő támogatásához és a csúcsidőn kívüli leskálázáshoz.
A hagyományos alkalmazásokhoz hasonlóan tervezze meg a vészhelyreállítást az AKS rugalmasságával és megbízhatóságával kapcsolatos ajánlott eljárások követésével.

Biztonság és megfelelőség

A biztonság és a megfelelőség kritikus fontosságú az adatok védelme és annak biztosítása szempontjából, hogy az AI-folyamat megfeleljen a jogszabályi követelményeknek. A biztonsági és megfelelőségi ajánlott eljárások implementálásával a következő megoldásokat végezheti el:

A nyílt forráskódú modell tárolólemezképeinek gyakori biztonsági réseinek észleléséhez integrálja a gyakori biztonsági réseket és az expozíciós (CVE) vizsgálatot.
- Használja a Microsoft Defender for Containerst az Azure Container Registryben tárolt modell tárolólemezképekhez.
A betöltött adatok, modellmódosítások és metrikák naplózási nyomvonalának fenntartása a szervezeti szabályzatoknak való megfelelés érdekében.

Következő lépések

Ismerje meg az alkalmazás üzembe helyezésének és az AKS-en végzett műveleteinek egyéb területeire vonatkozó ajánlott eljárásokat:

Megosztás a következőn keresztül: