A gépi tanulási műveletek (MLOps) ajánlott eljárásai az Azure Kubernetes Service-ben (AKS)
Ez a cikk az MLOps AKS-ben való használatakor figyelembe veendő ajánlott eljárásokat és szempontokat ismerteti. További információ az MLOpsról: Gépi tanulási műveletek (MLOps) AI- és gépi tanulási munkafolyamatokhoz.
Infrastruktúra kódként (IaC)
Az IaC konzisztens és reprodukálható infrastruktúra kiépítését és kezelését teszi lehetővé számos alkalmazástípushoz. Intelligens alkalmazástelepítések esetén az IaC-implementáció az AI-folyamat során változhat, mivel a számítási teljesítmény és a következtetésekhez, a kiszolgáláshoz, a betanításhoz és a finomhangolási modellekhez szükséges erőforrások eltérőek lehetnek. Az AI-fejlesztői csapatok IaC-sablonjainak definiálása és verziószámozása segíthet a feladattípusok konzisztenciájának és költséghatékonyságának biztosításában, miközben az egyes hardverkövetelmények demystifyinggel és az üzembe helyezési folyamat felgyorsításával jár.
Tárolóra bontás
A modell súlyainak, metaadatainak és konfigurációinak tárolórendszerképekben való kezelése lehetővé teszi a hordozhatóságot, az egyszerűsített verziószámozást és a tárolási költségek csökkentését. A tárolók használatával a következő megoldásokat végezheti el:
- Használja ki a meglévő tárolólemezképeket, különösen a nagy méretű, több millió és több milliárd paramétert tartalmazó, biztonságos tárolóregisztrációs adatbázisokban tárolt, nagyméretű nyelvi modellek (LLM-ek) esetében.
- A folyamat egyetlen meghibásodási pontjának (SPOF) elkerülése érdekében használjon több egyszerű tárolót, amelyek az egyes tevékenységek egyedi függőségeit tartalmazzák ahelyett, hogy egyetlen nagy rendszerképet tartanának fenn.
- Nagy méretű szöveges/képadatkészleteket tárolhat az alaptároló lemezképén kívül, és szükség esetén hivatkozhat rájuk futásidőben.
Ismerkedés a Kubernetes AI eszközlánc-operátorral , hogy percek alatt üzembe helyezhesse a nagy teljesítményű LLM-et az AKS-en.
Modellkezelés és verziószámozás
A modellkezelés és a verziószámozás elengedhetetlen a modellek időbeli változásainak nyomon követéséhez. A modellek verziószámozásával a következőket teheti:
- A modelltárolók konzisztenciájának fenntartása a különböző környezetekben való egyszerű üzembe helyezés érdekében.
- Paraméterhatékony finomhangolási (PEFT) metódusok alkalmazásával gyorsabban iterálhat a modell súlyainak egy részhalmazán, és új verziókat tarthat fenn egyszerűsített tárolókban.
Automation
Az automatizálás kulcsfontosságú a manuális hibák csökkentéséhez, a hatékonyság növeléséhez és az ml-életciklus konzisztenciájának biztosításához. A feladatok automatizálásával a következő műveleteket végezheti el:
- A riasztási eszközök integrálása a vektorbetöltési folyamat automatikus aktiválásához új adatfolyamként az alkalmazásba.
- Modellteljesítmény-küszöbértékek beállítása a romlások nyomon követéséhez és az újratanítási folyamatok aktiválásához.
Méretezhetőség és erőforrás-kezelés
A méretezhetőség és az erőforrás-kezelés kritikus fontosságú annak biztosításához, hogy az AI-folyamat képes legyen kezelni az alkalmazás igényeit. Az erőforrás-használat optimalizálásával a következőt teheti:
- Integrálhatja azokat az eszközöket, amelyek hatékonyan használják a lefoglalt CPU-, GPU- és memória-erőforrásokat elosztott számítástechnika és több párhuzamossági szint (például adatok, modellek és folyamatok párhuzamossága) révén.
- Engedélyezze az automatikus skálázást a számítási erőforrásokon a magas modellkérelmek csúcsidőben történő támogatásához és a csúcsidőn kívüli leskálázáshoz.
- A hagyományos alkalmazásokhoz hasonlóan tervezze meg a vészhelyreállítást az AKS rugalmasságával és megbízhatóságával kapcsolatos ajánlott eljárások követésével.
Biztonság és megfelelőség
A biztonság és a megfelelőség kritikus fontosságú az adatok védelme és annak biztosítása szempontjából, hogy az AI-folyamat megfeleljen a jogszabályi követelményeknek. A biztonsági és megfelelőségi ajánlott eljárások implementálásával a következő megoldásokat végezheti el:
- A nyílt forráskódú modell tárolólemezképeinek gyakori biztonsági réseinek észleléséhez integrálja a gyakori biztonsági réseket és az expozíciós (CVE) vizsgálatot.
- Használja a Microsoft Defender for Containerst az Azure Container Registryben tárolt modell tárolólemezképekhez.
- A betöltött adatok, modellmódosítások és metrikák naplózási nyomvonalának fenntartása a szervezeti szabályzatoknak való megfelelés érdekében.
Következő lépések
Ismerje meg az alkalmazás üzembe helyezésének és az AKS-en végzett műveleteinek egyéb területeire vonatkozó ajánlott eljárásokat:
Azure Kubernetes Service