Рекомендации по операциям машинного обучения (MLOps) в Служба Azure Kubernetes (AKS)
В этой статье описываются рекомендации и рекомендации, которые следует учитывать при использовании MLOps в AKS. Дополнительные сведения об MLOps см. в статьях "Операции машинного обучения" (MLOps) для рабочих процессов искусственного интеллекта и машинного обучения.
Инфраструктура как код (IaC)
IaC обеспечивает согласованную и воспроизводимую подготовку инфраструктуры и управление ими для ряда типов приложений. При использовании интеллектуальных развертываний приложений реализация IaC может измениться во всем конвейере ИИ, так как вычислительные ресурсы, необходимые для вывода, обслуживания, обучения и точной настройки моделей могут отличаться. Определение и управление версиями шаблонов IaC для команд разработчиков ИИ может помочь обеспечить согласованность и экономичность между типами заданий при демистификации их отдельных требований к оборудованию и ускорения процесса развертывания.
Контейнеризация
Управление весами модели, метаданными и конфигурациями в образах контейнеров позволяет переносить, упрощенное управление версиями и сократить затраты на хранение с течением времени. С помощью контейнеризации можно:
- Используйте существующие образы контейнеров, особенно для больших языковых моделей (LLM), начиная от миллионов до миллиардов параметров в размерах и стабильных диффуозных моделях, хранящихся в защищенных реестрах контейнеров.
- Избегайте единой точки сбоя (SPOF) в конвейере с использованием нескольких упрощенных контейнеров, содержащих уникальные зависимости для каждой задачи вместо поддержания одного большого образа.
- Храните большие наборы данных текста и изображения за пределами базового образа контейнера и ссылайтесь на них при необходимости во время выполнения.
Начните работу с оператором цепочки инструментов ИИ Kubernetes, чтобы развернуть высокопроизводительный LLM в AKS в течение нескольких минут.
Управление моделями и управление версиями
Управление моделями и управление версиями являются важными для отслеживания изменений в моделях с течением времени. С помощью управления версиями моделей можно:
- Обеспечение согласованности между контейнерами модели для упрощения развертывания в разных средах.
- Используйте эффективные методы точной настройки параметров (PEFT) для ускорения итерации подмножества весов модели и поддержания новых версий в упрощенных контейнерах.
Автоматизация
Автоматизация — это ключ к сокращению ошибок вручную, повышению эффективности и обеспечению согласованности в жизненном цикле машинного обучения. Автоматив задачи, вы можете:
- Интеграция средств оповещений для автоматического активации потока приема векторов в качестве новых потоков данных в приложение.
- Задайте пороговые значения производительности модели для отслеживания ухудшения состояния и запуска переобучения конвейеров.
Масштабируемость и управление ресурсами
Масштабируемость и управление ресурсами критически важны для обеспечения того, чтобы конвейер ИИ может обрабатывать требования приложения. Оптимизируя использование ресурсов, вы можете:
- Интегрируйте средства, которые эффективно используют выделенные ресурсы ЦП, GPU и памяти с помощью распределенных вычислений и нескольких уровней параллелизма (например, данных, модели и параллелизма конвейера).
- Включите автоматическое масштабирование вычислительных ресурсов для поддержки больших объемов запросов модели в пиковые периоды и уменьшения масштаба в нерабочие часы.
- Как и в традиционных приложениях, планируйте аварийное восстановление, следуя рекомендациям по устойчивости и надежности AKS.
Безопасность и соответствие требованиям
Безопасность и соответствие являются критически важными для защиты данных и обеспечения соответствия конвейера искусственного интеллекта нормативным требованиям. Реализуя рекомендации по обеспечению безопасности и соответствия требованиям, вы можете:
- Интеграция распространенных уязвимостей и сканирования уязвимостей (CVE) для обнаружения распространенных уязвимостей в образах контейнеров с открытым исходным кодом.
- Используйте Microsoft Defender для контейнеров для образов контейнеров модели, хранящихся в Реестр контейнеров Azure.
- Сохраняйте путь аудита для приема данных, изменений модели и метрик, которые будут соответствовать вашим политикам организации.
Следующие шаги
Ознакомьтесь с рекомендациями по другим областям развертывания приложений и операций с AKS:
Azure Kubernetes Service