Поделиться через


Рекомендации по операциям машинного обучения (MLOps) в Служба Azure Kubernetes (AKS)

В этой статье описываются рекомендации и рекомендации, которые следует учитывать при использовании MLOps в AKS. Дополнительные сведения об MLOps см. в статьях "Операции машинного обучения" (MLOps) для рабочих процессов искусственного интеллекта и машинного обучения.

Инфраструктура как код (IaC)

IaC обеспечивает согласованную и воспроизводимую подготовку инфраструктуры и управление ими для ряда типов приложений. При использовании интеллектуальных развертываний приложений реализация IaC может измениться во всем конвейере ИИ, так как вычислительные ресурсы, необходимые для вывода, обслуживания, обучения и точной настройки моделей могут отличаться. Определение и управление версиями шаблонов IaC для команд разработчиков ИИ может помочь обеспечить согласованность и экономичность между типами заданий при демистификации их отдельных требований к оборудованию и ускорения процесса развертывания.

Контейнеризация

Управление весами модели, метаданными и конфигурациями в образах контейнеров позволяет переносить, упрощенное управление версиями и сократить затраты на хранение с течением времени. С помощью контейнеризации можно:

  • Используйте существующие образы контейнеров, особенно для больших языковых моделей (LLM), начиная от миллионов до миллиардов параметров в размерах и стабильных диффуозных моделях, хранящихся в защищенных реестрах контейнеров.
  • Избегайте единой точки сбоя (SPOF) в конвейере с использованием нескольких упрощенных контейнеров, содержащих уникальные зависимости для каждой задачи вместо поддержания одного большого образа.
  • Храните большие наборы данных текста и изображения за пределами базового образа контейнера и ссылайтесь на них при необходимости во время выполнения.

Начните работу с оператором цепочки инструментов ИИ Kubernetes, чтобы развернуть высокопроизводительный LLM в AKS в течение нескольких минут.

Управление моделями и управление версиями

Управление моделями и управление версиями являются важными для отслеживания изменений в моделях с течением времени. С помощью управления версиями моделей можно:

  • Обеспечение согласованности между контейнерами модели для упрощения развертывания в разных средах.
  • Используйте эффективные методы точной настройки параметров (PEFT) для ускорения итерации подмножества весов модели и поддержания новых версий в упрощенных контейнерах.

Автоматизация

Автоматизация — это ключ к сокращению ошибок вручную, повышению эффективности и обеспечению согласованности в жизненном цикле машинного обучения. Автоматив задачи, вы можете:

  • Интеграция средств оповещений для автоматического активации потока приема векторов в качестве новых потоков данных в приложение.
  • Задайте пороговые значения производительности модели для отслеживания ухудшения состояния и запуска переобучения конвейеров.

Масштабируемость и управление ресурсами

Масштабируемость и управление ресурсами критически важны для обеспечения того, чтобы конвейер ИИ может обрабатывать требования приложения. Оптимизируя использование ресурсов, вы можете:

  • Интегрируйте средства, которые эффективно используют выделенные ресурсы ЦП, GPU и памяти с помощью распределенных вычислений и нескольких уровней параллелизма (например, данных, модели и параллелизма конвейера).
  • Включите автоматическое масштабирование вычислительных ресурсов для поддержки больших объемов запросов модели в пиковые периоды и уменьшения масштаба в нерабочие часы.
  • Как и в традиционных приложениях, планируйте аварийное восстановление, следуя рекомендациям по устойчивости и надежности AKS.

Безопасность и соответствие требованиям

Безопасность и соответствие являются критически важными для защиты данных и обеспечения соответствия конвейера искусственного интеллекта нормативным требованиям. Реализуя рекомендации по обеспечению безопасности и соответствия требованиям, вы можете:

  • Интеграция распространенных уязвимостей и сканирования уязвимостей (CVE) для обнаружения распространенных уязвимостей в образах контейнеров с открытым исходным кодом.
  • Сохраняйте путь аудита для приема данных, изменений модели и метрик, которые будут соответствовать вашим политикам организации.

Следующие шаги

Ознакомьтесь с рекомендациями по другим областям развертывания приложений и операций с AKS: