Поделиться через


Большие языковые модели (LLMs) в Databricks

Azure Databricks упрощает доступ к общедоступным крупным языковым моделям и их использование для дальнейшей разработки.

Databricks Runtime для машинного обучения включает такие библиотеки, как Hugging Face Transformers и LangChain, которые позволяют интегрировать существующие предварительно обученные модели или другие библиотеки с открытым исходным кодом в рабочий процесс. Здесь вы можете использовать возможности платформы Azure Databricks для точной настройки LLM с помощью собственных данных для повышения производительности домена.

Кроме того, Azure Databricks предлагает встроенные функциональные возможности для пользователей SQL, которые могут получить доступ и поэкспериментировать с LLMs, такими как Azure OpenAI и OpenAI, используя функции ИИ.

Тонкая настройка модели Foundation

Внимание

Эта функция предоставляется в режиме общедоступной предварительной версии. Обратитесь к группе учетной записи Databricks, чтобы зарегистрироваться в общедоступной предварительной версии.

Настройка базовой модели (в настоящее время часть Mosaic AI Model Training) — это простой интерфейс к стеку обучения Databricks для выполнения полной настройки модели.

Вы можете выполнить следующие действия с помощью тонкой настройки модели Foundation:

  • Настройте модель с пользовательскими данными с контрольными точками, сохраненными в MLflow. Вы сохраняете полный контроль над точно настроенной моделью.
  • Автоматически регистрируйте модель в каталоге Unity, что позволяет легко развертывать с помощью службы моделей.
  • Точно настройте завершенную собственную модель, загрузив весы ранее настроенной модели.

Ознакомьтесь с тонкой настройкой модели Foundation.

Hugging Face Transformers

С помощью трансформеров Hugging Face на платформе Databricks вы можете масштабировать и расширять пакетные приложения для обработки естественного языка (NLP) и точно настраивать модели для приложений с крупными языковыми моделями.

Библиотека Hugging Face transformers предустановлена на Databricks Runtime 10.4 LTS ML и выше. Многие популярные модели NLP лучше всего работают на оборудовании GPU, поэтому вы можете получить лучшую производительность с помощью недавнего оборудования GPU, если вы не используете модель, специально оптимизированную для использования на ЦП.

DSPy

DSPy автоматизирует настройку подсказки путем преобразования определяемых пользователем подписей естественного языка в полные инструкции и несколько примеров.

Примеры использования DSPy см. в разделе Создание генеративных ИИ приложений с помощью DSPy на Azure Databricks.

LangChain

LangChain доступен в качестве экспериментального варианта MLflow, который позволяет клиентам LangChain использовать мощные инструменты и возможности отслеживания экспериментов MLflow непосредственно из среды Azure Databricks.

LangChain — это платформа программного обеспечения, предназначенная для создания приложений, использующих большие языковые модели (LLM) и сочетающих их с внешними данными, чтобы обеспечить более широкий контекст обучения для ваших LLM.

Машинное обучение среды выполнения Databricks включается langchain в Databricks Runtime 13.1 ML и более поздних версий.

Узнайте об интеграциях, специфичных для Databricks и LangChain.

Функции ИИ

Внимание

Эта функция предоставляется в режиме общедоступной предварительной версии.

Функции ИИ — это встроенные функции SQL, позволяющие пользователям SQL:

  • Используйте API модели Databricks Foundation для выполнения различных задач в данных вашей компании.
  • Доступ к внешним моделям, таким как GPT-4 из OpenAI, и экспериментируйте с ними.
  • Запрашивайте модели, размещенные на конечных точках службы Mosaic AI Model Serving, с помощью SQL-запросов.