Большие языковые модели (LLMs) в Databricks
Azure Databricks упрощает доступ к общедоступным крупным языковым моделям и их использование для дальнейшей разработки.
Databricks Runtime для машинного обучения включает такие библиотеки, как Hugging Face Transformers и LangChain, которые позволяют интегрировать существующие предварительно обученные модели или другие библиотеки с открытым исходным кодом в рабочий процесс. Здесь вы можете использовать возможности платформы Azure Databricks для точной настройки LLM с помощью собственных данных для повышения производительности домена.
Кроме того, Azure Databricks предлагает встроенные функциональные возможности для пользователей SQL, которые могут получить доступ и поэкспериментировать с LLMs, такими как Azure OpenAI и OpenAI, используя функции ИИ.
Тонкая настройка модели Foundation
Внимание
Эта функция предоставляется в режиме общедоступной предварительной версии. Обратитесь к группе учетной записи Databricks, чтобы зарегистрироваться в общедоступной предварительной версии.
Настройка базовой модели (в настоящее время часть Mosaic AI Model Training) — это простой интерфейс к стеку обучения Databricks для выполнения полной настройки модели.
Вы можете выполнить следующие действия с помощью тонкой настройки модели Foundation:
- Настройте модель с пользовательскими данными с контрольными точками, сохраненными в MLflow. Вы сохраняете полный контроль над точно настроенной моделью.
- Автоматически регистрируйте модель в каталоге Unity, что позволяет легко развертывать с помощью службы моделей.
- Точно настройте завершенную собственную модель, загрузив весы ранее настроенной модели.
Ознакомьтесь с тонкой настройкой модели Foundation.
Hugging Face Transformers
С помощью трансформеров Hugging Face на платформе Databricks вы можете масштабировать и расширять пакетные приложения для обработки естественного языка (NLP) и точно настраивать модели для приложений с крупными языковыми моделями.
Библиотека Hugging Face transformers
предустановлена на Databricks Runtime 10.4 LTS ML и выше. Многие популярные модели NLP лучше всего работают на оборудовании GPU, поэтому вы можете получить лучшую производительность с помощью недавнего оборудования GPU, если вы не используете модель, специально оптимизированную для использования на ЦП.
DSPy
DSPy автоматизирует настройку подсказки путем преобразования определяемых пользователем подписей естественного языка в полные инструкции и несколько примеров.
Примеры использования DSPy см. в разделе Создание генеративных ИИ приложений с помощью DSPy на Azure Databricks.
LangChain
LangChain доступен в качестве экспериментального варианта MLflow, который позволяет клиентам LangChain использовать мощные инструменты и возможности отслеживания экспериментов MLflow непосредственно из среды Azure Databricks.
LangChain — это платформа программного обеспечения, предназначенная для создания приложений, использующих большие языковые модели (LLM) и сочетающих их с внешними данными, чтобы обеспечить более широкий контекст обучения для ваших LLM.
Машинное обучение среды выполнения Databricks включается langchain
в Databricks Runtime 13.1 ML и более поздних версий.
Узнайте об интеграциях, специфичных для Databricks и LangChain.
Функции ИИ
Внимание
Эта функция предоставляется в режиме общедоступной предварительной версии.
Функции ИИ — это встроенные функции SQL, позволяющие пользователям SQL:
- Используйте API модели Databricks Foundation для выполнения различных задач в данных вашей компании.
- Доступ к внешним моделям, таким как GPT-4 из OpenAI, и экспериментируйте с ними.
- Запрашивайте модели, размещенные на конечных точках службы Mosaic AI Model Serving, с помощью SQL-запросов.