Кэширование запросов
Кэширование запросов позволяет сократить общую задержку запроса и затраты на более длинные запросы, имеющие идентичное содержимое в начале запроса. "Запрос" в этом контексте ссылается на входные данные, которые вы отправляете модели в рамках запроса завершения чата. Вместо повторной обработки одинаковых входных маркеров снова и снова служба может сохранить временный кэш обработанных вычислений входных маркеров для повышения общей производительности. Кэширование запросов не влияет на выходное содержимое, возвращаемое в ответе модели, за пределами сокращения задержки и затрат. Для поддерживаемых моделей кэшированные маркеры выставляются со скидкой на цены на входные маркеры для типов развертывания Standard и до 100 % скидки на входные маркеры для подготовленных типов развертывания.
Кэши обычно очищаются в течение 5–10 минут бездействия и всегда удаляются в течение одного часа последнего использования кэша. Кэши запросов не совместно используются между подписками Azure.
Поддерживаемые модели
В настоящее время только следующие модели поддерживают кэширование запросов с помощью Azure OpenAI:
o1-2024-12-17
o1-preview-2024-09-12
o1-mini-2024-09-12
gpt-4o-2024-11-20
gpt-4o-2024-08-06
gpt-4o-mini-2024-07-18
-
gpt-4o-realtime-preview
(версия 2024-12-17) -
gpt-4o-mini-realtime-preview
(версия 2024-12-17)
Примечание.
Кэширование запросов теперь также доступно в рамках тонкой настройки модели и gpt-4o
gpt-4o-mini
. Дополнительные сведения см. в разделе подробной настройки страницы цен.
поддержка API
Официальная поддержка кэширования запросов была добавлена в версию 2024-10-01-preview
API. В настоящее время только семейство моделей o1 поддерживает cached_tokens
параметр ответа API.
Начало работы
Чтобы запрос воспользовался кэшированием запроса, должен быть как:
- Длина не менее 1024 токенов.
- Первые 1024 токенов в запросе должны быть идентичными.
При обнаружении совпадения между вычислениями маркеров в запросе и текущим содержимым кэша запросов он называется хитом кэша. Хиты кэша будут отображаться в cached_tokens
prompt_tokens_details
ответе завершения чата.
{
"created": 1729227448,
"model": "o1-preview-2024-09-12",
"object": "chat.completion",
"service_tier": null,
"system_fingerprint": "fp_50cdd5dc04",
"usage": {
"completion_tokens": 1518,
"prompt_tokens": 1566,
"total_tokens": 3084,
"completion_tokens_details": {
"audio_tokens": null,
"reasoning_tokens": 576
},
"prompt_tokens_details": {
"audio_tokens": null,
"cached_tokens": 1408
}
}
}
После первых попаданий кэша маркеров 1024 будет выполняться каждые 128 дополнительных идентичных токенов.
Одно символьное различие в первых 1024 токенах приведет к пропуску кэша, который характеризуется cached_tokens
значением 0. Кэширование запросов включено по умолчанию без дополнительной конфигурации, необходимой для поддерживаемых моделей.
Что кэшируется?
Поддержка функций моделей o1 серии зависит от модели. Дополнительные сведения см. в руководстве по выделенным моделям причин.
Кэширование запросов поддерживается для следующих вариантов:
Поддерживается кэширование | Description | Поддерживаемые модели |
---|---|---|
Сообщения | Полный массив сообщений: системное, разработчик, пользователь и помощник содержимое | gpt-4o gpt-4o-mini gpt-4o-realtime-preview (версия 2024-12-17)gpt-4o-mini-realtime-preview (версия 2024-12-17)o1 (версия 2024-12-17) |
Изображения | Изображения, включенные в сообщения пользователя, как ссылки, так и данные в кодировке Base64. Параметр сведений должен быть задан одинаково в запросах. | gpt-4o gpt-4o-mini o1 (версия 2024-12-17) |
Использование инструмента | Как массив сообщений, так и определения инструментов. | gpt-4o gpt-4o-mini gpt-4o-realtime-preview (версия 2024-12-17)gpt-4o-mini-realtime-preview (версия 2024-12-17)o1 (версия 2024-12-17) |
Структурированные выходные данные | Структурированная выходная схема добавляется в виде префикса к системному сообщению. | gpt-4o gpt-4o-mini o1 (версия 2024-12-17) |
Чтобы повысить вероятность возникновения попаданий в кэш, следует структурировать запросы таким образом, чтобы повторяющееся содержимое произошло в начале массива сообщений.
Можно ли отключить кэширование запросов?
Кэширование запросов по умолчанию включено для всех поддерживаемых моделей. Поддержка кэширования запросов не поддерживается.