Кэширование запросов

Мақала
02/25/2025

Кэширование запросов позволяет сократить общую задержку запроса и затраты на более длинные запросы, имеющие идентичное содержимое в начале запроса. "Запрос" в этом контексте ссылается на входные данные, которые вы отправляете модели в рамках запроса завершения чата. Вместо повторной обработки одинаковых входных маркеров снова и снова служба может сохранить временный кэш обработанных вычислений входных маркеров для повышения общей производительности. Кэширование запросов не влияет на выходное содержимое, возвращаемое в ответе модели, за пределами сокращения задержки и затрат. Для поддерживаемых моделей кэшированные маркеры выставляются со скидкой на цены на входные маркеры для типов развертывания Standard и до 100 % скидки на входные маркеры для подготовленных типов развертывания.

Кэши обычно очищаются в течение 5–10 минут бездействия и всегда удаляются в течение одного часа последнего использования кэша. Кэши запросов не совместно используются между подписками Azure.

Поддерживаемые модели

В настоящее время только следующие модели поддерживают кэширование запросов с помощью Azure OpenAI:

o1-2024-12-17
o1-preview-2024-09-12
o1-mini-2024-09-12
gpt-4o-2024-11-20
gpt-4o-2024-08-06
gpt-4o-mini-2024-07-18
gpt-4o-realtime-preview (версия 2024-12-17)
gpt-4o-mini-realtime-preview (версия 2024-12-17)

Примечание.

Кэширование запросов теперь также доступно в рамках тонкой настройки модели и gpt-4ogpt-4o-mini. Дополнительные сведения см. в разделе подробной настройки страницы цен.

поддержка API

Официальная поддержка кэширования запросов была добавлена в версию 2024-10-01-previewAPI. В настоящее время только семейство моделей o1 поддерживает cached_tokens параметр ответа API.

Начало работы

Чтобы запрос воспользовался кэшированием запроса, должен быть как:

Длина не менее 1024 токенов.
Первые 1024 токенов в запросе должны быть идентичными.

При обнаружении совпадения между вычислениями маркеров в запросе и текущим содержимым кэша запросов он называется хитом кэша. Хиты кэша будут отображаться в cached_tokensprompt_tokens_details ответе завершения чата.

{
  "created": 1729227448,
  "model": "o1-preview-2024-09-12",
  "object": "chat.completion",
  "service_tier": null,
  "system_fingerprint": "fp_50cdd5dc04",
  "usage": {
    "completion_tokens": 1518,
    "prompt_tokens": 1566,
    "total_tokens": 3084,
    "completion_tokens_details": {
      "audio_tokens": null,
      "reasoning_tokens": 576
    },
    "prompt_tokens_details": {
      "audio_tokens": null,
      "cached_tokens": 1408
    }
  }
}

После первых попаданий кэша маркеров 1024 будет выполняться каждые 128 дополнительных идентичных токенов.

Одно символьное различие в первых 1024 токенах приведет к пропуску кэша, который характеризуется cached_tokens значением 0. Кэширование запросов включено по умолчанию без дополнительной конфигурации, необходимой для поддерживаемых моделей.

Что кэшируется?

Поддержка функций моделей o1 серии зависит от модели. Дополнительные сведения см. в руководстве по выделенным моделям причин.

Кэширование запросов поддерживается для следующих вариантов:

Поддерживается кэширование	Description	Поддерживаемые модели
Сообщения	Полный массив сообщений: системное, разработчик, пользователь и помощник содержимое	`gpt-4o` `gpt-4o-mini` `gpt-4o-realtime-preview` (версия 2024-12-17) `gpt-4o-mini-realtime-preview` (версия 2024-12-17) `o1` (версия 2024-12-17)
Изображения	Изображения, включенные в сообщения пользователя, как ссылки, так и данные в кодировке Base64. Параметр сведений должен быть задан одинаково в запросах.	`gpt-4o` `gpt-4o-mini` `o1` (версия 2024-12-17)
Использование инструмента	Как массив сообщений, так и определения инструментов.	`gpt-4o` `gpt-4o-mini` `gpt-4o-realtime-preview` (версия 2024-12-17) `gpt-4o-mini-realtime-preview` (версия 2024-12-17) `o1` (версия 2024-12-17)
Структурированные выходные данные	Структурированная выходная схема добавляется в виде префикса к системному сообщению.	`gpt-4o` `gpt-4o-mini` `o1` (версия 2024-12-17)

Чтобы повысить вероятность возникновения попаданий в кэш, следует структурировать запросы таким образом, чтобы повторяющееся содержимое произошло в начале массива сообщений.

Можно ли отключить кэширование запросов?

Кэширование запросов по умолчанию включено для всех поддерживаемых моделей. Поддержка кэширования запросов не поддерживается.

Бөлісу құралы: