Teilen über


Kontingente und Grenzwerte für die Azure KI-Modellinferenz in Azure KI Services

Dieser Artikel enthält eine Kurzübersicht und eine detaillierte Beschreibung der Kontingente und Grenzwerte für Rückschlüsse des Azure KI-Modells in Azure KI Services. Kontingente und Grenzwerte, die spezifisch für Azure OpenAI Service sind, finden Sie unter Kontingente und Grenzwerte in Azure OpenAI Service.

Referenz zu Kontingenten und Grenzwerten

In den folgenden Abschnitten finden Sie eine Kurzanleitung zu den Standardkontingenten und Grenzwerten, die für den Rückschlussdienst von Azure KI-Modellen in Azure KI Services gelten:

Ressourceneinschränkungen

Limitname Wert des Grenzwerts
Azure KI Services-Ressourcen pro Region pro Azure-Abonnement 30
Maximale Bereitstellung pro Ressource 32

Ratenbegrenzungen

Limitname Wert des Grenzwerts
Token pro Minute (Azure OpenAI-Modelle) Variiert je nach Modell und SKU. Siehe Grenzwerte für Azure OpenAI.
Token pro Minute (restliche Modelle) 200.000
Anforderungen pro Minute (Azure OpenAI-Modelle) Variiert je nach Modell und SKU. Siehe Grenzwerte für Azure OpenAI.
Anforderungen pro Minute (restliche Modelle) 1,000

Andere Limits

Limitname Wert des Grenzwerts
Maximale Anzahl von benutzerdefinierten Headern in API-Anforderungen1 10

1 Unsere aktuellen APIs ermöglichen bis zu 10 benutzerdefinierte Header, die über die Pipeline übergeben und zurückgegeben werden. Wir haben festgestellt, dass einige Kunden diese Headeranzahl jetzt überschreiten, was zu HTTP 431-Fehlern führt. Für diese Fehler gibt es keine Lösung, außer das Kopfzeilenvolumen zu reduzieren. In zukünftigen API-Versionen werden keine benutzerdefinierten Header mehr übergeben. Es wird empfohlen, dass Kunden in zukünftigen Systemarchitekturen nicht von benutzerdefinierten Headern abhängen.

Verwendungsebenen

Globale Standardbereitstellungen verwenden die globale Azure-Infrastruktur und leiten Kundendatenverkehr dynamisch an das Rechenzentrum weiter, das die beste Verfügbarkeit für die Rückschlussanforderungen des Kunden bietet. Das ermöglicht eine konsistentere Wartezeit für Kunden mit geringem bis mittlerem Datenverkehr. Bei Kunden mit einer dauerhaft hohen Nutzung tritt möglicherweise eine höhere Variabilität der Antwortwartezeit auf.

Der Nutzungsgrenzwert bestimmt den Nutzungsgrad, über dem für Kunden möglicherweise eine höhere Variabilität der Antwortwartezeit auftritt. Die Nutzung eines Kunden ist pro Modell definiert und setzt sich aus der Gesamtanzahl der Token zusammen, die von einem bestimmten Mandanten durch alle Bereitstellungen in allen Abonnements und Regionen verbraucht werden.

Allgemeine bewährte Methoden, um innerhalb der Ratenbegrenzungen zu bleiben

Um Probleme im Zusammenhang mit der Ratenbegrenzung zu minimieren, empfiehlt sich folgende Methoden:

  • Implementieren Sie eine Wiederholungslogik in der Anwendung.
  • Vermeiden Sie plötzliche Änderungen bei der Arbeitsauslastung. Erhöhen Sie die Workload nach und nach.
  • Testen Sie verschiedene Lasterhöhungsmuster.
  • Erhöhen Sie das Ihrer Bereitstellung zugewiesene Kontingent. Verschieben Sie Kontingent bei Bedarf aus einer anderen Bereitstellung.

Anfordern von Erhöhungen der Standardkontingente und Grenzwerte

Anforderungen für Kontingenterhöhungen können pro Anforderung übermittelt und ausgewertet werden. Übermitteln Sie eine Serviceanfrage.

Nächste Schritte