Kontingente und Grenzwerte für die Azure KI-Modellinferenz in Azure KI Services
Dieser Artikel enthält eine Kurzübersicht und eine detaillierte Beschreibung der Kontingente und Grenzwerte für Rückschlüsse des Azure KI-Modells in Azure KI Services. Kontingente und Grenzwerte, die spezifisch für Azure OpenAI Service sind, finden Sie unter Kontingente und Grenzwerte in Azure OpenAI Service.
Referenz zu Kontingenten und Grenzwerten
In den folgenden Abschnitten finden Sie eine Kurzanleitung zu den Standardkontingenten und Grenzwerten, die für den Rückschlussdienst von Azure KI-Modellen in Azure KI Services gelten:
Ressourceneinschränkungen
Limitname | Wert des Grenzwerts |
---|---|
Azure KI Services-Ressourcen pro Region pro Azure-Abonnement | 30 |
Maximale Bereitstellung pro Ressource | 32 |
Ratenbegrenzungen
Limitname | Wert des Grenzwerts |
---|---|
Token pro Minute (Azure OpenAI-Modelle) | Variiert je nach Modell und SKU. Siehe Grenzwerte für Azure OpenAI. |
Token pro Minute (restliche Modelle) | 200.000 |
Anforderungen pro Minute (Azure OpenAI-Modelle) | Variiert je nach Modell und SKU. Siehe Grenzwerte für Azure OpenAI. |
Anforderungen pro Minute (restliche Modelle) | 1,000 |
Andere Limits
Limitname | Wert des Grenzwerts |
---|---|
Maximale Anzahl von benutzerdefinierten Headern in API-Anforderungen1 | 10 |
1 Unsere aktuellen APIs ermöglichen bis zu 10 benutzerdefinierte Header, die über die Pipeline übergeben und zurückgegeben werden. Wir haben festgestellt, dass einige Kunden diese Headeranzahl jetzt überschreiten, was zu HTTP 431-Fehlern führt. Für diese Fehler gibt es keine Lösung, außer das Kopfzeilenvolumen zu reduzieren. In zukünftigen API-Versionen werden keine benutzerdefinierten Header mehr übergeben. Es wird empfohlen, dass Kunden in zukünftigen Systemarchitekturen nicht von benutzerdefinierten Headern abhängen.
Verwendungsebenen
Globale Standardbereitstellungen verwenden die globale Azure-Infrastruktur und leiten Kundendatenverkehr dynamisch an das Rechenzentrum weiter, das die beste Verfügbarkeit für die Rückschlussanforderungen des Kunden bietet. Das ermöglicht eine konsistentere Wartezeit für Kunden mit geringem bis mittlerem Datenverkehr. Bei Kunden mit einer dauerhaft hohen Nutzung tritt möglicherweise eine höhere Variabilität der Antwortwartezeit auf.
Der Nutzungsgrenzwert bestimmt den Nutzungsgrad, über dem für Kunden möglicherweise eine höhere Variabilität der Antwortwartezeit auftritt. Die Nutzung eines Kunden ist pro Modell definiert und setzt sich aus der Gesamtanzahl der Token zusammen, die von einem bestimmten Mandanten durch alle Bereitstellungen in allen Abonnements und Regionen verbraucht werden.
Allgemeine bewährte Methoden, um innerhalb der Ratenbegrenzungen zu bleiben
Um Probleme im Zusammenhang mit der Ratenbegrenzung zu minimieren, empfiehlt sich folgende Methoden:
- Implementieren Sie eine Wiederholungslogik in der Anwendung.
- Vermeiden Sie plötzliche Änderungen bei der Arbeitsauslastung. Erhöhen Sie die Workload nach und nach.
- Testen Sie verschiedene Lasterhöhungsmuster.
- Erhöhen Sie das Ihrer Bereitstellung zugewiesene Kontingent. Verschieben Sie Kontingent bei Bedarf aus einer anderen Bereitstellung.
Anfordern von Erhöhungen der Standardkontingente und Grenzwerte
Anforderungen für Kontingenterhöhungen können pro Anforderung übermittelt und ausgewertet werden. Übermitteln Sie eine Serviceanfrage.
Nächste Schritte
- Weitere Informationen zu den im Azure KI-Modellinferenzdienst verfügbaren Modellen