Tokenbeheer

5 minuten

Stel dat u een plotselinge piek krijgt in het verkeer naar uw API, misschien is er een verkoop of een andere reden. Om te voorkomen dat het verbruik wordt overschreden en mogelijke serviceonderbrekingen, moet u erachter komen hoe u dat kunt beheren.

Azure OpenAI-tokenlimietbeleid

Zoals vermeld in het begin van deze eenheid, is plotselinge piek iets, moet u afhandelen. Het goede nieuws is dat Azure API Management iets heeft met de naam Token Limit Policy.

Met dit beleid kunnen klanten limieten instellen voor tokenverbruik, uitgedrukt in tokens per minuut (TPM) en zorgen voor een eerlijk en efficiënt gebruik van OpenAI-resources.

Belangrijkste functies

De belangrijkste functies van dit beleid zijn:

Nauwkeurig beheer: klanten kunnen tokenlimieten toewijzen op basis van verschillende prestatiesleutels, zoals abonnementssleutel of IP-adres, waarbij de afdwinging wordt aangepast aan specifieke use cases.
Realtime-bewaking: het beleid is afhankelijk van metrische gegevens over tokengebruik die worden geretourneerd door het OpenAI-eindpunt, waardoor nauwkeurige bewaking en afdwinging van limieten in realtime mogelijk is.
Vooraf berekenen van tokens: hiermee kunnen prompttokens vooraf worden berekend aan de kant van Azure API Management, waardoor onnodige aanvragen naar de OpenAI-back-end worden geminimaliseerd als de limiet al is overschreden.
Verbeterde aanpassing: klanten kunnen headers en variabelen toepassen, zoals tokens die worden gebruikt en resterende tokens binnen beleidsregels voor betere controle en aanpassing.

Ss die u kunt zien, er zijn nogal wat functies die u helpen bij het beheren van kosten en dankzij de realtime bewaking kunt u ervoor zorgen dat u niet de limieten overschrijdt.

Het gebruik ervan

Als u dit beleid wilt gebruiken, moet u dit toevoegen aan de pijplijn voor binnenkomende verwerking van de API-bewerking. U kunt dit als volgt doen:

<azure-openai-token-limit counter-key="key value"
        tokens-per-minute="number"
        estimate-prompt-tokens="true | false"    
        retry-after-header-name="custom header name, replaces default 'Retry-After'" 
        retry-after-variable-name="policy expression variable name"
        remaining-tokens-header-name="header name"  
        remaining-tokens-variable-name="policy expression variable name"
        tokens-consumed-header-name="header name"
        tokens-consumed-variable-name="policy expression variable name" />

Er zijn nogal wat kenmerken die u kunt instellen, maar de belangrijkste kenmerken zijn:

counter-key: de sleutel die moet worden gebruikt voor het tellen van tokens. Deze waarde kan een abonnementssleutel of een IP-adres zijn.
tokens per minuut: het aantal tokens dat per minuut is toegestaan.
estimate-prompt-tokens: geeft aan of prompttokens al dan niet moeten worden geschat.

Metrische tokenbeleid voor Azure OpenAI verzenden

Dit beleid biedt een oplossing voor gedetailleerde bewaking en analyse van tokengebruik in toepassingen met behulp van Azure OpenAI-modellen.

Door uitgebreide metrische gegevens te bieden, kunnen organisaties het volgende doen:

Resourcetoewijzing optimaliseren: het tokenverbruik effectief begrijpen en beheren.
Besluitvorming verbeteren: krijg inzicht in gebruikspatronen om weloverwogen beslissingen te nemen over schalen en resourcebeheer.
Prestatiebewaking verbeteren: tokengebruik bijhouden en analyseren om potentiële problemen proactief te identificeren en op te lossen

Metrische tokenbeleid verzenden gebruiken

Als u dit beleid wilt gebruiken, moet u dit toevoegen aan de pijplijn voor binnenkomende verwerking van de API-bewerking. U kunt deze als volgt coderen in XML:

<azure-openai-emit-token-metric
        namespace="metric namespace" >      
        <dimension name="dimension name" value="dimension value" />
        ...additional dimensions...
</azure-openai-emit-token-metric>

Hier volgt een voorbeeld met verschillende dimensies:

<policies>
  <inbound>
      <azure-openai-emit-token-metric
            namespace="AzureOpenAI">   
            <dimension name="User ID" />
            <dimension name="Client IP" value="@(context.Request.IpAddress)" />
            <dimension name="API ID" />
        </azure-openai-emit-token-metric> 
  </inbound>
  <outbound>
  </outbound>
</policies>

In het voorgaande voorbeeld:

het beleid is geconfigureerd voor het verzenden van metrische tokengegevens naar de AzureOpenAI-naamruimte met dimensies voor gebruikers-id, client-IP en API-id.
De waarde van de client-IP-dimensie is ingesteld op het IP-adres van de client die de aanvraag indient.

Stel dat u deze metrische gegevens kunt weergeven in een dashboard en dat u het gebruik van uw API in realtime kunt bewaken. U kunt bijvoorbeeld zien hoeveel tokens worden gebruikt door een specifieke gebruiker of hoeveel tokens worden gebruikt door een specifieke API. Deze krachtige functie waarmee u uw resources kunt optimaliseren en weloverwogen beslissingen kunt nemen over schalen en resourcebeheer.