Azure API Management'ta yapay zeka ağ geçidi özelliklerine genel bakış

Makale
10/01/2024

UYGULANANLAR: Tüm API Management katmanları

Bu makalede, Azure OpenAI Hizmeti tarafından sağlanan yapay zeka API'leri gibi üretken yapay zeka API'lerini yönetmenize yardımcı olacak Azure API Management özellikleri sunulmaktadır. Azure API Management, akıllı uygulamalarınıza hizmet veren API'ler için güvenlik, performans ve güvenilirliği artırmak için çeşitli ilkeler, ölçümler ve diğer özellikler sağlar. Bu özellikler, üretken yapay zeka API'leriniz için toplu olarak üretken yapay zeka (GenAI) ağ geçidi özellikleri olarak adlandırılır.

Not

Bu makale, Azure OpenAI Hizmeti tarafından kullanıma sunulan API'leri yönetme özelliklerine odaklanır. GenAI ağ geçidi özelliklerinin çoğu, Azure AI Model Çıkarım API'si aracılığıyla sağlananlar da dahil olmak üzere diğer büyük dil modeli (LLM) API'leri için geçerlidir.
Üretken yapay zeka ağ geçidi özellikleri, AYRı bir API ağ geçidi değil API Management'ın mevcut API ağ geçidinin özellikleridir. API Management hakkında daha fazla bilgi için bkz . Azure API Management'a genel bakış.

Üretken yapay zeka API'lerini yönetme zorlukları

Üretici yapay zeka hizmetlerinde sahip olduğunuz ana kaynaklardan biri belirteçlerdir. Azure OpenAI Hizmeti, model dağıtımlarınız için dakika başına belirteçlerle (TPM) ifade edilen kota atar. Bu kota, model tüketicilerinize (örneğin, farklı uygulamalar, geliştirici ekipleri, şirket içindeki departmanlar vb.) dağıtılır.

Azure, tek bir uygulamayı Azure OpenAI Hizmetine bağlamayı kolaylaştırır: Doğrudan model dağıtım düzeyinde yapılandırılmış TPM sınırına sahip bir API anahtarı kullanarak doğrudan bağlanabilirsiniz. Ancak, uygulama portföyünüzü büyütmeye başladığınızda, kullandıkça öde veya Sağlanan Aktarım Hızı Birimleri (PTU) örnekleri olarak dağıtılan tek veya hatta birden çok Azure OpenAI Hizmeti uç noktasını çağıran birden çok uygulama sunulur. Bu bazı zorluklarla birlikte gelir:

Belirteç kullanımı birden çok uygulamada nasıl izlenir? Azure OpenAI Hizmeti modellerini kullanan birden çok uygulama/ekip için çapraz ücretler hesaplanabilir mi?
Tek bir uygulamanın TÜM TPM kotasını tüketmediğinden ve diğer uygulamalarda Azure OpenAI Hizmeti modellerini kullanma seçeneği kalmadığından nasıl emin olursunuz?
API anahtarı birden çok uygulamaya nasıl güvenli bir şekilde dağıtılır?
Yük birden çok Azure OpenAI uç noktasına nasıl dağıtılır? Kullandıkça öde örneklerine geri dönmeden önce PTU'lardaki taahhüt edilen kapasitenin tükendiğinden emin olabilir misiniz?

Bu makalenin geri kalanında Azure API Management'ın bu zorlukları gidermenize nasıl yardımcı olabileceği açıklanmaktadır.

Azure OpenAI Hizmeti kaynağını API olarak içeri aktarma

Tek tıklama deneyimi kullanarak bir Azure OpenAI Hizmeti uç noktasından Azure API yönetimine BIR API içeri aktarabilirsiniz. API Management, Azure OpenAI API'si için OpenAPI şemasını otomatik olarak içeri aktararak ekleme işlemini kolaylaştırır ve yönetilen kimlik kullanarak Azure OpenAI uç noktasına kimlik doğrulaması ayarlayarak el ile yapılandırma gereksinimini ortadan kaldırır. Aynı kullanıcı dostu deneyimde, belirteç sınırları için ilkeleri önceden yapılandırabilir ve belirteç ölçümlerini yayabilirsiniz.

Portaldaki Azure OpenAI API kutucuğunun ekran görüntüsü.

Belirteç sınırı ilkesi

Azure OpenAI Hizmet belirteçlerinin kullanımına göre API tüketicisi başına sınırları yönetmek ve zorunlu kılmak için Azure OpenAI belirteç sınırı ilkesini yapılandırın. Bu ilkeyle dakika başına belirteç (TPM) ile ifade edilen sınırlar ayarlayabilirsiniz.

API Management'ta Azure OpenAI Hizmeti belirteçlerini sınırlama diyagramı.

Bu ilke, abonelik anahtarı, kaynak IP adresi veya bir ilke ifadesi aracılığıyla tanımlanan rastgele anahtar gibi herhangi bir sayaç anahtarına belirteç tabanlı sınırlar atama esnekliği sağlar. İlke ayrıca Azure API Management tarafında istem belirteçlerinin önceden hesaplanmasına olanak sağlayarak, istem zaten sınırı aşarsa Azure OpenAI Hizmeti arka ucuna yönelik gereksiz istekleri en aza indirir.

Aşağıdaki temel örnekte abonelik anahtarı başına 500 TPM sınırının nasıl ayarlanacağı gösterilmektedir:

<azure-openai-token-limit counter-key="@(context.Subscription.Id)" 
    tokens-per-minute="500" estimate-prompt-tokens="false" remaining-tokens-variable-name="remainingTokens">
</azure-openai-token-limit>

İpucu

Azure AI Model Çıkarım API'sinde kullanılabilen LLM API'lerinin belirteç sınırlarını yönetmek ve zorunlu kılmak için API Management eşdeğer llm-token-limit ilkesini sağlar.

Belirteç ölçüm ilkesini yayma

Azure OpenAI yayma belirteci ölçüm ilkesi, Azure OpenAI Hizmeti API'leri aracılığıyla LLM belirteçlerinin tüketimiyle ilgili ölçümleri Application Insights'a gönderir. İlke, birden çok uygulama veya API tüketicisi arasında Azure OpenAI Hizmeti modellerinin kullanımına genel bir bakış sağlamaya yardımcı olur. Bu ilke geri ödeme senaryoları, izleme ve kapasite planlaması için yararlı olabilir.

API Management kullanarak Azure OpenAI Hizmeti belirteci ölçümlerini yayma diyagramı.

Bu ilke, istem, tamamlamalar ve toplam belirteç kullanım ölçümlerini yakalar ve bunları seçtiğiniz bir Application Insights ad alanına gönderir. Ayrıca, belirteç kullanım ölçümlerini bölmek için önceden tanımlanmış boyutları yapılandırabilir veya seçebilirsiniz; böylece ölçümleri abonelik kimliğine, IP adresine veya tercih ettiğiniz özel bir boyuta göre analiz edebilirsiniz.

Örneğin, aşağıdaki ilke application insights'a istemci IP adresine, API'ye ve kullanıcıya göre bölünmüş ölçümler gönderir:

<azure-openai-emit-token-metric namespace="openai">
    <dimension name="Client IP" value="@(context.Request.IpAddress)" />
    <dimension name="API ID" value="@(context.Api.Id)" />
    <dimension name="User ID" value="@(context.Request.Headers.GetValueOrDefault("x-user-id", "N/A"))" />
</azure-openai-emit-token-metric>

İpucu

AZURE AI Model Çıkarım API'sinde kullanılabilen LLM API'lerine yönelik ölçümleri göndermek için API Management eşdeğer llm-emit-token-metric ilkesini sağlar.

Arka uç yük dengeleyici ve devre kesici

Akıllı uygulamalar oluştururken karşılaşılan zorluklardan biri, uygulamaların arka uç hatalarına dayanıklı olduğundan ve yüksek yükleri işleyebileceğinden emin olmaktır. Azure OpenAI Hizmeti uç noktalarınızı Azure API Management'taki arka uçları kullanarak yapılandırarak, yükleri bunlar arasında dengeleyebilirsiniz. Yanıt vermedikleri takdirde isteklerin Azure OpenAI Hizmeti arka uçlarına iletilmesine son vermek için devre kesici kuralları da tanımlayabilirsiniz.

Arka uç yük dengeleyici hepsini bir kez deneme, ağırlıklı ve öncelik tabanlı yük dengelemeyi destekler ve size özel gereksinimlerinizi karşılayan bir yük dağıtım stratejisi tanımlama esnekliği sağlar. Örneğin, belirli Azure OpenAI uç noktalarının ,özellikle DETU olarak satın alınanların en iyi şekilde kullanımını sağlamak için yük dengeleyici yapılandırmasında öncelikleri tanımlayın.

API Management'ta arka uç yük dengelemeyi kullanma diyagramı.

Arka uç devre kesicisi, arka uç tarafından sağlanan Yeniden Deneme Sonrası üst bilgisinden değerleri uygulayan dinamik yolculuk süresine sahiptir. Bu, öncelik arka uçlarınızın kullanımını en üst düzeye çıkararak arka uçların kesin ve zamanında kurtarılmasını sağlar.

API Management'ta arka uç devre kesici kullanma diyagramı.

Anlamsal önbelleğe alma ilkesi

Benzer istemler için tamamlamaları depolayarak belirteç kullanımını iyileştirmek için Azure OpenAI semantik önbelleğe alma ilkelerini yapılandırın.

API Management'ta anlamsal önbelleğe alma diyagramı.

API Management'ta Azure Redis Enterprise'ı veya RediSearch ile uyumlu ve Azure API Management'a eklenen başka bir dış önbelleği kullanarak anlamsal önbelleğe almayı etkinleştirin. Azure OpenAI Hizmeti Embeddings API'sini kullanarak azure-openai-semantic-cache-store ve azure-openai-semantic-cache-lookup ilkeleri depolanır ve önbellekten benzer istem tamamlamaları alınır. Bu yaklaşım, tamamlanmaların yeniden kullanılmasını sağlayarak belirteç tüketiminin azalmasına ve yanıt performansının iyileştirilmesine neden olabilir.

İpucu

AZURE AI Model Çıkarım API'sinde kullanılabilen LLM API'leri için anlamsal önbelleğe almayı etkinleştirmek için API Management eşdeğer llm-semantic-cache-store-policy ve llm-semantic-cache-lookup-policy ilkelerini sağlar.

Aracılığıyla paylaş

Azure API Management'ta yapay zeka ağ geçidi özelliklerine genel bakış

Üretken yapay zeka API'lerini yönetme zorlukları

Azure OpenAI Hizmeti kaynağını API olarak içeri aktarma

Belirteç sınırı ilkesi

Belirteç ölçüm ilkesini yayma

Arka uç yük dengeleyici ve devre kesici

Anlamsal önbelleğe alma ilkesi

Laboratuvarlar ve örnekler

Mimari ve tasarımla ilgili dikkat edilmesi gerekenler

Geri Bildirim

Ek kaynaklar

Aracılığıyla paylaş

Azure API Management'ta yapay zeka ağ geçidi özelliklerine genel bakış

Üretken yapay zeka API'lerini yönetme zorlukları

Azure OpenAI Hizmeti kaynağını API olarak içeri aktarma

Belirteç sınırı ilkesi

Belirteç ölçüm ilkesini yayma

Arka uç yük dengeleyici ve devre kesici

Anlamsal önbelleğe alma ilkesi

Laboratuvarlar ve örnekler

Mimari ve tasarımla ilgili dikkat edilmesi gerekenler

İlgili içerik

Geri Bildirim

Ek kaynaklar