Azure API Management'ta yapay zeka ağ geçidi özelliklerine genel bakış
UYGULANANLAR: Tüm API Management katmanları
Bu makalede, Azure OpenAI Hizmeti tarafından sağlanan yapay zeka API'leri gibi üretken yapay zeka API'lerini yönetmenize yardımcı olacak Azure API Management özellikleri sunulmaktadır. Azure API Management, akıllı uygulamalarınıza hizmet veren API'ler için güvenlik, performans ve güvenilirliği artırmak için çeşitli ilkeler, ölçümler ve diğer özellikler sağlar. Bu özellikler, üretken yapay zeka API'leriniz için toplu olarak üretken yapay zeka (GenAI) ağ geçidi özellikleri olarak adlandırılır.
Not
- Bu makale, Azure OpenAI Hizmeti tarafından kullanıma sunulan API'leri yönetme özelliklerine odaklanır. GenAI ağ geçidi özelliklerinin çoğu, Azure AI Model Çıkarım API'si aracılığıyla sağlananlar da dahil olmak üzere diğer büyük dil modeli (LLM) API'leri için geçerlidir.
- Üretken yapay zeka ağ geçidi özellikleri, AYRı bir API ağ geçidi değil API Management'ın mevcut API ağ geçidinin özellikleridir. API Management hakkında daha fazla bilgi için bkz . Azure API Management'a genel bakış.
Üretken yapay zeka API'lerini yönetme zorlukları
Üretici yapay zeka hizmetlerinde sahip olduğunuz ana kaynaklardan biri belirteçlerdir. Azure OpenAI Hizmeti, model dağıtımlarınız için dakika başına belirteçlerle (TPM) ifade edilen kota atar. Bu kota, model tüketicilerinize (örneğin, farklı uygulamalar, geliştirici ekipleri, şirket içindeki departmanlar vb.) dağıtılır.
Azure, tek bir uygulamayı Azure OpenAI Hizmetine bağlamayı kolaylaştırır: Doğrudan model dağıtım düzeyinde yapılandırılmış TPM sınırına sahip bir API anahtarı kullanarak doğrudan bağlanabilirsiniz. Ancak, uygulama portföyünüzü büyütmeye başladığınızda, kullandıkça öde veya Sağlanan Aktarım Hızı Birimleri (PTU) örnekleri olarak dağıtılan tek veya hatta birden çok Azure OpenAI Hizmeti uç noktasını çağıran birden çok uygulama sunulur. Bu bazı zorluklarla birlikte gelir:
- Belirteç kullanımı birden çok uygulamada nasıl izlenir? Azure OpenAI Hizmeti modellerini kullanan birden çok uygulama/ekip için çapraz ücretler hesaplanabilir mi?
- Tek bir uygulamanın TÜM TPM kotasını tüketmediğinden ve diğer uygulamalarda Azure OpenAI Hizmeti modellerini kullanma seçeneği kalmadığından nasıl emin olursunuz?
- API anahtarı birden çok uygulamaya nasıl güvenli bir şekilde dağıtılır?
- Yük birden çok Azure OpenAI uç noktasına nasıl dağıtılır? Kullandıkça öde örneklerine geri dönmeden önce PTU'lardaki taahhüt edilen kapasitenin tükendiğinden emin olabilir misiniz?
Bu makalenin geri kalanında Azure API Management'ın bu zorlukları gidermenize nasıl yardımcı olabileceği açıklanmaktadır.
Azure OpenAI Hizmeti kaynağını API olarak içeri aktarma
Tek tıklama deneyimi kullanarak bir Azure OpenAI Hizmeti uç noktasından Azure API yönetimine BIR API içeri aktarabilirsiniz. API Management, Azure OpenAI API'si için OpenAPI şemasını otomatik olarak içeri aktararak ekleme işlemini kolaylaştırır ve yönetilen kimlik kullanarak Azure OpenAI uç noktasına kimlik doğrulaması ayarlayarak el ile yapılandırma gereksinimini ortadan kaldırır. Aynı kullanıcı dostu deneyimde, belirteç sınırları için ilkeleri önceden yapılandırabilir ve belirteç ölçümlerini yayabilirsiniz.
Belirteç sınırı ilkesi
Azure OpenAI Hizmet belirteçlerinin kullanımına göre API tüketicisi başına sınırları yönetmek ve zorunlu kılmak için Azure OpenAI belirteç sınırı ilkesini yapılandırın. Bu ilkeyle dakika başına belirteç (TPM) ile ifade edilen sınırlar ayarlayabilirsiniz.
Bu ilke, abonelik anahtarı, kaynak IP adresi veya bir ilke ifadesi aracılığıyla tanımlanan rastgele anahtar gibi herhangi bir sayaç anahtarına belirteç tabanlı sınırlar atama esnekliği sağlar. İlke ayrıca Azure API Management tarafında istem belirteçlerinin önceden hesaplanmasına olanak sağlayarak, istem zaten sınırı aşarsa Azure OpenAI Hizmeti arka ucuna yönelik gereksiz istekleri en aza indirir.
Aşağıdaki temel örnekte abonelik anahtarı başına 500 TPM sınırının nasıl ayarlanacağı gösterilmektedir:
<azure-openai-token-limit counter-key="@(context.Subscription.Id)"
tokens-per-minute="500" estimate-prompt-tokens="false" remaining-tokens-variable-name="remainingTokens">
</azure-openai-token-limit>
İpucu
Azure AI Model Çıkarım API'sinde kullanılabilen LLM API'lerinin belirteç sınırlarını yönetmek ve zorunlu kılmak için API Management eşdeğer llm-token-limit ilkesini sağlar.
Belirteç ölçüm ilkesini yayma
Azure OpenAI yayma belirteci ölçüm ilkesi, Azure OpenAI Hizmeti API'leri aracılığıyla LLM belirteçlerinin tüketimiyle ilgili ölçümleri Application Insights'a gönderir. İlke, birden çok uygulama veya API tüketicisi arasında Azure OpenAI Hizmeti modellerinin kullanımına genel bir bakış sağlamaya yardımcı olur. Bu ilke geri ödeme senaryoları, izleme ve kapasite planlaması için yararlı olabilir.
Bu ilke, istem, tamamlamalar ve toplam belirteç kullanım ölçümlerini yakalar ve bunları seçtiğiniz bir Application Insights ad alanına gönderir. Ayrıca, belirteç kullanım ölçümlerini bölmek için önceden tanımlanmış boyutları yapılandırabilir veya seçebilirsiniz; böylece ölçümleri abonelik kimliğine, IP adresine veya tercih ettiğiniz özel bir boyuta göre analiz edebilirsiniz.
Örneğin, aşağıdaki ilke application insights'a istemci IP adresine, API'ye ve kullanıcıya göre bölünmüş ölçümler gönderir:
<azure-openai-emit-token-metric namespace="openai">
<dimension name="Client IP" value="@(context.Request.IpAddress)" />
<dimension name="API ID" value="@(context.Api.Id)" />
<dimension name="User ID" value="@(context.Request.Headers.GetValueOrDefault("x-user-id", "N/A"))" />
</azure-openai-emit-token-metric>
İpucu
AZURE AI Model Çıkarım API'sinde kullanılabilen LLM API'lerine yönelik ölçümleri göndermek için API Management eşdeğer llm-emit-token-metric ilkesini sağlar.
Arka uç yük dengeleyici ve devre kesici
Akıllı uygulamalar oluştururken karşılaşılan zorluklardan biri, uygulamaların arka uç hatalarına dayanıklı olduğundan ve yüksek yükleri işleyebileceğinden emin olmaktır. Azure OpenAI Hizmeti uç noktalarınızı Azure API Management'taki arka uçları kullanarak yapılandırarak, yükleri bunlar arasında dengeleyebilirsiniz. Yanıt vermedikleri takdirde isteklerin Azure OpenAI Hizmeti arka uçlarına iletilmesine son vermek için devre kesici kuralları da tanımlayabilirsiniz.
Arka uç yük dengeleyici hepsini bir kez deneme, ağırlıklı ve öncelik tabanlı yük dengelemeyi destekler ve size özel gereksinimlerinizi karşılayan bir yük dağıtım stratejisi tanımlama esnekliği sağlar. Örneğin, belirli Azure OpenAI uç noktalarının ,özellikle DETU olarak satın alınanların en iyi şekilde kullanımını sağlamak için yük dengeleyici yapılandırmasında öncelikleri tanımlayın.
Arka uç devre kesicisi, arka uç tarafından sağlanan Yeniden Deneme Sonrası üst bilgisinden değerleri uygulayan dinamik yolculuk süresine sahiptir. Bu, öncelik arka uçlarınızın kullanımını en üst düzeye çıkararak arka uçların kesin ve zamanında kurtarılmasını sağlar.
Anlamsal önbelleğe alma ilkesi
Benzer istemler için tamamlamaları depolayarak belirteç kullanımını iyileştirmek için Azure OpenAI semantik önbelleğe alma ilkelerini yapılandırın.
API Management'ta Azure Redis Enterprise'ı veya RediSearch ile uyumlu ve Azure API Management'a eklenen başka bir dış önbelleği kullanarak anlamsal önbelleğe almayı etkinleştirin. Azure OpenAI Hizmeti Embeddings API'sini kullanarak azure-openai-semantic-cache-store ve azure-openai-semantic-cache-lookup ilkeleri depolanır ve önbellekten benzer istem tamamlamaları alınır. Bu yaklaşım, tamamlanmaların yeniden kullanılmasını sağlayarak belirteç tüketiminin azalmasına ve yanıt performansının iyileştirilmesine neden olabilir.
İpucu
AZURE AI Model Çıkarım API'sinde kullanılabilen LLM API'leri için anlamsal önbelleğe almayı etkinleştirmek için API Management eşdeğer llm-semantic-cache-store-policy ve llm-semantic-cache-lookup-policy ilkelerini sağlar.
Laboratuvarlar ve örnekler
- Azure API Management'ın GenAI ağ geçidi özellikleri için laboratuvarlar
- Azure API Management (APIM) - Azure OpenAI Örneği (Node.js)
- API Management ile Azure OpenAI kullanmak için Python örnek kodu
Mimari ve tasarımla ilgili dikkat edilmesi gerekenler
- API Management kullanan GenAI ağ geçidi başvuru mimarisi
- AI hub ağ geçidi giriş bölgesi hızlandırıcısı
- Azure OpenAI kaynaklarıyla ağ geçidi çözümü tasarlama ve uygulama
- Birden çok Azure OpenAI dağıtımının veya örneğinin önünde ağ geçidi kullanma
İlgili içerik
- Blog: Azure API Management'ta GenAI özelliklerine giriş
- Blog: Azure Content Safety'yi Azure OpenAI Uç Noktaları için API Management ile Tümleştirme
- Eğitim: Azure API Management ile üretken yapay zeka API'lerinizi yönetme
- OpenAI uç noktaları ve Azure API Management için akıllı yük dengeleme
- Azure API Management'ı kullanarak Azure OpenAI API'lerine erişimin kimliğini doğrulama ve erişimi yetkilendirme