مشاركة عبر


نظرة عامة على قدرات بوابة الذكاء الاصطناعي التوليدية في Azure API Management

ينطبق على: جميع مستويات إدارة واجهة برمجة التطبيقات

تقدم هذه المقالة قدرات في Azure API Management لمساعدتك في إدارة واجهات برمجة التطبيقات الذكاء الاصطناعي التوليدية، مثل تلك التي توفرها خدمة Azure OpenAI. توفر Azure API Management مجموعة من النهج والمقاييس والميزات الأخرى لتحسين الأمان والأداء والموثوقية لواجهات برمجة التطبيقات التي تخدم تطبيقاتك الذكية. بشكل جماعي، تسمى هذه الميزات قدرات بوابة الذكاء الاصطناعي التوليدية (GenAI) لواجهات برمجة التطبيقات الذكاء الاصطناعي التوليدية.

إشعار

  • تركز هذه المقالة على قدرات إدارة واجهات برمجة التطبيقات التي تعرضها خدمة Azure OpenAI. تنطبق العديد من قدرات بوابة GenAI على واجهات برمجة تطبيقات نموذج اللغة الكبيرة الأخرى (LLM)، بما في ذلك تلك المتوفرة من خلال Azure الذكاء الاصطناعي Model Inference API.
  • قدرات بوابة الذكاء الاصطناعي التوليدية هي ميزات لبوابة واجهة برمجة التطبيقات الحالية لإدارة واجهة برمجة التطبيقات، وليست بوابة واجهة برمجة تطبيقات منفصلة. لمزيد من المعلومات حول إدارة واجهة برمجة التطبيقات، راجع نظرة عامة على إدارة واجهة برمجة تطبيقات Azure.

التحديات في إدارة واجهات برمجة التطبيقات الذكاء الاصطناعي التوليدية

أحد الموارد الرئيسية لديك في خدمات الذكاء الاصطناعي التوليدية هو الرموز المميزة. تقوم خدمة Azure OpenAI بتعيين الحصة النسبية لنشر النموذج الخاص بك المعبر عنها في الرموز المميزة في الدقيقة (TPM) والتي يتم توزيعها بعد ذلك عبر مستهلكي النموذج الخاص بك - على سبيل المثال، التطبيقات المختلفة وفرق المطورين والأقسام داخل الشركة وما إلى ذلك.

يسهل Azure توصيل تطبيق واحد بخدمة Azure OpenAI: يمكنك الاتصال مباشرة باستخدام مفتاح API مع حد TPM تم تكوينه مباشرة على مستوى توزيع النموذج. ومع ذلك، عند البدء في زيادة محفظة التطبيقات الخاصة بك، يتم تقديم تطبيقات متعددة تتصل بنقاط نهاية خدمة Azure OpenAI الفردية أو حتى المتعددة التي تم نشرها كمثيلات الدفع أولا بأول أو وحدات معدل النقل المتوفرة (PTU). ويأتي ذلك مع تحديات معينة:

  • كيف يتم تعقب استخدام الرمز المميز عبر تطبيقات متعددة؟ هل يمكن حساب الرسوم المتقاطعة لتطبيقات/فرق متعددة تستخدم نماذج خدمة Azure OpenAI؟
  • كيف يمكنك التأكد من أن تطبيقا واحدا لا يستهلك الحصة النسبية الكاملة ل TPM، تاركا التطبيقات الأخرى دون خيار لاستخدام نماذج خدمة Azure OpenAI؟
  • كيف يتم توزيع مفتاح API بشكل آمن عبر تطبيقات متعددة؟
  • كيف يتم توزيع التحميل عبر نقاط نهاية Azure OpenAI المتعددة؟ هل يمكنك التأكد من استنفاد السعة الملتزم بها في وحدات PTUs قبل العودة إلى مثيلات الدفع أولا بأول؟

توضح بقية هذه المقالة كيف يمكن لإدارة واجهة برمجة تطبيقات Azure مساعدتك في مواجهة هذه التحديات.

استيراد مورد خدمة Azure OpenAI كواجهة برمجة تطبيقات

استيراد واجهة برمجة تطبيقات من نقطة نهاية خدمة Azure OpenAI إلى إدارة واجهة برمجة تطبيقات Azure باستخدام تجربة بنقرة واحدة. تبسط API Management عملية الإلحاق عن طريق استيراد مخطط OpenAPI تلقائيا لواجهة برمجة تطبيقات Azure OpenAI وإعداد المصادقة إلى نقطة نهاية Azure OpenAI باستخدام الهوية المدارة، ما يزيل الحاجة إلى التكوين اليدوي. ضمن نفس التجربة سهلة الاستخدام، يمكنك تكوين النهج مسبقا لحدود الرمز المميز وانبعاث مقاييس الرمز المميز.

لقطة شاشة للوحة Azure OpenAI API في المدخل.

نهج حد الرمز المميز

قم بتكوين نهج حد الرمز المميز ل Azure OpenAI لإدارة وفرض الحدود لكل مستهلك API استنادا إلى استخدام رموز خدمة Azure OpenAI المميزة. باستخدام هذا النهج، يمكنك تعيين حدود، يتم التعبير عنها بالرموز المميزة في الدقيقة (TPM).

رسم تخطيطي للحد من الرموز المميزة لخدمة Azure OpenAI في APIM.

يوفر هذا النهج مرونة لتعيين حدود تستند إلى الرمز المميز على أي مفتاح عداد، مثل مفتاح الاشتراك أو عنوان IP الأصلي أو مفتاح عشوائي محدد من خلال تعبير نهج. يتيح النهج أيضا الحساب المسبق للرموز المميزة للمطالبة على جانب إدارة واجهة برمجة تطبيقات Azure، ما يقلل الطلبات غير الضرورية إلى الواجهة الخلفية لخدمة Azure OpenAI إذا تجاوزت المطالبة الحد بالفعل.

يوضح المثال الأساسي التالي كيفية تعيين حد TPM 500 لكل مفتاح اشتراك:

<azure-openai-token-limit counter-key="@(context.Subscription.Id)" 
    tokens-per-minute="500" estimate-prompt-tokens="false" remaining-tokens-variable-name="remainingTokens">
</azure-openai-token-limit>

تلميح

لإدارة حدود الرمز المميز وفرضها لواجهات برمجة تطبيقات LLM المتوفرة من خلال Azure الذكاء الاصطناعي Model Inference API، توفر إدارة واجهة برمجة التطبيقات نهج الحد المكافئ ل llm-token.

إصدار نهج قياس الرمز المميز

يرسل نهج قياس الرمز المميز ل Azure OpenAI مقاييس إلى Application Insights حول استهلاك رموز LLM المميزة من خلال واجهات برمجة تطبيقات خدمة Azure OpenAI. يساعد النهج على توفير نظرة عامة على استخدام نماذج خدمة Azure OpenAI عبر تطبيقات متعددة أو مستهلكي واجهة برمجة التطبيقات. قد يكون هذا النهج مفيدا لسيناريوهات الاسترداد والمراقبة وتخطيط السعة.

رسم تخطيطي لانبعاث مقاييس الرمز المميز لخدمة Azure OpenAI باستخدام APIM.

يسجل هذا النهج مقاييس المطالبة والإكمال وإجمالي استخدام الرمز المميز ويرسلها إلى مساحة اسم Application Insights من اختيارك. علاوة على ذلك، يمكنك تكوين أو التحديد من الأبعاد المعرفة مسبقا لتقسيم مقاييس استخدام الرمز المميز، حتى تتمكن من تحليل المقاييس حسب معرف الاشتراك أو عنوان IP أو بعد مخصص من اختيارك.

على سبيل المثال، يرسل النهج التالي مقاييس إلى Application Insights مقسمة حسب عنوان IP للعميل وواجهة برمجة التطبيقات والمستخدم:

<azure-openai-emit-token-metric namespace="openai">
    <dimension name="Client IP" value="@(context.Request.IpAddress)" />
    <dimension name="API ID" value="@(context.Api.Id)" />
    <dimension name="User ID" value="@(context.Request.Headers.GetValueOrDefault("x-user-id", "N/A"))" />
</azure-openai-emit-token-metric>

تلميح

لإرسال مقاييس لواجهات برمجة تطبيقات LLM المتوفرة من خلال Azure الذكاء الاصطناعي Model Inference API، توفر APIM نهج llm-emit-token-metric المكافئ.

موازن تحميل الخلفية و قاطع الدائرة

أحد التحديات عند إنشاء تطبيقات ذكية هو التأكد من أن التطبيقات مرنة في مواجهة حالات الفشل الخلفية ويمكنها التعامل مع الأحمال العالية. من خلال تكوين نقاط نهاية خدمة Azure OpenAI باستخدام الواجهات الخلفية في Azure API Management، يمكنك موازنة الحمل عبرها. يمكنك أيضا تحديد قواعد قاطع الدوائر لإيقاف إعادة توجيه الطلبات إلى الواجهات الخلفية لخدمة Azure OpenAI إذا لم تكن مستجيبة.

يدعم موازن التحميل الخلفي موازنة التحميل الدورية والمرجحة والقائمة على الأولوية، مما يمنحك المرونة لتحديد استراتيجية توزيع التحميل التي تلبي متطلباتك المحددة. على سبيل المثال، حدد الأولويات داخل تكوين موازن التحميل لضمان الاستخدام الأمثل لنقاط نهاية Azure OpenAI محددة، خاصة تلك التي تم شراؤها كوحدات PTUs.

رسم تخطيطي لاستخدام موازنة تحميل الخلفية في APIM.

يتميز قاطع دائرة الخلفية بمدة رحلة ديناميكية، مع تطبيق القيم من رأس إعادة المحاولة-بعد الذي توفره الخلفية. وهذا يضمن استردادا دقيقا وفي الوقت المناسب للخلفيات، ما يزيد من استخدام الخلفيات ذات الأولوية.

رسم تخطيطي لاستخدام قاطع دائرة الخلفية في APIM.

نهج التخزين المؤقت الدلالي

تكوين نهج التخزين المؤقت الدلالي Azure OpenAI لتحسين استخدام الرمز المميز عن طريق تخزين الإكمال لمطالبات مماثلة.

رسم تخطيطي للتخزين المؤقت الدلالي في APIM.

في APIM، قم بتمكين التخزين المؤقت الدلالي باستخدام Azure Redis Enterprise أو ذاكرة التخزين المؤقت الخارجية الأخرى المتوافقة مع RediSearch والمدرجة في Azure API Management. باستخدام Azure OpenAI Service Embeddings API، تخزن نهج azure-openai-semantic-cache-store وazure-openai-semantic-cache-lookup وتسترد إكمالات المطالبة المتشابهة دلاليا من ذاكرة التخزين المؤقت. يضمن هذا الأسلوب إعادة استخدام الإكمال، ما يؤدي إلى تقليل استهلاك الرمز المميز وتحسين أداء الاستجابة.

تلميح

لتمكين التخزين المؤقت الدلالي لواجهات برمجة تطبيقات LLM المتوفرة من خلال Azure الذكاء الاصطناعي Model Inference API، توفر APIM نهج llm-semantic-cache-store-policy ونهج llm-semantic-cache-lookup-policy.

المختبرات والعينات

اعتبارات البنى والتصميم