استخدام المعايير في مساحة Genie

مقالة
10/16/2024

هام

هذه الميزة في المعاينة العامة.

توضح هذه المقالة كيفية استخدام المعايير لتقييم دقة مساحة Genie الخاصة بك.

تسمح لك المعايير بإنشاء مجموعة من أسئلة الاختبار التي يمكنك تشغيلها لتقييم دقة الاستجابة الإجمالية ل Genie. تساعد مجموعة من المعايير المصممة جيدا والتي تغطي أسئلة المستخدم الأكثر شيوعا على تقييم دقة مساحة Genie أثناء تحسينها.

أمثلة على المعايير بدقة تم الإبلاغ عنها في العديد من الأسئلة.

إضافة أسئلة مرجعية

يجب أن تعكس الأسئلة المعيارية طرقا مختلفة لجمل الأسئلة الشائعة التي يطرحها المستخدمون. يمكنك استخدامها للتحقق من استجابة Genie للتباينات في صياغة الأسئلة أو تنسيقات الأسئلة المختلفة.

عند إنشاء سؤال معياري، يمكنك اختياريا تضمين استعلام SQL الذي تكون مجموعة نتائجه هي الإجابة الصحيحة. أثناء عمليات التشغيل المعيارية، يتم تقييم الدقة من خلال مقارنة مجموعة النتائج من استعلام SQL الخاص بك مع تلك التي تم إنشاؤها بواسطة Genie.

لإضافة سؤال معياري، قم بتنفيذ الخطوات التالية:

انقر فوق في الشريط الجانبي الأيسر في مساحة Genie.
انقر فوق علامة التبويب الأسئلة. ثم انقر فوق Add benchmark.
في حقل السؤال ، أدخل سؤالا معياريا للاختبار.
(اختياري) أدخل عبارة SQL التي تجيب بدقة عن السؤال الذي أدخلته.

إشعار

يوصى بهذه الخطوة. يمكن تقييم الأسئلة التي تتضمن هذا المثال عبارة SQL تلقائيا للتأكد من دقتها. تتطلب أي أسئلة لا تتضمن إجابة SQL مراجعة يدوية ليتم تسجيلها.
(اختياري) انقر فوق معاينة لتشغيل الاستعلام وعرض النتائج.
عند الانتهاء من التحرير، انقر فوق إضافة معيار.
لتحديث سؤال بعد الحفظ، انقر فوق أيقونة القلم الرصاص لفتح مربع الحوار تحديث السؤال .

استخدام المعايير لاختبار الجمل البديلة للأسئلة

عند تقييم دقة مساحة Genie الخاصة بك، من المهم هيكلة الاختبارات لتعكس سيناريوهات واقعية. قد يطرح المستخدمون نفس السؤال بطرق مختلفة. توصي Databricks بإضافة جمل متعددة لنفس السؤال واستخدام نفس المثال SQL في اختبارات المعيار لتقييم الدقة بالكامل. يجب أن تتضمن معظم مساحات Genie الجمل من 2 إلى 4 من نفس السؤال.

تشغيل الأسئلة المرجعية

يمكن للمستخدمين الذين لديهم على الأقل CAN EDIT permissions في مساحة Genie إنشاء معيار تشغيل في أي وقت، والذي سيتم تقييمه تلقائيا عبر جميع الأسئلة القياسية. لتقييم كل سؤال معياري، سنقدم السؤال أولا إلى Genie، ثم نقارن نتائج Genie بالمعيار. يتم تطبيق إحدى التسميات التالية على كل معيار:

جيد: يتم وضع علامة على الاستجابات بهذه التسمية عندما تتطابق نتيجة الاستعلام التي تم إنشاؤها بواسطة Genie مع النتائج من إجابة SQL المتوفرة. عندما يتم وضع علامة جيد على استجابة، فهذا يعني أن قيم الصف تتطابق تماما، بغض النظر عن ترتيب الفرز أو أسماء الأعمدة.
مراجعة الاحتياجات: يتم وضع علامة على الاستجابات بهذه التسمية عندما لا يتمكن Genie من تقييم الصحة أو عندما لا تتطابق نتائج الاستعلام التي تم إنشاؤها بواسطة Genie مع النتائج من إجابة SQL المتوفرة. إذا كانت هناك تغييرات غير متوقعة على أبعاد الجداول في الاستجابة التي تم إنشاؤها أو إجابة SQL المتوفرة، فقد يتم وضع علامة على السؤال للمراجعة. يجب مراجعة أي أسئلة مرجعية لا تتضمن إجابة SQL يدويا.
سيئ: لا يتم تصنيف الردود تلقائيا على أنها سيئة. إذا لم تتطابق نتائج الاستعلام التي تم إنشاؤها بواسطة Genie مع مجموعة النتائج من إجابة SQL المتوفرة، يتم وضع علامة على السؤال على أنه يحتاج إلى مراجعة. عند مراجعة هذه المعايير، يمكنك وضع علامة على النتيجة على أنها سيئة إذا كنت لا تعتقد أن نتائج الاستعلام التي تم إنشاؤها من Genie تجيب على السؤال.

لتشغيل جميع الأسئلة القياسية:

انقر فوق Benchmarks في الشريط الجانبي لمسافة Genie بالقرب من الجانب الأيسر من الشاشة.
انقر فوق Run benchmarks لبدء تشغيل الاختبار.

إشعار

إذا قمت بإغلاق هذه الصفحة، يتم إيقاف تشغيل المعيار مؤقتا تلقائيا. يمكنك استئناف الاختبار عند إعادة فتح الصفحة.

التقييمات المرجعية للوصول

يمكنك الوصول إلى جميع التقييمات القياسية الخاصة بك لتتبع الدقة في مساحة Genie الخاصة بك بمرور الوقت. عند النقر فوق في الشريط الجانبي الأيسر في مساحة Genie، تظهر قائمة ذات طابع زمني من عمليات تشغيل التقييم في علامة التبويب Evaluations . إذا لم يتم العثور على عمليات تشغيل تقييم، فشاهد إضافة أسئلة معيارية أو تشغيل أسئلة الأداء.

شاشة التقييمات كما هو موضح في النص التالي.

تعرض علامة التبويب التقييمات نظرة عامة على التقييمات وأدائها المبلغ عنها في فئات follwong:

اسم التقييم: طابع زمني يشير إلى وقت حدوث عملية تقييم. انقر فوق الطابع الزمني للاطلاع على تفاصيل هذا التقييم. حالة التنفيذ: تشير إلى ما إذا كان التقييم مكتملا أو متوقفا مؤقتا أو غير ناجح. إذا كان تشغيل التقييم يتضمن أسئلة قياسية لا تحتوي على إجابات SQL محددة مسبقا، يتم وضع علامة عليها للمراجعة في هذا العمود. الدقة: تقييم رقمي للدقة عبر جميع الأسئلة القياسية. بالنسبة إلى عمليات التقييم التي تتطلب مراجعة يدوية، لا يظهر مقياس الدقة إلا بعد مراجعة هذه الأسئلة. تم الإنشاء بواسطة: يشير إلى اسم المستخدم الذي قام بتشغيل التقييم.

مراجعة التقييمات الفردية

يمكنك مراجعة التقييمات الفردية للحصول على نظرة مفصلة على كل استجابة. يمكنك تحرير التقييم لأي سؤال وتحديث أي عناصر تحتاج إلى مراجعة يدوية.

لمراجعة التقييمات الفردية:

انقر فوق Benchmarks في الشريط الجانبي لمسافة Genie بالقرب من الجانب الأيسر من الشاشة.
انقر فوق الطابع الزمني لأي تقييم في عمود اسم التقييم لفتح طريقة عرض مفصلة لتشغيل الاختبار هذا.
انقر فوق سؤال بالقرب من الجانب الأيمن من الشاشة للاطلاع على التفاصيل المقترنة. استخدم شاشة تفاصيل التقييم لتنفيذ الخطوات التالية.
مراجعة ومقارنة استجابة إخراج النموذج مع استجابة الحقيقة الأرضية.

إشعار

تظهر نتائج هذه الردود في تفاصيل التقييم لمدة أسبوع واحد. بعد أسبوع واحد، لم تعد النتائج مرئية. تظل عبارة SQL التي تم إنشاؤها ومثال عبارة SQL.
انقر فوق على التسمية لتحرير التقييم.

ضع علامة على كل نتيجة على أنها جيدة أو سيئة للحصول على درجة دقيقة لهذا التقييم.

مشاركة عبر