التنبؤ باستخدام AutoML
استخدم AutoML للعثور تلقائيا على أفضل خوارزمية تنبؤ وتكوين hyperparameter للتنبؤ بالقيم استنادا إلى بيانات السلسلة الزمنية.
يتوفر التنبؤ بالسلاسل الزمنية فقط ل Databricks Runtime 10.0 ML أو أعلى.
إعداد تجربة التنبؤ باستخدام واجهة المستخدم
يمكنك إعداد مشكلة تنبؤ باستخدام واجهة مستخدم AutoML بالخطوات التالية:
- في الشريط الجانبي، حدد التجارب.
- في بطاقة التنبؤ ، حدد بدء التدريب.
تكوين تجربة AutoML
يتم عرض صفحة تكوين تجربة AutoML. في هذه الصفحة، يمكنك تكوين عملية AutoML، وتحديد مجموعة البيانات، ونوع المشكلة، والهدف أو عمود التسمية للتنبؤ، والمقياس المطلوب استخدامه لتقييم وتسجيل تشغيل التجربة، وشروط الإيقاف.
في حقل Compute ، حدد مجموعة تقوم بتشغيل Databricks Runtime 10.0 ML أو أعلى.
ضمن مجموعة البيانات، انقر فوق استعراض. انتقل إلى الجدول الذي تريد استخدامه وانقر فوق تحديد. يظهر مخطط الجدول.
انقر في حقل Prediction target . تظهر قائمة منسدلة، تسرد الأعمدة المعروضة في المخطط. حدد العمود الذي تريد أن يتنبأ به النموذج.
انقر في حقل العمود Time. تظهر قائمة منسدلة تعرض أعمدة مجموعة البيانات من النوع
timestamp
أوdate
. حدد العمود الذي يحتوي على الفترات الزمنية للسلسلة الزمنية.للتنبؤ متعدد السلاسل، حدد العمود (الأعمدة) الذي يحدد السلسلة الزمنية الفردية من القائمة المنسدلة معرفات السلاسل الزمنية. يجمع AutoML البيانات حسب هذه الأعمدة كسلسلة زمنية مختلفة ويدرب نموذجا لكل سلسلة بشكل مستقل. إذا تركت هذا الحقل فارغا، يفترض AutoML أن مجموعة البيانات تحتوي على سلسلة زمنية واحدة.
في حقلي "Forecast horizon" و"frequency" ، حدد عدد الفترات الزمنية في المستقبل التي يجب أن يقوم AutoML بحساب القيم المتوقعة لها. في المربع الأيسر، أدخل عدد صحيح من الفترات المتوقعة. في المربع الأيمن، حدد الوحدات.
إشعار
لاستخدام AUTO-ARIMA، يجب أن يكون للسلسلة الزمنية تكرار منتظم حيث يجب أن يكون الفاصل الزمني بين أي نقطتين هو نفسه طوال السلسلة الزمنية. يجب أن يتطابق التردد مع وحدة التردد المحددة في استدعاء واجهة برمجة التطبيقات أو في واجهة مستخدم AutoML. يعالج AutoML خطوات الوقت المفقودة عن طريق ملء تلك القيم بالقيمة السابقة.
في Databricks Runtime 11.3 LTS ML وما فوق، يمكنك حفظ نتائج التنبؤ. للقيام بذلك، حدد قاعدة بيانات في حقل قاعدة بيانات الإخراج. انقر فوق استعراض وحدد قاعدة بيانات من مربع الحوار. يكتب AutoML نتائج التنبؤ إلى جدول في قاعدة البيانات هذه.
يعرض حقل اسم التجربة الاسم الافتراضي. لتغييره، اكتب الاسم الجديد في الحقل.
يمكنك أيضًا:
- حدد خيارات تكوين إضافية.
- استخدم جداول الميزات الموجودة في 'متجر الميزات' لزيادة مجموعة بيانات الإدخال الأصلية.
التكوينات المتقدمة
افتح قسم التكوين المتقدم (اختياري) للوصول إلى هذه المعلمات.
- مقياس التقييم هو المقياس الأساسي المستخدم لتسجيل عمليات التشغيل.
- في Databricks Runtime 10.4 LTS ML وما فوق، يمكنك استبعاد أطر التدريب من الاعتبار. بشكل افتراضي، يقوم AutoML بتدريب النماذج باستخدام أطر العمل المدرجة ضمن خوارزميات AutoML.
- يمكنك تحرير شروط الإيقاف. شروط الإيقاف الافتراضية هي:
- للتنبؤ بالتجارب، توقف بعد 120 دقيقة.
- في Databricks Runtime 10.4 LTS ML وما دونه، للتصنيف وتجارب الانحدار، توقف بعد 60 دقيقة أو بعد إكمال 200 تجربة، أيهما يحدث أولا. بالنسبة إلى Databricks Runtime 11.0 ML وما فوق، لا يتم استخدام عدد التجارب كشرط إيقاف.
- في Databricks Runtime 10.4 LTS ML وما فوق، لتجارب التصنيف والانحدار، يتضمن AutoML الإيقاف المبكر؛ يتوقف عن التدريب وضبط النماذج إذا لم يعد مقياس التحقق من الصحة يتحسن.
- في Databricks Runtime 10.4 LTS ML وما فوق، يمكنك تحديد
time column
لتقسيم البيانات للتدريب والتحقق من الصحة والاختبار بترتيب زمني (ينطبق فقط على التصنيف والانحدار). - توصي Databricks بعدم ملء حقل دليل البيانات. يؤدي القيام بذلك إلى تشغيل السلوك الافتراضي لتخزين مجموعة البيانات بأمان كأداة MLflow. يمكن تحديد مسار DBFS، ولكن في هذه الحالة، لا ترث مجموعة البيانات أذونات الوصول لتجربة AutoML.
تشغيل التجربة ومراقبة النتائج
لبدء تجربة AutoML، انقر فوق Start AutoML. تبدأ التجربة في التشغيل، وتظهر صفحة تدريب AutoML. لتحديث جدول التشغيل، انقر فوق .
عرض تقدم التجربة
من هذه الصفحة، يمكنك:
- أوقف التجربة في أي وقت.
- افتح دفتر ملاحظات استكشاف البيانات.
- تشغيل جهاز العرض.
- انتقل إلى صفحة التشغيل لأي تشغيل.
باستخدام Databricks Runtime 10.1 ML وما فوق، يعرض AutoML تحذيرات للمشكلات المحتملة في مجموعة البيانات، مثل أنواع الأعمدة غير المدعومة أو الأعمدة الأساسية العالية.
إشعار
يقوم Databricks ببذل قصارى جهده للإشارة إلى الأخطاء أو المشكلات المحتملة. ومع ذلك، قد لا يكون هذا شاملا وقد لا يلتقط المشكلات أو الأخطاء التي قد تبحث فيها.
لمشاهدة أي تحذيرات لمجموعة البيانات، انقر فوق علامة التبويب تحذيرات في صفحة التدريب أو صفحة التجربة بعد اكتمال التجربة.
عرض النتائج
عند اكتمال التجربة، يمكنك:
- تسجيل أحد النماذج ونشره باستخدام MLflow.
- حدد عرض دفتر الملاحظات للحصول على أفضل نموذج لمراجعة وتحرير دفتر الملاحظات الذي أنشأ أفضل نموذج.
- حدد عرض دفتر ملاحظات استكشاف البيانات لفتح دفتر ملاحظات استكشاف البيانات.
- ابحث عن عمليات التشغيل وتصفيتها وفرزها في جدول التشغيل.
- راجع تفاصيل أي تشغيل:
- يمكن العثور على دفتر الملاحظات الذي تم إنشاؤه الذي يحتوي على التعليمات البرمجية المصدر لتشغيل تجريبي بالنقر فوق تشغيل MLflow. يتم حفظ دفتر الملاحظات في قسم Artifacts في صفحة التشغيل. يمكنك تنزيل دفتر الملاحظات هذا واستيراده إلى مساحة العمل، إذا تم تمكين تنزيل البيانات الاصطناعية من قبل مسؤولي مساحة العمل.
- لعرض نتائج التشغيل، انقر في العمود Models أو عمود Start Time . تظهر صفحة التشغيل، وتعرض معلومات حول التشغيل التجريبي (مثل المعلمات والمقاييس والعلامات) والبيانات الاصطناعية التي تم إنشاؤها بواسطة التشغيل، بما في ذلك النموذج. تتضمن هذه الصفحة أيضا مقتطفات التعليمات البرمجية التي يمكنك استخدامها لإجراء تنبؤات مع النموذج.
للعودة إلى تجربة AutoML هذه لاحقا، ابحث عنها في الجدول في صفحة التجارب. يتم تخزين نتائج كل تجربة AutoML، بما في ذلك دفاتر ملاحظات استكشاف البيانات والتدريب، في databricks_automl
مجلد في المجلد الرئيسي للمستخدم الذي قام بتشغيل التجربة.
تسجيل نموذج ونشره
يمكنك تسجيل النموذج ونشره باستخدام واجهة مستخدم AutoML:
- حدد الارتباط في عمود Models للنموذج للتسجيل. عند اكتمال التشغيل، يكون الصف العلوي هو أفضل نموذج (استنادا إلى المقياس الأساسي).
- حدد
لتسجيل النموذج في Model Registry.
- حدد
Models في الشريط الجانبي للانتقال إلى Model Registry.
- حدد اسم النموذج الخاص بك في جدول النموذج.
- من صفحة النموذج المسجل، يمكنك خدمة النموذج مع خدمة النموذج.
لا توجد وحدة نمطية تسمى 'pandas.core.indexes.numeric
عند تقديم نموذج تم إنشاؤه باستخدام AutoML مع خدمة النموذج، قد تحصل على الخطأ: No module named 'pandas.core.indexes.numeric
.
ويرجع ذلك إلى إصدار غير متوافق pandas
بين AutoML ونموذج خدمة بيئة نقطة النهاية. يمكنك حل هذا الخطأ عن طريق تشغيل البرنامج النصي add-pandas-dependency.py. يقوم البرنامج النصي بتحرير requirements.txt
و conda.yaml
للنموذج المسجل لتضمين إصدار التبعية المناسب pandas
: pandas==1.5.3
- تعديل البرنامج النصي لتضمين
run_id
تشغيل MLflow حيث تم تسجيل النموذج الخاص بك. - إعادة تسجيل النموذج في سجل نموذج MLflow.
- حاول تقديم الإصدار الجديد من نموذج MLflow.