الانحدار باستخدام AutoML
استخدم AutoML للعثور تلقائيا على أفضل خوارزمية انحدار وتكوين hyperparameter للتنبؤ بالقيم الرقمية المستمرة.
إعداد تجربة الانحدار باستخدام واجهة المستخدم
يمكنك إعداد مشكلة انحدار باستخدام واجهة مستخدم AutoML بالخطوات التالية:
في الشريط الجانبي، حدد التجارب.
في بطاقة الانحدار ، حدد بدء التدريب.
يتم عرض صفحة تكوين تجربة AutoML. في هذه الصفحة، يمكنك تكوين عملية AutoML، وتحديد مجموعة البيانات، ونوع المشكلة، والهدف أو عمود التسمية للتنبؤ، والمقياس المطلوب استخدامه لتقييم وتسجيل تشغيل التجربة، وشروط الإيقاف.
في حقل Compute ، حدد نظام مجموعة يقوم بتشغيل Databricks Runtime ML.
ضمن Dataset، حدد Browse.
انتقل إلى الجدول الذي تريد استخدامه وانقر فوق تحديد. يظهر مخطط الجدول.
- في Databricks Runtime 10.3 ML وما فوق، يمكنك تحديد الأعمدة التي يجب أن يستخدمها AutoML للتدريب. لا يمكنك إزالة العمود المحدد كهدف التنبؤ أو عمود الوقت لتقسيم البيانات.
- في Databricks Runtime 10.4 LTS ML وما فوق، يمكنك تحديد كيفية تسجيل القيم الخالية عن طريق التحديد من القائمة المنسدلة Impute with . بشكل افتراضي، يحدد AutoML أسلوبا للاقتراض استنادا إلى نوع العمود والمحتوى.
إشعار
إذا قمت بتحديد أسلوب غير افتراضي للاعتداء، لا يقوم AutoML بإجراء الكشف عن النوع الدلالي.
انقر في حقل Prediction target . تظهر قائمة منسدلة تسرد الأعمدة المعروضة في المخطط. حدد العمود الذي تريد أن يتنبأ به النموذج.
يعرض حقل اسم التجربة الاسم الافتراضي. لتغييره، اكتب الاسم الجديد في الحقل.
يمكنك أيضًا:
- حدد خيارات تكوين إضافية.
- استخدم جداول الميزات الموجودة في 'متجر الميزات' لزيادة مجموعة بيانات الإدخال الأصلية.
التكوينات المتقدمة
افتح قسم التكوين المتقدم (اختياري) للوصول إلى هذه المعلمات.
- مقياس التقييم هو المقياس الأساسي المستخدم لتسجيل عمليات التشغيل.
- في Databricks Runtime 10.4 LTS ML وما فوق، يمكنك استبعاد أطر التدريب من الاعتبار. بشكل افتراضي، يقوم AutoML بتدريب النماذج باستخدام أطر العمل المدرجة ضمن خوارزميات AutoML.
- يمكنك تحرير شروط الإيقاف. شروط الإيقاف الافتراضية هي:
- للتنبؤ بالتجارب، توقف بعد 120 دقيقة.
- في Databricks Runtime 10.4 LTS ML وما دونه، للتصنيف وتجارب الانحدار، توقف بعد 60 دقيقة أو بعد إكمال 200 تجربة، أيهما يحدث أولا. بالنسبة إلى Databricks Runtime 11.0 ML وما فوق، لا يتم استخدام عدد التجارب كشرط إيقاف.
- في Databricks Runtime 10.4 LTS ML وما فوق، لتجارب التصنيف والانحدار، يتضمن AutoML الإيقاف المبكر؛ يتوقف عن التدريب وضبط النماذج إذا لم يعد مقياس التحقق من الصحة يتحسن.
- في Databricks Runtime 10.4 LTS ML وما فوق، يمكنك تحديد
time column
لتقسيم البيانات للتدريب والتحقق من الصحة والاختبار بترتيب زمني (ينطبق فقط على التصنيف والانحدار). - توصي Databricks بعدم ملء حقل دليل البيانات. يؤدي القيام بذلك إلى تشغيل السلوك الافتراضي لتخزين مجموعة البيانات بأمان كأداة MLflow. يمكن تحديد مسار DBFS، ولكن في هذه الحالة، لا ترث مجموعة البيانات أذونات الوصول لتجربة AutoML.
تشغيل التجربة ومراقبة النتائج
لبدء تجربة AutoML، انقر فوق Start AutoML. تبدأ التجربة في التشغيل، وتظهر صفحة تدريب AutoML. لتحديث جدول التشغيل، انقر فوق .
عرض تقدم التجربة
من هذه الصفحة، يمكنك:
- أوقف التجربة في أي وقت.
- افتح دفتر ملاحظات استكشاف البيانات.
- تشغيل جهاز العرض.
- انتقل إلى صفحة التشغيل لأي تشغيل.
باستخدام Databricks Runtime 10.1 ML وما فوق، يعرض AutoML تحذيرات للمشكلات المحتملة في مجموعة البيانات، مثل أنواع الأعمدة غير المدعومة أو الأعمدة الأساسية العالية.
إشعار
يقوم Databricks ببذل قصارى جهده للإشارة إلى الأخطاء أو المشكلات المحتملة. ومع ذلك، قد لا يكون هذا شاملا وقد لا يلتقط المشكلات أو الأخطاء التي قد تبحث فيها.
لمشاهدة أي تحذيرات لمجموعة البيانات، انقر فوق علامة التبويب تحذيرات في صفحة التدريب أو صفحة التجربة بعد اكتمال التجربة.
عرض النتائج
عند اكتمال التجربة، يمكنك:
- تسجيل أحد النماذج ونشره باستخدام MLflow.
- حدد عرض دفتر الملاحظات للحصول على أفضل نموذج لمراجعة وتحرير دفتر الملاحظات الذي أنشأ أفضل نموذج.
- حدد عرض دفتر ملاحظات استكشاف البيانات لفتح دفتر ملاحظات استكشاف البيانات.
- ابحث عن عمليات التشغيل وتصفيتها وفرزها في جدول التشغيل.
- راجع تفاصيل أي تشغيل:
- يمكن العثور على دفتر الملاحظات الذي تم إنشاؤه الذي يحتوي على التعليمات البرمجية المصدر لتشغيل تجريبي بالنقر فوق تشغيل MLflow. يتم حفظ دفتر الملاحظات في قسم Artifacts في صفحة التشغيل. يمكنك تنزيل دفتر الملاحظات هذا واستيراده إلى مساحة العمل، إذا تم تمكين تنزيل البيانات الاصطناعية من قبل مسؤولي مساحة العمل.
- لعرض نتائج التشغيل، انقر في العمود Models أو عمود Start Time . تظهر صفحة التشغيل، وتعرض معلومات حول التشغيل التجريبي (مثل المعلمات والمقاييس والعلامات) والبيانات الاصطناعية التي تم إنشاؤها بواسطة التشغيل، بما في ذلك النموذج. تتضمن هذه الصفحة أيضا مقتطفات التعليمات البرمجية التي يمكنك استخدامها لإجراء تنبؤات مع النموذج.
للعودة إلى تجربة AutoML هذه لاحقا، ابحث عنها في الجدول في صفحة التجارب. يتم تخزين نتائج كل تجربة AutoML، بما في ذلك دفاتر ملاحظات استكشاف البيانات والتدريب، في databricks_automl
مجلد في المجلد الرئيسي للمستخدم الذي قام بتشغيل التجربة.
تسجيل نموذج ونشره
يمكنك تسجيل النموذج ونشره باستخدام واجهة مستخدم AutoML:
- حدد الارتباط في عمود Models للنموذج للتسجيل. عند اكتمال التشغيل، يكون الصف العلوي هو أفضل نموذج (استنادا إلى المقياس الأساسي).
- حدد
لتسجيل النموذج في Model Registry.
- حدد
Models في الشريط الجانبي للانتقال إلى Model Registry.
- حدد اسم النموذج الخاص بك في جدول النموذج.
- من صفحة النموذج المسجل، يمكنك خدمة النموذج مع خدمة النموذج.
لا توجد وحدة نمطية تسمى 'pandas.core.indexes.numeric
عند تقديم نموذج تم إنشاؤه باستخدام AutoML مع خدمة النموذج، قد تحصل على الخطأ: No module named 'pandas.core.indexes.numeric
.
ويرجع ذلك إلى إصدار غير متوافق pandas
بين AutoML ونموذج خدمة بيئة نقطة النهاية. يمكنك حل هذا الخطأ عن طريق تشغيل البرنامج النصي add-pandas-dependency.py. يقوم البرنامج النصي بتحرير requirements.txt
و conda.yaml
للنموذج المسجل لتضمين إصدار التبعية المناسب pandas
: pandas==1.5.3
- تعديل البرنامج النصي لتضمين
run_id
تشغيل MLflow حيث تم تسجيل النموذج الخاص بك. - إعادة تسجيل النموذج في سجل نموذج MLflow.
- حاول تقديم الإصدار الجديد من نموذج MLflow.