مشاركة عبر


أفضل ممارسات التجمع

تشرح هذه المقالة ماهية التجمعات، وكيف يمكنك تكوينها على أفضل نحو. للحصول على معلومات حول إنشاء تجمع، راجع مرجع تكوين التجمع.

إشعار

إذا كان حمل العمل يدعم الحوسبة بلا خادم، فإن Databricks توصي باستخدام الحوسبة بلا خادم بدلا من التجمعات للاستفادة من الحوسبة القابلة للتطوير دائما. راجع الاتصال بالحوسبة بلا خادم.

اعتبارات التجمع

ضع في اعتبارك ما يلي عند إنشاء تجمع:

  • إنشاء تجمعات باستخدام أنواع المثيلات وأوقات تشغيل Azure Databricks استنادا إلى أحمال العمل المستهدفة.
  • عندما يكون ذلك ممكنا، قم بتعبئة التجمعات بمثيلات موضعية لتقليل التكاليف. استخدم التجمعات الموضعية فقط كعقد عاملة. يجب أن تستخدم عقدة برنامج التشغيل مثيلات عند الطلب.
  • قم بتعبئة التجمعات بمثيلات عند الطلب للوظائف بأوقات تنفيذ قصيرة ومتطلبات وقت تنفيذ صارمة.
  • استخدم علامات التجمع وعلامات نظام المجموعة لإدارة الفوترة.
  • ملء التجمعات مسبقا للتأكد من توفر المثيلات عندما تحتاجها المجموعات.

إنشاء تجمعات استنادا إلى أحمال العمل

يمكنك تقليل وقت الحصول على المثيل عن طريق إنشاء تجمع لكل نوع مثيل ووقت تشغيل Azure Databricks الذي تستخدمه مؤسستك بشكل شائع. على سبيل المثال، إذا كانت معظم مجموعات هندسة البيانات تستخدم نوع المثيل A، فإن مجموعات علوم البيانات تستخدم نوع المثيل B، وتستخدم مجموعات التحليلات نوع المثيل C، قم بإنشاء تجمع مع كل نوع مثيل.

استخدام تجمعات المثيلات الموضعية

إذا كانت عقدة برنامج التشغيل والعقد العاملة لديك لها متطلبات مختلفة، فاستخدم تجمعات مختلفة لكل منها.

توصي Azure Databricks بعدم استخدام مثيلات موضعية لعقدة برنامج التشغيل. إذا كنت تستخدم تجمع موضعي لعقدة العامل، فحدد تجمعا عند الطلب كنوع برنامج التشغيل.

تكوين التجمعات لاستخدام المثيلات عند الطلب للوظائف ذات أوقات التنفيذ القصيرة ومتطلبات وقت التنفيذ الصارمة. استخدم المثيلات عند الطلب لمنع فقدان المثيلات المكتسبة إلى مقدم عرض أعلى في السوق الفورية.

تكوين التجمعات لاستخدام المثيلات الموضعية للمجموعات التي تدعم التطوير التفاعلي أو الوظائف التي تعطي الأولوية لتوفير التكاليف على الموثوقية.

تجمعات العلامات لإدارة التكلفة والفوترة

تسمح لك مجموعات وضع العلامات إلى مركز التكلفة الصحيح بإدارة التكلفة واسترداد تكاليف الاستخدام. يمكنك استخدام علامات مخصصة متعددة لربط مراكز تكلفة متعددة بتجمع. ومع ذلك، من المهم فهم كيفية نشر العلامات عند إنشاء نظام مجموعة من التجمعات. تنتشر العلامات من التجمعات إلى مثيلات موفر السحابة الأساسية، ولكن علامات نظام المجموعة لا تنتشر. تطبيق جميع العلامات المخصصة المطلوبة لإدارة استرداد تكلفة حساب موفر السحابة على التجمع.

يتم نشر علامات التجمع وعلامات نظام المجموعة إلى فوترة Azure Databricks. يمكنك استخدام مجموعة من علامات المجموعة والتجمع لإدارة استرداد تكاليف وحدات Azure Databricks.

لمعرفة المزيد، راجع مراقبة الاستخدام باستخدام العلامات.

تكوين التجمعات للتحكم في التكلفة

.. azure-aws:

You can use the following configuration options to help control the cost of pools:

- Set the [Min Idle](/compute/pools.md#minimum-idle-instances) instances to 0 to avoid paying for running instances that aren’t doing work. The tradeoff is a possible increase in time when a cluster needs to acquire a new instance.
- Set the [Max Capacity](/compute/pools.md#maximum-capacity) based on anticipated usage. This sets the ceiling for the maximum number of used and idle instances in the pool. If a job or cluster requests an instance from a pool at its maximum capacity, the request fails, and the cluster doesn't acquire more instances. Therefore, Databricks recommends that you set the maximum capacity only if there is a strict instance quota or budget constraint.
- Set the [Idle Instance Auto Termination](/compute/pools.md#idle-instance-auto-termination) time to provide a buffer between when the instance is released from the cluster and when it’s dropped from the pool. Set this to a period that allows you to minimize cost while ensuring the availability of instances for scheduled jobs. For example, job A is scheduled to run at 8:00 AM and takes 40 minutes to complete. Job B is scheduled to run at 9:00 AM and takes 30 minutes to complete. Set the Idle Instance Auto Termination value to 20 minutes to ensure that instances returned to the pool when job A completes are available when job B starts. Unless they are claimed by another cluster, those instances are terminated 20 minutes after job B ends.

تعبئة التجمعات مسبقا

للاستفادة الكاملة من التجمعات، يمكنك ملء التجمعات التي تم إنشاؤها حديثا مسبقا. قم بتعيين Min Idle instances أكبر من الصفر في تكوين التجمع. بدلا من ذلك، إذا كنت تتبع التوصية لتعيين هذه القيمة إلى صفر، فاستخدم مهمة بداية للتأكد من أن التجمعات التي تم إنشاؤها حديثا لديها مثيلات متاحة للمجموعات للوصول إليها.

مع نهج وظيفة البداية، قم بجدولة وظيفة بمتطلبات وقت تنفيذ مرنة للتشغيل قبل المهام ذات متطلبات أداء أكثر صرامة أو قبل أن يبدأ المستخدمون في استخدام أنظمة المجموعات التفاعلية. بعد انتهاء المهمة، يتم تحرير المثيلات المستخدمة للوظيفة مرة أخرى إلى التجمع. تعيين إعداد Min Idle instance إلى 0 وتعيين وقت الإنهاء التلقائي لمثيل الخمول مرتفعا بما يكفي لضمان بقاء المثيلات الخاملة متاحة للوظائف اللاحقة.

يسمح استخدام وظيفة البداية لمثيلات التجمع بالتدبير وملء التجمع والبقاء متوفرا لمهمة انتقال البيانات من الخادم أو المجموعات التفاعلية.