مراقبة المشكلات التشغيلية في مساحة عمل Azure Monitor Log Analytics
للحفاظ على أداء وتوافر مساحة عمل Log Analytics في Azure Monitor، يجب أن تكون قادراً على اكتشاف أي مشاكل قد تظهر بشكل استباقي. توضح هذه المقالة كيفية مراقبة صحة مساحة عمل Log Analytics باستخدام البيانات في جدول العملية . يتم تضمين هذا الجدول في كل مساحة عمل Log Analytics. يحتوي على رسائل خطأ وتحذيرات تحدث في مساحة العمل الخاصة بك. نوصي بإنشاء تنبيهات للمشكلات المتعلقة بمستوى التحذير والخطأ.
الأذونات المطلوبة
يجب أن يكون لديك Microsoft.OperationalInsights/workspaces/query/*/read
أذونات لمساحات عمل Log Analytics التي تستعلمها، كما هو مقدم من الدور المضمن لقارئ Log Analytics، على سبيل المثال.
_LogOperation دالة
ترسل سجلات Azure Monitor معلومات حول أي مشكلات إلى جدول العملية في مساحة العمل حيث حدثت المشكلة. _LogOperation
تستند وظيفة النظام إلى جدول العملية وتوفر مجموعة مبسطة من المعلومات للتحليل والتنبيه.
الأعمدة
ترجع _LogOperation
الدالة الأعمدة في الجدول التالي.
العمود | الوصف |
---|---|
TimeGenerated | الوقت الذي وقع فيه الحادث بالتوقيت العالمي المنسق. |
الفئة | مجموعة فئة العمليات. يمكن استخدامه لتصفية أنواع العمليات والمساعدة في إنشاء تنبيهات وتدقيق أكثر دقة للنظام. راجع القسم التالي للحصول على قائمة بالفئات. |
العملية | وصف نوع العملية. يمكن أن تشير العملية إلى أنه تم الوصول إلى أحد حدود Log Analytics أو مشكلة متعلقة بالعملية الخلفية أو أي رسالة خدمة أخرى. |
المستوى | مستوى خطورة المشكلة: - معلومات: لا حاجة إلى اهتمام محدد. - تحذير: لم تكتمل العملية كما هو متوقع، والانتباه مطلوب. - خطأ: فشلت العملية، والانتباه مطلوب. |
التفاصيل | وصف تفصيلي للعملية، يتضمن رسالة الخطأ المحددة. |
_ResourceId | معرف المورد لمورد Azure المرتبط بالعملية. |
الكمبيوتر | اسم الكمبيوتر إذا كانت العملية مرتبطة بعامل Azure Monitor. |
CorrelationId | تستخدم لتجميع العمليات ذات الصلة المتتالية. |
الفئات
يصف الجدول التالي الفئات من الدالة _LogOperation
.
الفئة | الوصف |
---|---|
استيعاب | العمليات التي تعد جزءاً من عملية استيعاب البيانات. |
المندوب | يشير إلى مشكلة في تثبيت الوكيل. |
تجميع البيانات | العمليات المتعلقة بعمليات جمع البيانات. |
استهداف الحل | تمت معالجة عملية من النوع ConfigurationScope . |
حل التقييم | تم تنفيذ عملية التقييم. |
استيعاب
عمليات الاستيعاب هي مشكلات حدثت أثناء استيعاب البيانات وتتضمن إعلاما حول الوصول إلى حدود مساحة عمل Log Analytics. قد تشير حالات الخطأ في هذه الفئة إلى فقدان البيانات، لذلك من المهم مراقبتها. للحصول على حدود الخدمة لمساحات عمل Log Analytics، راجع حدود خدمة Azure Monitor.
هام
إذا كنت تقوم باستكشاف أخطاء جمع البيانات وإصلاحها لسيناريو يستخدم قاعدة تجميع بيانات (DCR) مثل عامل Azure Monitor أو واجهة برمجة تطبيقات استيعاب السجلات، فراجع مراقبة واستكشاف أخطاء جمع بيانات DCR وإصلاحها في Azure Monitor للحصول على معلومات إضافية حول استكشاف الأخطاء وإصلاحها.
العملية: توقف جمع البيانات
"توقف جمع البيانات بسبب بلوغ الحد اليومي للبيانات المجانية. حالة البث = OverQuota "
في الأيام السبعة الماضية، وصلت مجموعة السجلات إلى حد المجموعة اليومية. يتم تعيين الحد إما عند تعيين مساحة العمل إلى المستوى المجاني أو تم تكوين حد المجموعة اليومي لمساحة العمل هذه. بعد أن يصل جمع البيانات إلى الحد المحدد، يتوقف تلقائيا لليوم وسيستأنف فقط خلال يوم الجمع التالي.
الإجراءات الموصى بها:
- تحقق من الجدول بحثا عن
_LogOperation
توقف المجموعة واستئناف المجموعة للأحداث:_LogOperation | where TimeGenerated >= ago(7d) | where Category == "Ingestion" | where Detail has "Data collection"
- إنشاء تنبيه على حدث العملية "تم إيقاف جمع البيانات". يعلمك هذا التنبيه عند الوصول إلى حد المجموعة.
- سيتم فقدان البيانات التي يتم جمعها بعد الوصول إلى حد الجمع اليومي. استخدم جزء Workspace insights لمراجعة معدلات الاستخدام من كل مصدر. أو يمكنك أن تقرر إدارة الحد الأقصى لحجم البيانات اليومية أو تغيير مستوى التسعير إلى مستوى يناسب نمط أسعار التجميع.
- يتم حساب معدل جمع البيانات يوميا وإعادة تعيينه في بداية اليوم التالي. يمكنك أيضا مراقبة حدث استئناف مجموعة عن طريق إنشاء تنبيه على حدث عملية "استئناف جمع البيانات".
العملية: معدل الابتلاع
"تجاوز معدل حجم نقل البيانات الحد الأدنى في مساحة العمل: {0:0.00} ميغابايت لكل دقيقة وتم إسقاط البيانات."
الإجراءات الموصى بها:
_LogOperation
تحقق من الجدول بحثا عن حدث معدل الاستيعاب:_LogOperation | where TimeGenerated >= ago(7d) | where Category == "Ingestion" | where Operation has "Ingestion rate"
يتم إرسال حدث إلى جدول العملية في مساحة العمل كل ست ساعات بينما يستمر تجاوز الحد.- إنشاء تنبيه على حدث العملية "تم إيقاف جمع البيانات". يعلمك هذا التنبيه عند الوصول إلى الحد الأقصى.
- سيتم إسقاط البيانات التي يتم جمعها بينما وصل معدل الاستيعاب إلى 100 بالمائة وفقدها. استخدم جزء نتائج تحليلات مساحة العمل لمراجعة أنماط الاستخدام ومحاولة تقليلها.
لمزيد من المعلومات، راجع:
- حدود خدمة Azure Monitor
- تحليل الاستخدام في مساحة عمل Log Analytics
- حدود خدمة Azure Monitor
العملية: الحد الأقصى لعدد أعمدة الجدول
"تم إسقاط بيانات من نوع <اسم جدول> لأن عدد الحقول <الجديدة> يتجاوز حد <الحد الحالي لعدد الحقول المخصصة> لكل نوع بيانات."
الإجراء الموصى به: بالنسبة للجداول المخصصة، يمكنك الانتقال إلى تحليل البيانات في الاستعلامات.
العملية: التحقق من صحة المحتوى الميداني
"قيم الحقول التالية <اسم الحقل> من النوع <اسم الجدول> تم قصها إلى أقصى حجم مسموع، بايت <أقصى حجم حقل>. يُرجى ضبط إدخالاتك وفقاً لذلك".
تمت معالجة حقل أكبر من حجم الحد بواسطة سجلات Azure. تم اقتطاع الحقل إلى حد الحقل المسموح به. لا نوصي بإرسال حقول أكبر من الحد المسموح به لأنه يؤدي إلى فقدان البيانات.
الإجراءات الموصى بها:
تحقق من مصدر نوع البيانات المتأثرة:
- إذا تم إرسال البيانات من خلال واجهة برمجة تطبيقات جامع بيانات HTTP، فستحتاج إلى تغيير التعليمات البرمجية/البرنامج النصي لتقسيم البيانات قبل استيعابها.
- بالنسبة للسجلات المخصصة، التي تم جمعها بواسطة عامل Log Analytics، قم بتغيير إعدادات التسجيل للتطبيق أو الأداة.
- بالنسبة إلى أي نوع بيانات آخر، قم برفع حالة الدعم. لمزيد من المعلومات، راجعAzure Monitor service limits.
تجميع البيانات
يوفر القسم التالي معلومات حول جمع البيانات.
العملية: مجموعة سجل نشاط Azure
"فُقد الوصول إلى الاشتراك. تأكد من <أن اشتراك معرف> الاشتراك موجود في <مستأجر Microsoft Entra لمعرف> المستأجر. إذا تم نقل الاشتراك إلى مستأجر آخر، فلا يوجد أي تأثير على الخدمات، ولكن قد يستغرق نشر المعلومات الخاصة بالمستأجر ما يصل إلى ساعة".
في بعض الحالات، مثل نقل اشتراك إلى مستأجر مختلف، قد تتوقف سجلات نشاط Azure عن التدفق إلى مساحة العمل. في هذه الحالات، تحتاج إلى إعادة توصيل الاشتراك باتباع العملية الموضحة في هذه المقالة.
الإجراءات الموصى بها:
- إذا لم يعد الاشتراك المذكور في رسالة التحذير موجودا، فانتقل إلى جزء موصل سجل النشاط القديم ضمن كلاسيكي. حدد الاشتراك ذي الصلة، ثم حدد الزر قطع الاتصال .
- إذا لم يعد لديك حق الوصول إلى الاشتراك المذكور في رسالة التحذير:
- اتبع الخطوة السابقة لقطع اتصال الاشتراك.
- لمتابعة تجميع السجلات من هذا الاشتراك، اتصل بمالك الاشتراك لإصلاح الأذونات وإعادة تمكين مجموعة سجل النشاط.
- إنشاء إعداد تشخيص لإرسال سجل النشاط إلى مساحة عمل Log Analytics.
المندوب
يوفر القسم التالي معلومات عن العوامل.
العملية: Linux Agent
"فشل تطبيقان متتاليان للتكوين من إعدادات OMS."
تم تغيير إعدادات التكوين على المدخل.
الإجراء الموصى به: يتم طرح هذه المشكلة في حالة وجود مشكلة للعامل لاسترداد إعدادات التكوين الجديدة. للتخفيف من هذه المشكلة، أعد تثبيت العامل.
تحقق من _LogOperation
الجدول لحدث العامل:
_LogOperation | where TimeGenerated >= ago(6h) | where Category == "Agent" | where Operation == "Linux Agent" | distinct _ResourceId
تعرض القائمة معرفات المورد حيث يكون لدى العامل تكوين خاطئ. للتخفيف من المشكلة، أعد تثبيت العوامل المدرجة.
قواعد التنبيه
استخدم تنبيهات البحث في السجل في Azure Monitor ليتم إعلامك بشكل استباقي عند اكتشاف مشكلة في مساحة عمل Log Analytics. استخدم إستراتيجية تسمح لك بالرد في الوقت المناسب على المشكلات مع تقليل تكاليفك. سيتم تحصيل رسوم اشتراكك لكل قاعدة تنبيه كما هو موضح في تسعير Azure Monitor .
تتمثل الإستراتيجية الموصى بها في البدء بقاعدتي تنبيه بناءً على مستوى المشكلة. استخدم تردداً قصيراً مثل كل 5 دقائق للأخطاء وتكرار أطول مثل 24 ساعة للتحذيرات. نظرا لأن الأخطاء تشير إلى فقدان محتمل للبيانات، فأنت تريد الاستجابة لها بسرعة لتقليل أي خسارة. تشير التحذيرات عادة إلى مشكلة لا تتطلب اهتماما فوريا، حتى تتمكن من مراجعتها يوميا.
استخدم العملية في إنشاء تنبيهات بحث السجل وعرضها وإدارتها باستخدام Azure Monitor لإنشاء قواعد تنبيه بحث السجل. تصف الأقسام التالية تفاصيل كل قاعدة.
الاستعلام | قيمة الحد | المدة | التكرار |
---|---|---|---|
_LogOperation | where Level == "Error" |
0 | 5 | 5 |
_LogOperation | where Level == "Warning" |
0 | 1,440 | 1,440 |
تستجيب قواعد التنبيه هذه بنفس الطريقة لجميع العمليات باستخدام خطأ أو تحذير. عندما تصبح أكثر دراية بالعمليات التي تقوم بإنشاء التنبيهات، قد تحتاج إلى الاستجابة بشكل مختلف لعمليات معينة. على سبيل المثال، قد ترغب في إرسال إعلامات إلى أشخاص مختلفين لعمليات معينة.
لإنشاء قاعدة تنبيه لعملية معينة، استخدم استعلاماً يتضمن عمودي الفئة و العملية .
ينشئ المثال التالي تنبيه تحذير عندما يصل معدل حجم الاستيعاب إلى 80 بالمائة من الحد:
- الهدف: حدد مساحة عمل تحليلات السجل
- معايير:
- اسم الإشارة: بحث السجل المخصص
- استعلام البحث:
_LogOperation | where Category == "Ingestion" | where Operation == "Ingestion rate" | where Level == "Warning"
- استنادًا إلى: عدد النتائج
- الشرط: أكبر من
- الحد: 0
- الفترة: 5 (دقائق)
- التردد: 5 (دقائق)
- اسم قاعدة التنبيه: تم الوصول إلى نقطة ارتكاز البيانات اليومي
- شدة: تحذير (Sev 1)
ينشئ المثال التالي تنبيه تحذير عندما يصل جمع البيانات إلى الحد اليومي:
- الهدف: حدد مساحة عمل تحليلات السجل
- معايير:
- اسم الإشارة: بحث السجل المخصص
- استعلام البحث:
_LogOperation | where Category == "Ingestion" | where Operation == "Data collection Status" | where Level == "Warning"
- استنادًا إلى: عدد النتائج
- الشرط: أكبر من
- الحد: 0
- الفترة: 5 (دقائق)
- التردد: 5 (دقائق)
- اسم قاعدة التنبيه: تم الوصول إلى نقطة ارتكاز البيانات اليومي
- شدة: تحذير (Sev 1)
الخطوات التالية
- تعرف على المزيد حول تنبيهات البحث في السجل.
- جمع بيانات تدقيق الاستعلام لمساحة العمل الخاصة بك.