تثبيت برامج تشغيل NVIDIA GPU على الأجهزة الظاهرية من السلسلة N التي تعمل بنظام التشغيل Linux
تنبيه
تشير هذه المقالة إلى CentOS، وهو توزيع Linux هو حالة نهاية العمر الافتراضي (EOL). يرجى مراعاة استخدامك والتخطيط وفقا لذلك. لمزيد من المعلومات، راجع إرشادات نهاية العمر الافتراضي CentOS.
ينطبق على: ✔️ أجهزة Linux الظاهرية
للاستفادة من إمكانات GPU الخاصة بالأجهزة الظاهرية من السلسلة Azure N المدعومة بوحدات NVIDIA GPU، يجب تثبيت برامج تشغيل وحدة NVIDIA GPU. يقوم ملحق برنامج تشغيل NVIDIA GPU بتثبيت برامج تشغيل NVIDIA CUDA أو GRID المناسبة على جهاز ظاهري من السلسلة N. قم بتثبيت الملحق أو إدارته باستخدام مدخل Azure أو أدوات مثل قوالب Azure CLI أو Azure Resource Manager. راجع وثائق ملحق برنامج تشغيل NVIDIA GPU للاطلاع على التوزيعات المدعومة وخطوات النشر.
إذا اخترت تثبيت برامج تشغيل NVIDIA GPU يدويا، فستوفر هذه المقالة التوزيعات وبرامج التشغيل وخطوات التثبيت والتحقق المدعومة. تتوفر أيضًا معلومات إعداد برنامج التشغيل يدويًا لأجهزة Windows الظاهرية.
للحصول على مواصفات الجهاز الظاهري من السلسلة N وسعات التخزين وتفاصيل القرص، راجع أحجام الجهاز الظاهري لـ GPU Linux.
التوزيعات وبرامج التشغيل المدعومة
برامج تشغيل NVIDIA CUDA
للحصول على أحدث برامج تشغيل CUDA وأنظمة التشغيل المدعومة، تفضل بزيارة موقع NVIDIA على الويب. تأكد من تثبيت أحدث برامج تشغيل CUDA المدعومة أو ترقيتها لتوزيعك.
إشعار
أحدث برامج تشغيل CUDA المدعومة لأجهزة SKU الظاهرية الأصلية من سلسلة NC هي حاليا 470.82.01. إصدارات برنامج التشغيل الأحدث غير معتمدة على بطاقات K80 في NC.
إشعار
تدعم أجهزة Azure NVads A10 v5 الظاهرية فقط إصدارات GRID 14.1(510.73) أو إصدارات برامج تشغيل أعلى. برنامج تشغيل vGPU ل A10 SKU هو برنامج تشغيل موحد يدعم كل من أحمال عمل الرسومات والحوسبة.
تلميح
كبديل لتثبيت برنامج تشغيل CUDA يدويًا على جهاز Linux الظاهري، يمكنك نشر صورة الجهاز الظاهري لعلوم بيانات Azure. يقوم إصدار DSVM ل Ubuntu 16.04 LTS مسبقا بتثبيت برامج تشغيل NVIDIA CUDA ومكتبة الشبكة العصبية العميقة CUDA وأدوات أخرى.
NVIDIA GRID drivers
تقوم Microsoft بإعادة توزيع مثبتات برامج تشغيل NVIDIA GRID للأجهزة الظاهرية من السلسلة NV وNVv3 المستخدمة كمحطات عمل افتراضية أو للتطبيقات الظاهرية. قم بتثبيت برامج تشغيل GRID هذه فقط على أجهزة Azure NV الظاهرية، وعلى أنظمة التشغيل المسردة في الجدول التالي فقط. تتضمن برامج التشغيل هذه ترخيص برنامج GRID Virtual GPU في Azure. لا تحتاج إلى إعداد خادم ترخيص برنامج NVIDIA vGPU.
لا تعمل برامج تشغيل GRID التي تم إعادة توزيعها بواسطة Azure على معظم الأجهزة الظاهرية من السلسلة غير NV مثل NC وNCv2 وNCv3 وND وNDv2-series VMs ولكنها تعمل على سلسلة NCasT4v3.
لمزيد من المعلومات حول إصدارات vGPU وفرع برنامج التشغيل المحددة، تفضل بزيارة موقع NVIDIA على الويب.
التوزيع | برنامج التشغيل |
---|---|
Ubuntu 20.04 LTS، 22.04 LTS، 24.02 LTS Red Hat Enterprise Linux 8.6، 8.8، 8.9، 8.10، 9.0، 9.2، 9.3، 9.4، 9.5 SUSE Linux Enterprise Server 15 SP2, 12 SP2,12 SP5 Rocky Linux 8.4 |
NVIDIA vGPU 17.5، فرع برنامج التشغيل R550 NVIDIA vGPU 17.5، فرع برنامج التشغيل R550 |
إشعار
بالنسبة إلى الأجهزة الظاهرية ل Azure NVads A10 v5، نوصي العملاء بأن يكونوا دائما على أحدث إصدار من برنامج التشغيل. أحدث فرع لبرنامج تشغيل NVIDIA الرئيسي (n) هو التوافق مع الإصدارات السابقة من الإصدار الرئيسي (n-1) فقط. على سبيل المثال، vGPU 17.x متوافق مع الإصدارات السابقة مع vGPU 16.x فقط. قد ترى أي أجهزة ظاهرية لا تزال runnig n-2 أو أقل فشل برنامج التشغيل عند طرح أحدث فرع لمحرك الأقراص إلى مضيفي Azure.
NVs_v3 الأجهزة الظاهرية تدعم إصدار برنامج تشغيل vGPU 16 أو أقل فقط.
يدعم برنامج تشغيل GRID 17.3 حاليا سلسلة NCasT4_v3 فقط من الأجهزة الظاهرية. لاستخدام برنامج التشغيل هذا، قم بتنزيل وتثبيت برنامج تشغيل GRID 17.3 يدويا . لدينا مشكلات في الترخيص على سلسلة NVv5 A10 وتعمل Azure بنشاط مع Nvidia لحلها. استخدم الإصدارات الأقل من v17.x على سلسلة NVv5 A10. يقوم الملحق حاليا بتثبيت برامج تشغيل GRID 16.5.
تفضل بزيارة GitHub للحصول على القائمة الكاملة لجميع روابط برامج تشغيل Nvidia GRID السابقة.
تحذير
تثبيت برامج الجهات الخارجية على منتجات Red Hat قد يؤثر على شروط دعم Red Hat. راجع مقالة قاعدة معارف Red Hat.
تثبيت برامج تشغيل CUDA على الأجهزة الظاهرية من السلسلة N
فيما يلي خطوات تثبيت برامج تشغيل CUDA من مجموعة أدوات NVIDIA CUDA على الأجهزة الظاهرية من السلسلة N.
يمكن لمطوري C و C ++ اختياريًا تثبيت مجموعة الأدوات الكاملة لإنشاء تطبيقات مسرعة لـ GPU. لمزيد من المعلومات، راجع دليل تثبيت CUDA.
لتثبيت برامج تشغيل CUDA، قم بإجراء اتصال SSH بكل جهاز ظاهري. للتحقق من أن النظام يحتوي على GPU قادرة على CUDA، قم بتشغيل الأمر التالي:
lspci | grep -i NVIDIA
الإخراج مشابه للمثال التالي (يظهر بطاقة NVIDIA Tesla K80):
يسرد lspci أجهزة PCIe على الجهاز الظاهري، بما في ذلك InfiniBand NIC ووحدات GPU، إن وجدت. إذا لم يرجع lspci بنجاح، فقد تحتاج إلى تثبيت LIS على CentOS/RHEL.
ثم قم بتشغيل أوامر التثبيت الخاصة بتوزيعك.
Ubuntu
يحزم Ubuntu برامج تشغيل NVIDIA الخاصة. تأتي برامج التشغيل هذه مباشرة من NVIDIA ويتم حزمها ببساطة بواسطة Ubuntu بحيث يمكن إدارتها تلقائيا من قبل النظام. يمكن أن يؤدي تنزيل برامج التشغيل وتثبيتها من مصدر آخر إلى نظام معطل. علاوة على ذلك، يتطلب تثبيت برامج تشغيل الجهات الخارجية خطوات إضافية على الأجهزة الظاهرية مع تمكين TrustedLaunch والتمهيد الآمن. وهي تتطلب من المستخدم إضافة مفتاح مالك جهاز جديد للنظام للتمهيد. يتم توقيع برامج التشغيل من Ubuntu بواسطة Canonical وستعمل مع التمهيد الآمن.
تثبيت
ubuntu-drivers
الأداة المساعدة:sudo apt update && sudo apt install -y ubuntu-drivers-common
تثبيت أحدث برامج تشغيل NVIDIA:
sudo ubuntu-drivers install
أعد تشغيل الجهاز الظاهري بعد تثبيت برنامج تشغيل GPU.
قم بتنزيل وتثبيت مجموعة أدوات CUDA من NVIDIA:
إشعار
يوضح المثال مسار حزمة CUDA ل Ubuntu 24.04 LTS. استبدل المسار الخاص بالإصدار الذي تخطط لاستخدامه.
تفضل بزيارة مركز تنزيل NVIDIA أو صفحة موارد NVIDIA CUDA للحصول على المسار الكامل الخاص بكل إصدار.
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2404/x86_64/cuda-keyring_1.1-1_all.deb sudo apt install -y ./cuda-keyring_1.1-1_all.deb sudo apt update sudo apt -y install cuda-toolkit-12-5
قد يستغرق التثبيت عدة دقائق.
إعادة تشغيل الجهاز الظاهري بعد اكتمال التثبيت:
sudo reboot
تحقق من التعرف على وحدة معالجة الرسومات بشكل صحيح (بعد إعادة التشغيل):
nvidia-smi
تحديثات برنامج تشغيل NVIDIA
نوصي بتحديث برامج تشغيل NVIDIA بشكل دوري بعد التوزيع.
sudo apt update
sudo apt full-upgrade
CentOS أو Red Hat Enterprise Linux
قم بتحديث النواة (مستحسن). إذا اخترت عدم تحديث النواة، فتأكد من
kernel-devel
أن إصدارات وdkms
مناسبة لنواة الخاص بك.sudo yum install kernel kernel-tools kernel-headers kernel-devel sudo reboot
قم بتثبيت أحدث خدمات تكامل Linux لـ Hyper-V وAzure. تحقق مما إذا كان LIS مطلوبًا من خلال التحقق من نتائج lspci. إذا كانت جميع أجهزة GPU مدرجة كما هو متوقع، فلن يكون تثبيت LIS مطلوبا.
ينطبق LIS على Red Hat Enterprise Linux وCentOS وKernel المتوافق مع Oracle Linux Red Hat Kernel 5.2-5.11 و6.0-6.10 و7.0-7.7. راجع وثائق Linux Integration Services لمزيد من التفاصيل. تخطي هذه الخطوة إذا كنت تخطط لاستخدام CentOS/RHEL 7.8 (أو الإصدارات الأحدث) حيث لم يعد LIS مطلوبًا لهذه الإصدارات.
wget https://aka.ms/lis tar xvzf lis cd LISISO sudo ./install.sh sudo reboot
أعد الاتصال بالجهاز الظاهري وتابع التثبيت باستخدام الأوامر التالية:
sudo rpm -Uvh https://dl.fedoraproject.org/pub/epel/epel-release-latest-7.noarch.rpm sudo yum-config-manager --add-repo https://developer.download.nvidia.com/compute/cuda/repos/rhel7/x86_64/cuda-rhel7.repo sudo yum clean all sudo yum -y install nvidia-driver-latest-dkms cuda-drivers
قد يستغرق التثبيت عدة دقائق.
إشعار
قم بزيارة Fedora و Nvidia CUDA repo لاختيار الحزمة الصحيحة لإصدار CentOS أو RHEL الذي تريد استخدامه.
على سبيل المثال، تحتاج CentOS 8 و RHEL 8 إلى الخطوات التالية.
sudo rpm -Uvh https://dl.fedoraproject.org/pub/epel/epel-release-latest-8.noarch.rpm
sudo yum install dkms
sudo wget https://developer.download.nvidia.com/compute/cuda/repos/rhel8/x86_64/cuda-rhel8.repo -O /etc/yum.repos.d/cuda-rhel8.repo
sudo yum install cuda-drivers
لتثبيت مجموعة أدوات CUDA الكاملة اختياريًا، اكتب:
sudo yum install cuda
إشعار
إذا رأيت رسالة خطأ تتعلق بالحزم المفقودة مثل نظام الملفات vulkan، فقد تحتاج إلى تحرير /etc/yum.repos.d/rh-cloud، والبحث عن عدد الدورات في الدقيقة الاختياري وتعيينه ممكنا إلى 1
أعد تشغيل الجهاز الظاهري وتابع للتحقق من التثبيت.
التحقق من تثبيت برنامج التشغيل
للاستعلام عن حالة جهاز GPU، قم بإجراء اتصال SSH بالجهاز الظاهري وتشغيل الأداة المساعدة لسطر الأوامر nvidia-smi المثبتة مع برنامج التشغيل.
إذا تم تثبيت برنامج التشغيل، فإن Nvidia SMI يسرد GPU-Util ك 0٪ حتى تقوم بتشغيل حمل عمل GPU على الجهاز الظاهري. قد يختلف إصدار برنامج التشغيل وتفاصيل GPU عن تلك المعروضة.
اتصال شبكة RDMA
يمكن تمكين اتصال شبكة RDMA على الأجهزة الظاهرية من السلسلة N القادرة على RDMA مثل NC24r التي تم نشرها في نفس مجموعة التوفر أو في مجموعة موضع واحدة في مجموعة مقياس جهاز ظاهري (VM). تدعم شبكة RDMA حركة مرور واجهة تمرير الرسائل (MPI) للتطبيقات التي تعمل باستخدام Intel MPI 5.x أو إصدار أحدث:
التوزيعات
نشر الأجهزة الظاهرية من السلسلة N القادرة على RDMA من إحدى الصور في Azure Marketplace التي تدعم اتصال RDMA على الأجهزة الظاهرية من السلسلة N:
Ubuntu 16.04 LTS - تكوين برامج تشغيل RDMA على الجهاز الظاهري والتسجيل باستخدام Intel لتنزيل Intel MPI:
تثبيت dapl و rdmacm و ibverbs و mlx4
sudo apt-get update sudo apt-get install libdapl2 libmlx4-1
في /etc/waagent.conf، قم بتمكين RDMA عن طريق إلغاء التعليق على بنود التكوين التالية. تحتاج إلى الوصول إلى الجذر لتحرير هذا الملف.
OS.EnableRDMA=y OS.UpdateRdmaDriver=y
قم بإضافة أو تغيير إعدادات الذاكرة التالية في KB بالملف /etc/security/limits.conf. تحتاج إلى الوصول إلى الجذر لتحرير هذا الملف. لأغراض الاختبار، يمكنك تعيين memlock إلى غير محدود. على سبيل المثال:
<User or group name> hard memlock unlimited
.<User or group name> hard memlock <memory required for your application in KB> <User or group name> soft memlock <memory required for your application in KB>
قم بتثبيت مكتبة Intel MPI. إما شراء وتنزيل المكتبة من Intel أو تنزيل إصدار التقييم المجاني.
wget http://registrationcenter-download.intel.com/akdlm/irc_nas/tec/9278/l_mpi_p_5.1.3.223.tgz
يتم دعم أوقات تشغيل Intel MPI 5.x فقط.
للحصول على خطوات التثبيت، راجع دليل تثبيت مكتبة التعليمات البرمجية Intel MPI.
تمكين ptrace لعمليات غير ذات صلة بالجذر ومصحح الأخطاء (اللازمة لأحدث إصدارات Intel MPI).
echo 0 | sudo tee /proc/sys/kernel/yama/ptrace_scope
7.4 HPC القائمة على CentOS - يتم تثبيت برامج تشغيل RDMA وIntel MPI 5.1 على الجهاز الظاهري.
HPC القائم على CentOS - CentOS-HPC 7.6 فالأحدث (لـSKUs حيث يتم دعم InfiniBand عبر SR-IOV). تحتوي هذه الصور على مكتبات Mellanox OFED وMPI مثبتة مسبقًا.
إشعار
يتم دعم بطاقات CX3-Pro فقط من خلال إصدارات LTS من Mellanox OFED. استخدم إصدار LTS Mellanox OFED (4.9-0.1.7.0) على الأجهزة الظاهرية من السلسلة N مع بطاقات ConnectX3-Pro. لمزيد من المعلومات، راجع برامج تشغيل Linux.
أيضًا، تحتوي بعض أحدث صور HPC Azure Marketplace على Mellanox OFED 5.1 والإصدارات الأحدث، والتي لا تدعم بطاقات ConnectX3-Pro. تحقق من إصدار Mellanox OFED في صورة HPC قبل استخدامه على الأجهزة الظاهرية مع بطاقات ConnectX3-Pro.
الصور التالية هي أحدث صور CentOS-HPC التي تدعم بطاقات ConnectX3-Pro:
- OpenLogic:CentOS-HPC:7.6:7.6.2020062900
- OpenLogic:CentOS-HPC:7_6gen2:7.6.2020062901
- OpenLogic:CentOS-HPC:7.7:7.7.2020062600
- OpenLogic:CentOS-HPC:7_7-gen2:7.7.2020062601
- OpenLogic:CentOS-HPC:8_1:8.1.2020062400
- OpenLogic:CentOS-HPC:8_1-gen2:8.1.2020062401
تثبيت برامج تشغيل GRID على الأجهزة الظاهرية من سلسلة NV أو NVv3
لتثبيت برامج تشغيل NVIDIA GRID على الأجهزة الظاهرية من سلسلة NV أو NVv3، قم بإجراء اتصال SSH بكل جهاز ظاهري واتبع الخطوات الخاصة بتوزيع Linux الخاص بك.
Ubuntu
تشغيل الأمر
lspci
. تحقق من أن بطاقة NVIDIA M60 أو البطاقات مرئية كأجهزة PCI.قم بتثبيت التحديثات.
sudo apt-get update sudo apt-get upgrade -y sudo apt-get dist-upgrade -y sudo apt-get install build-essential ubuntu-desktop -y sudo apt-get install linux-azure -y
قم بتعطيل برنامج تشغيل نواة Nouveau، وهو غير متوافق مع برنامج تشغيل NVIDIA. (استخدم برنامج تشغيل NVIDIA فقط على NV أو NVv2 VMs.) لتعطيل برنامج التشغيل، قم بإنشاء ملف باسم
/etc/modprobe.d
nouveau.conf
بالمحتويات التالية:blacklist nouveau blacklist lbm-nouveau
أعد تشغيل الجهاز الظاهري وأعد الاتصال. إنهاء خادم X:
sudo systemctl stop lightdm.service
تحميل برنامج تشغيل GRID وتثبيته:
wget -O NVIDIA-Linux-x86_64-grid.run https://go.microsoft.com/fwlink/?linkid=874272 chmod +x NVIDIA-Linux-x86_64-grid.run sudo ./NVIDIA-Linux-x86_64-grid.run
عندما يتم سؤالك عما إذا كنت تريد تشغيل الأداة المساعدة nvidia-xconfig لتحديث ملف تكوين X، حدد نعم.
بعد اكتمال التثبيت، انسخ /etc/nvidia/gridd.conf.template إلى ملف gridd.conf جديد في الموقع /etc/nvidia/
sudo cp /etc/nvidia/gridd.conf.template /etc/nvidia/gridd.conf
إضافة الآتي إلى
/etc/nvidia/gridd.conf
:IgnoreSP=FALSE EnableUI=FALSE
قم بإزالة ما يلي من
/etc/nvidia/gridd.conf
إذا كان موجودًا:FeatureType=0
أعد تشغيل الجهاز الظاهري وتابع للتحقق من التثبيت.
تثبيت برنامج تشغيل GRID على Ubuntu مع تمكين التمهيد الآمن
لا تقدم عملية تثبيت برنامج تشغيل GRID أي خيارات لتخطي إنشاء الوحدة النمطية kernel وتثبيتها وتحديد مصدر مختلف لوحدات kernel الموقعة، لذلك يجب تعطيل التمهيد الآمن في أجهزة Linux الظاهرية من أجل استخدامها مع GRID، بعد تثبيت وحدات kernel الموقعة.
CentOS أو Red Hat Enterprise Linux
قم بتحديث النواة و DKMS (مستحسن). إذا اخترت عدم تحديث النواة، فتأكد من أن إصدارات
kernel-devel
وdkms
مناسبة لها.sudo yum update sudo yum install kernel-devel sudo rpm -Uvh https://dl.fedoraproject.org/pub/epel/epel-release-latest-7.noarch.rpm sudo yum install dkms sudo yum install hyperv-daemons
قم بتعطيل برنامج تشغيل نواة Nouveau، وهو غير متوافق مع برنامج تشغيل NVIDIA. (استخدم برنامج تشغيل NVIDIA على الأجهزة الظاهرية من السلسلة NV أو NV3 فقط.) للقيام بذلك، قم بإنشاء ملف باسم
/etc/modprobe.d
يتضمنnouveau.conf
المحتويات التالية:blacklist nouveau blacklist lbm-nouveau
أعد تشغيل الجهاز الظاهري وأعد الاتصال وقم بتثبيت أحدث خدمات تكامل Linux لـHyper-V وAzure. تحقق مما إذا كان LIS مطلوبًا من خلال التحقق من نتائج lspci. إذا كانت جميع أجهزة GPU مدرجة كما هو متوقع، فلن يكون تثبيت LIS مطلوبا.
تخطي هذه الخطوة إذا كنت تخطط لاستخدام CentOS/RHEL 7.8 (أو الإصدارات الأحدث) حيث لم يعد LIS مطلوبًا لهذه الإصدارات.
wget https://aka.ms/lis tar xvzf lis cd LISISO sudo ./install.sh sudo reboot
أعد الاتصال بالجهاز الظاهري وقم بتشغيل الأمر
lspci
. تحقق من أن بطاقة NVIDIA M60 أو البطاقات مرئية كأجهزة PCI.تحميل برنامج تشغيل GRID وتثبيته:
wget -O NVIDIA-Linux-x86_64-grid.run https://go.microsoft.com/fwlink/?linkid=874272 chmod +x NVIDIA-Linux-x86_64-grid.run sudo ./NVIDIA-Linux-x86_64-grid.run
عندما يتم سؤالك عما إذا كنت تريد تشغيل الأداة المساعدة nvidia-xconfig لتحديث ملف تكوين X، حدد نعم.
بعد اكتمال التثبيت، انسخ /etc/nvidia/gridd.conf.template إلى ملف gridd.conf جديد في الموقع /etc/nvidia/
sudo cp /etc/nvidia/gridd.conf.template /etc/nvidia/gridd.conf
إضافة سطرين إلى
/etc/nvidia/gridd.conf
:IgnoreSP=FALSE EnableUI=FALSE
إزالة سطر واحد من
/etc/nvidia/gridd.conf
إذا كان موجودا:FeatureType=0
أعد تشغيل الجهاز الظاهري وتابع للتحقق من التثبيت.
التحقق من تثبيت برنامج التشغيل
للاستعلام عن حالة جهاز GPU، قم بإجراء اتصال SSH بالجهاز الظاهري وتشغيل الأداة المساعدة لسطر الأوامر nvidia-smi المثبتة مع برنامج التشغيل.
إذا تم تثبيت برنامج التشغيل، سيقوم Nvidia SMI بإدراج GPU-Util ك 0٪ حتى تقوم بتشغيل حمل عمل GPU على الجهاز الظاهري. قد يختلف إصدار برنامج التشغيل وتفاصيل GPU عن تلك المعروضة.
خادم X11
إذا كنت بحاجة إلى خادم X11 للاتصالات البعيدة بجهاز ظاهري من السلسلة NV أو NVv2، فمن المستحسن استخدام x11vnc لأنه يسمح بتسريع الأجهزة للرسومات. يجب إضافة BusID الخاص بجهاز M60 يدويًا إلى ملف تكوين X11 (عادة، etc/X11/xorg.conf
). أضف قسم "Device"
مشابه لما يلي:
Section "Device"
Identifier "Device0"
Driver "nvidia"
VendorName "NVIDIA Corporation"
BoardName "Tesla M60"
BusID "PCI:0@your-BusID:0:0"
EndSection
بالإضافة إلى ذلك، قم بتحديث قسم "Screen"
الخاص بك لاستخدام هذا الجهاز.
يمكن العثور على BusID العشري عن طريق التشغيل
nvidia-xconfig --query-gpu-info | awk '/PCI BusID/{print $4}'
يمكن أن يتغير BusID عند إعادة تخصيص جهاز ظاهري أو إعادة تشغيله. لذلك، قد تحتاج إلى إنشاء برنامج نصي لتحديث BusID في تكوين X11 عند إعادة تشغيل جهاز ظاهري. على سبيل المثال، قم بإنشاء برنامج نصي باسم busidupdate.sh
(أو اسم آخر تختاره) بمحتويات مشابهة لما يلي:
#!/bin/bash
XCONFIG="/etc/X11/xorg.conf"
OLDBUSID=`awk '/BusID/{gsub(/"/, "", $2); print $2}' ${XCONFIG}`
NEWBUSID=`nvidia-xconfig --query-gpu-info | awk '/PCI BusID/{print $4}'`
if [[ "${OLDBUSID}" == "${NEWBUSID}" ]] ; then
echo "NVIDIA BUSID not changed - nothing to do"
else
echo "NVIDIA BUSID changed from \"${OLDBUSID}\" to \"${NEWBUSID}\": Updating ${XCONFIG}"
sed -e 's|BusID.*|BusID '\"${NEWBUSID}\"'|' -i ${XCONFIG}
fi
ثم قم بإنشاء إدخال للبرنامج النصي للتحديث الخاص بك في /etc/rc.d/rc3.d
بحيث يتم استدعاء البرنامج النصي كجذر عند التمهيد.
استكشاف الأخطاء وإصلاحها
- يمكنك تعيين وضع الثبات باستخدام
nvidia-smi
بحيث يكون إخراج الأمر أسرع عندما تحتاج إلى الاستعلام عن البطاقات. لتعيين وضع الثبات، نفذnvidia-smi -pm 1
. لاحظ أنه إذا تمت إعادة تشغيل الجهاز الظاهري، فسيختفي إعداد الوضع. يمكنك دائمًا برمجة إعداد الوضع لتنفيذه عند بدء التشغيل. - إذا قمت بتحديث برامج تشغيل NVIDIA CUDA إلى أحدث إصدار ووجدت أن اتصال RDMA لم يعد يعمل، فأعد تثبيت برامج تشغيل RDMA لإعادة إنشاء هذا الاتصال.
- أثناء تثبيت LIS، إذا لم يتم دعم إصدار معين من CentOS/RHEL OS (أو النواة) لـLIS، فسيتم طرح خطأ «إصدار النواة غير مدعوم». يرجى الإبلاغ عن هذا الخطأ مع إصدارات نظام التشغيل والنواة.
- إذا تمت مقاطعة المهام بسبب أخطاء ECC في GPU (سواء كانت قابلة للتصحيح أو غير قابلة للتصحيح)، فتحقق أولا لمعرفة ما إذا كانت GPU تفي بأي من معايير RMA الخاصة بأخطاء ECC لـNvidia. إذا كانت وحدة معالجة الرسومات مؤهلة للحصول على RMA، فيرجى الاتصال بالدعم بخصوص صيانتها؛ وإلا، فأعد تشغيل الجهاز الظاهري لإعادة توصيل وحدة GPU كما هو موضح هنا. لا تعمل الأساليب الأقل توغلا مثل
nvidia-smi -r
حل الظاهرية المنشور في Azure.
الخطوات التالية
- لالتقاط صورة جهاز Linux الظاهري باستخدام برامج تشغيل NVIDIA المثبتة، راجع كيفية تعميم جهاز Linux الظاهري والتقاطه.