Mengelola siklus hidup mesin bare metal
Artikel ini menjelaskan cara melakukan operasi manajemen siklus hidup pada mesin bare metal (BMM). Langkah-langkah ini harus digunakan untuk tujuan pemecahan masalah untuk pulih dari kegagalan atau saat mengambil tindakan pemeliharaan. Perintah untuk mengelola siklus hidup BMM meliputi:
Perhatian
Jangan melakukan tindakan apa pun terhadap server manajemen tanpa terlebih dahulu berkonsultasi dengan personel dukungan Microsoft. Melakukannya dapat memengaruhi integritas Kluster Nexus Operator.
- Mematikan BMM
- Memulai BMM
- Menghidupkan ulang BMM
- Membuat BMM tidak dapat dischedulable (cordon tanpa evakuasi)
- Membuat BMM tidak dapat dischedulable (cordon dengan evakuasi)
- Membuat Schedulable BMM (uncordon)
- Mengincar kembali BMM
- Mengganti BMM
Penting
Permintaan perintah yang mengganggu terhadap node Kubernetes Control Plane (KCP) ditolak jika ada perintah tindakan mengganggu lain yang sudah berjalan terhadap node KCP lain atau jika KCP lengkap tidak tersedia. Pemeriksaan ini dilakukan untuk menjaga integritas instans Nexus dan memastikan beberapa simpul KCP tidak menjadi tidak beroperasi sekaligus karena tindakan disruptif secara bersamaan. Jika beberapa node menjadi tidak beroperasi, node tersebut akan memutus ambang kuorum yang sehat dari Sarana Kontrol Kubernetes.
Tindakan tebal dalam daftar di atas dianggap mengganggu (Matikan, Hidupkan Ulang, Gambar Ulang, Ganti). Cordon tanpa evakuasi tidak dianggap mengganggu. Cordon dengan evakuasi dianggap mengganggu.
Seperti yang disebutkan dalam pernyataan peringatan, menjalankan tindakan terhadap server manajemen, terutama simpul KCP, hanya boleh dilakukan dalam konsultasi dengan personel dukungan Microsoft.
Prasyarat
- Instal versi terbaru ekstensi CLI yang sesuai.
- Dapatkan nama grup sumber daya untuk BMM - Nama grup sumber daya terkelola kluster (cluster_MRG) .
- Dapatkan nama mesin bare metal yang memerlukan operasi manajemen siklus hidup.
- Pastikan bahwa mesin
poweredState
bare metal target diatur keOn
danreadyState
diatur keTrue
.- Prasyarat ini tidak berlaku untuk
start
perintah .
- Prasyarat ini tidak berlaku untuk
Mematikan BMM
Perintah ini akan power-off
ditentukan bareMetalMachineName
.
az networkcloud baremetalmachine power-off \
--name <BareMetalMachineName> \
--resource-group <resourceGroup> \
--subscription <subscriptionID>
Memulai BMM
Perintah ini akan start
ditentukan bareMetalMachineName
.
az networkcloud baremetalmachine start \
--name <BareMetalMachineName> \
--resource-group <resourceGroup> \
--subscription <subscriptionID>
Menghidupkan ulang BMM
Perintah ini akan restart
ditentukan bareMetalMachineName
.
az networkcloud baremetalmachine restart \
--name <BareMetalMachineName> \
--resource-group <resourceGroup> \
--subscription <subscriptionID>
Membuat BMM tidak dapat dischedulable (cordon)
Untuk mengidentifikasi apakah ada beban kerja yang saat ini berjalan di BMM, jalankan perintah berikut:
Untuk Komputer Virtual:
az networkcloud baremetalmachine show -n <nodeName> /
--resource-group <resourceGroup> /
--subscription <subscriptionID> | jq '.virtualMachinesAssociatedIds'
Untuk node kluster Nexus Kubernetes: (memerlukan pengelogan ke kluster Nexus Kubernetes)
kubectl get nodes <resourceName> -ojson |jq '.metadata.labels."topology.kubernetes.io/baremetalmachine"'
Anda dapat membuat BMM tidak dapat dischedulable dengan menjalankan cordon
perintah .
Pada eksekusi cordon
perintah, beban kerja Operator Nexus tidak dijadwalkan pada BMM ketika cordon diatur; setiap upaya untuk membuat beban kerja pada cordoned
BMM menghasilkan beban kerja yang diatur ke pending
status. Beban kerja yang ada terus berjalan.
Perintah cordon mendukung evacuate
parameter dengan nilai default False
.
Ini adalah praktik terbaik untuk mengatur ini ke True
. Saat menjalankan cordon
perintah, dengan nilai True
untuk evacuate
parameter , beban kerja yang berjalan pada BMM adalah stopped
dan BMM diatur ke pending
status.
az networkcloud baremetalmachine cordon \
--evacuate "True" \
--name <BareMetalMachineName> \
--resource-group <resourceGroup> \
--subscription <subscriptionID>
menghapus evacuate "True"
beban kerja dari simpul tersebut sementara evacuate "False"
hanya mencegah penjadwalan beban kerja baru.
Membuat BMM "schedulable" (uncordon)
Anda dapat membuat BMM "schedulable" (dapat digunakan) dengan menjalankan uncordon
perintah. Semua beban kerja dalam status pending
pada BMM adalah restarted
ketika BMM adalah uncordoned
.
az networkcloud baremetalmachine uncordon \
--name <BareMetalMachineName> \
--resource-group <resourceGroup> \
--subscription <subscriptionID>
Mengincar kembali BMM
Anda dapat memulihkan versi runtime pada BMM dengan menjalankan reimage
perintah. Proses ini menyebarkan ulang gambar runtime pada BMM target dan menjalankan langkah-langkah untuk bergabung kembali dengan kluster dengan pengidentifikasi yang sama. Tindakan ini tidak memengaruhi file beban kerja penyewa pada BMM ini. Jika tindakan tulis atau edit dilakukan pada simpul melalui akses BMM, tindakan 'reimage' ini diperlukan untuk memulihkan dukungan Microsoft dan perubahan akan hilang, memulihkan simpul ke status yang diharapkan.
Sebagai praktik terbaik, pastikan beban kerja BMM dikeringkan menggunakan cordon
perintah , dengan evacuate "True"
, sebelum menjalankan reimage
perintah .
Peringatan
Menjalankan lebih dari satu baremetalmachine replace
atau reimage
perintah secara bersamaan, atau menjalankan replace
pada saat yang sama dengan reimage
akan meninggalkan server dalam status tidak berfungsi. Pastikan satu replace
/reimage
telah selesai sepenuhnya sebelum memulai yang lain.
az networkcloud baremetalmachine reimage \
--name <BareMetalMachineName> \
--resource-group <resourceGroup> \
--subscription <subscriptionID>
Mengganti BMM
replace
Gunakan perintah ketika server mengalami masalah perangkat keras yang memerlukan penggantian perangkat keras lengkap atau parsial. Setelah penggantian komponen seperti motherboard atau penggantian Network Interface Card (NIC), alamat MAC BMM akan berubah, namun alamat IP iDRAC dan nama host akan tetap sama.
Peringatan
Menjalankan lebih dari satu baremetalmachine replace
atau reimage
perintah secara bersamaan, atau menjalankan replace
pada saat yang sama dengan reimage
akan meninggalkan server dalam status tidak berfungsi. Pastikan satu replace
/reimage
telah selesai sepenuhnya sebelum memulai yang lain.
az networkcloud baremetalmachine replace \
--name <BareMetalMachineName> \
--resource-group <resourceGroup> \
--bmc-credentials password=<IDRAC_PASSWORD> username=<IDRAC_USER> \
--bmc-mac-address <IDRAC_MAC> \
--boot-mac-address <PXE_MAC> \
--machine-name <OS_HOSTNAME> \
--serial-number <SERIAL_NUMBER> \
--subscription <subscriptionID>