Bagikan melalui


Mengelola siklus hidup mesin bare metal

Artikel ini menjelaskan cara melakukan operasi manajemen siklus hidup pada mesin bare metal (BMM). Langkah-langkah ini harus digunakan untuk tujuan pemecahan masalah untuk pulih dari kegagalan atau saat mengambil tindakan pemeliharaan. Perintah untuk mengelola siklus hidup BMM meliputi:

Perhatian

Jangan melakukan tindakan apa pun terhadap server manajemen tanpa terlebih dahulu berkonsultasi dengan personel dukungan Microsoft. Melakukannya dapat memengaruhi integritas Kluster Nexus Operator.

  • Mematikan BMM
  • Memulai BMM
  • Menghidupkan ulang BMM
  • Membuat BMM tidak dapat dischedulable (cordon tanpa evakuasi)
  • Membuat BMM tidak dapat dischedulable (cordon dengan evakuasi)
  • Membuat Schedulable BMM (uncordon)
  • Mengincar kembali BMM
  • Mengganti BMM

Penting

Permintaan perintah yang mengganggu terhadap node Kubernetes Control Plane (KCP) ditolak jika ada perintah tindakan mengganggu lain yang sudah berjalan terhadap node KCP lain atau jika KCP lengkap tidak tersedia. Pemeriksaan ini dilakukan untuk menjaga integritas instans Nexus dan memastikan beberapa simpul KCP tidak menjadi tidak beroperasi sekaligus karena tindakan disruptif secara bersamaan. Jika beberapa node menjadi tidak beroperasi, node tersebut akan memutus ambang kuorum yang sehat dari Sarana Kontrol Kubernetes.

Tindakan tebal dalam daftar di atas dianggap mengganggu (Matikan, Hidupkan Ulang, Gambar Ulang, Ganti). Cordon tanpa evakuasi tidak dianggap mengganggu. Cordon dengan evakuasi dianggap mengganggu.

Seperti yang disebutkan dalam pernyataan peringatan, menjalankan tindakan terhadap server manajemen, terutama simpul KCP, hanya boleh dilakukan dalam konsultasi dengan personel dukungan Microsoft.

Prasyarat

  1. Instal versi terbaru ekstensi CLI yang sesuai.
  2. Dapatkan nama grup sumber daya untuk BMM - Nama grup sumber daya terkelola kluster (cluster_MRG) .
  3. Dapatkan nama mesin bare metal yang memerlukan operasi manajemen siklus hidup.
  4. Pastikan bahwa mesin poweredState bare metal target diatur ke On dan readyState diatur ke True.
    1. Prasyarat ini tidak berlaku untuk start perintah .

Mematikan BMM

Perintah ini akan power-off ditentukan bareMetalMachineName.

az networkcloud baremetalmachine power-off \
  --name <BareMetalMachineName>  \
  --resource-group <resourceGroup> \
  --subscription <subscriptionID>

Memulai BMM

Perintah ini akan start ditentukan bareMetalMachineName.

az networkcloud baremetalmachine start \
  --name <BareMetalMachineName> \
  --resource-group <resourceGroup> \
  --subscription <subscriptionID>

Menghidupkan ulang BMM

Perintah ini akan restart ditentukan bareMetalMachineName.

az networkcloud baremetalmachine restart \
  --name <BareMetalMachineName> \
  --resource-group <resourceGroup> \
  --subscription <subscriptionID>

Membuat BMM tidak dapat dischedulable (cordon)

Untuk mengidentifikasi apakah ada beban kerja yang saat ini berjalan di BMM, jalankan perintah berikut:

Untuk Komputer Virtual:

az networkcloud baremetalmachine show -n <nodeName> /
--resource-group <resourceGroup> /
--subscription <subscriptionID> | jq '.virtualMachinesAssociatedIds'

Untuk node kluster Nexus Kubernetes: (memerlukan pengelogan ke kluster Nexus Kubernetes)

kubectl get nodes <resourceName> -ojson |jq '.metadata.labels."topology.kubernetes.io/baremetalmachine"'

Anda dapat membuat BMM tidak dapat dischedulable dengan menjalankan cordon perintah . Pada eksekusi cordon perintah, beban kerja Operator Nexus tidak dijadwalkan pada BMM ketika cordon diatur; setiap upaya untuk membuat beban kerja pada cordoned BMM menghasilkan beban kerja yang diatur ke pending status. Beban kerja yang ada terus berjalan. Perintah cordon mendukung evacuate parameter dengan nilai default False . Ini adalah praktik terbaik untuk mengatur ini ke True. Saat menjalankan cordon perintah, dengan nilai True untuk evacuate parameter , beban kerja yang berjalan pada BMM adalah stopped dan BMM diatur ke pending status.

az networkcloud baremetalmachine cordon \
  --evacuate "True" \
  --name <BareMetalMachineName> \
  --resource-group <resourceGroup> \
  --subscription <subscriptionID>

menghapus evacuate "True" beban kerja dari simpul tersebut sementara evacuate "False" hanya mencegah penjadwalan beban kerja baru.

Membuat BMM "schedulable" (uncordon)

Anda dapat membuat BMM "schedulable" (dapat digunakan) dengan menjalankan uncordon perintah. Semua beban kerja dalam status pending pada BMM adalah restarted ketika BMM adalah uncordoned.

az networkcloud baremetalmachine uncordon \
  --name <BareMetalMachineName> \
  --resource-group <resourceGroup> \
  --subscription <subscriptionID>

Mengincar kembali BMM

Anda dapat memulihkan versi runtime pada BMM dengan menjalankan reimage perintah. Proses ini menyebarkan ulang gambar runtime pada BMM target dan menjalankan langkah-langkah untuk bergabung kembali dengan kluster dengan pengidentifikasi yang sama. Tindakan ini tidak memengaruhi file beban kerja penyewa pada BMM ini. Jika tindakan tulis atau edit dilakukan pada simpul melalui akses BMM, tindakan 'reimage' ini diperlukan untuk memulihkan dukungan Microsoft dan perubahan akan hilang, memulihkan simpul ke status yang diharapkan. Sebagai praktik terbaik, pastikan beban kerja BMM dikeringkan menggunakan cordon perintah , dengan evacuate "True", sebelum menjalankan reimage perintah .

Peringatan

Menjalankan lebih dari satu baremetalmachine replace atau reimage perintah secara bersamaan, atau menjalankan replace pada saat yang sama dengan reimage akan meninggalkan server dalam status tidak berfungsi. Pastikan satu replace/reimage telah selesai sepenuhnya sebelum memulai yang lain.

az networkcloud baremetalmachine reimage \
  --name <BareMetalMachineName>  \
  --resource-group <resourceGroup> \
  --subscription <subscriptionID>

Mengganti BMM

replace Gunakan perintah ketika server mengalami masalah perangkat keras yang memerlukan penggantian perangkat keras lengkap atau parsial. Setelah penggantian komponen seperti motherboard atau penggantian Network Interface Card (NIC), alamat MAC BMM akan berubah, namun alamat IP iDRAC dan nama host akan tetap sama.

Peringatan

Menjalankan lebih dari satu baremetalmachine replace atau reimage perintah secara bersamaan, atau menjalankan replace pada saat yang sama dengan reimage akan meninggalkan server dalam status tidak berfungsi. Pastikan satu replace/reimage telah selesai sepenuhnya sebelum memulai yang lain.

az networkcloud baremetalmachine replace \
  --name <BareMetalMachineName> \
  --resource-group <resourceGroup> \
  --bmc-credentials password=<IDRAC_PASSWORD> username=<IDRAC_USER> \
  --bmc-mac-address <IDRAC_MAC> \
  --boot-mac-address <PXE_MAC> \
  --machine-name <OS_HOSTNAME> \
  --serial-number <SERIAL_NUMBER> \
  --subscription <subscriptionID>