Meningkatkan runtime kluster dari Azure CLI

Artikel
12/18/2024

Panduan cara ini menjelaskan langkah-langkah untuk menginstal Azure CLI dan ekstensi yang diperlukan untuk berinteraksi dengan Operator Nexus.

Prasyarat

Instal Azure CLI harus diinstal.
Ekstensi networkcloud CLI diperlukan. networkcloud Jika ekstensi tidak diinstal, ekstensi dapat diinstal mengikuti langkah-langkah yang tercantum di sini.
Akses ke portal Azure untuk kluster target yang akan ditingkatkan.
Anda harus masuk ke langganan yang sama dengan kluster target Anda melalui az login
Kluster target harus dalam keadaan berjalan, dengan semua simpul sarana kontrol sehat dan 80+% simpul komputasi dalam keadaan berjalan dan sehat.

Memeriksa versi runtime saat ini

Verifikasi versi runtime kluster saat ini sebelum peningkatan: Cara memeriksa versi runtime kluster saat ini.

Menemukan versi runtime yang tersedia

Melalui portal Microsoft Azure

Untuk menemukan versi runtime yang dapat ditingkatkan yang tersedia, navigasikan ke kluster target di portal Azure. Di panel gambaran umum kluster, navigasikan ke tab Versi peningkatan yang tersedia.

Dari tab versi peningkatan yang tersedia, kita dapat melihat berbagai versi kluster yang saat ini tersedia untuk ditingkatkan. Operator dapat memilih dari versi runtime target yang tercantum. Setelah dipilih, lanjutkan untuk meningkatkan kluster.

Melalui Azure CLI

Peningkatan yang tersedia dapat diambil melalui Azure CLI:

az networkcloud cluster show --name "<clusterName>" /
--resource-group "<resourceGroup>" /
--subscription <subscriptionID>

Dalam output, Anda dapat menemukan availableUpgradeVersions properti dan melihat targetClusterVersion bidang :

  "availableUpgradeVersions": [
    {
      "controlImpact": "True",
      "expectedDuration": "Upgrades may take up to 4 hours + 2 hours per rack",
      "impactDescription": "Workloads will be disrupted during rack-by-rack upgrade",
      "supportExpiryDate": "2023-07-31",
      "targetClusterVersion": "3.3.0",
      "workloadImpact": "True"
    }
  ],

Jika tidak ada peningkatan kluster yang tersedia, daftar kosong.

Mengonfigurasi parameter ambang komputasi untuk peningkatan runtime menggunakan updateStrategy kluster

Perintah Azure CLI berikut digunakan untuk mengonfigurasi parameter ambang komputasi untuk peningkatan runtime:

az networkcloud cluster update /
--name "<clusterName>" /
--resource-group "<resourceGroup>" /
--update-strategy strategy-type="Rack" threshold-type="PercentSuccess" /
threshold-value="<thresholdValue>" max-unavailable=<maxNodesOffline> /
wait-time-minutes=<waitTimeBetweenRacks> /
--subscription <subscriptionID>

Parameter yang diperlukan:

jenis strategi: Menentukan strategi pembaruan. Ini bisa ( "Rack" Rack by Rack) ATAU "PauseAfterRack" (Tingkatkan satu rak pada satu waktu dan kemudian tunggu konfirmasi sebelum melanjutkan ke rak berikutnya. Nilai defaultnya adalah Rack. Untuk melakukan peningkatan runtime Kluster menggunakan strategi "PauseRack" ikuti langkah-langkah yang diuraikan dalam Meningkatkan runtime kluster dengan strategi jeda rak
jenis ambang batas: Menentukan bagaimana ambang batas harus dievaluasi, diterapkan dalam unit yang ditentukan oleh strategi. Ini bisa atau "PercentSuccess""CountSuccess". Nilai defaultnya adalah PercentSuccess.
nilai ambang batas: Nilai ambang numerik yang digunakan untuk mengevaluasi pembaruan. Nilai defaultnya adalah 80.

Parameter opsional:

max-unavailable: Jumlah maksimum simpul pekerja yang dapat offline, yaitu, rak yang ditingkatkan pada satu waktu. Nilai defaultnya adalah 32767.
tunggu-waktu-menit: Penundaan atau periode tunggu sebelum memperbarui rak. Nilai defaultnya adalah 15.

Contoh berikut adalah untuk pelanggan yang menggunakan strategi Rack by Rack dengan Keberhasilan Persen 60% dan jeda 1 menit.

az networkcloud cluster update --name "<clusterName>" /
--resource-group "<resourceGroup>" /
--update-strategy strategy-type="Rack" threshold-type="PercentSuccess" /
threshold-value=60 wait-time-minutes=1 /
--subscription <subscriptionID>

Verifikasi pembaruan:

az networkcloud cluster show --resource-group "<resourceGroup>" /
--name "<clusterName>" /
--subscription <subscriptionID>| grep -a5 updateStrategy

      "strategyType": "Rack",
      "thresholdType": "PercentSuccess",
      "thresholdValue": 60,
      "waitTimeMinutes": 1

Dalam contoh ini, jika kurang dari 60% dari simpul komputasi yang disediakan dalam rak gagal disediakan (berdasarkan Rack by Rack), penyebaran kluster gagal. Jika 60% atau lebih dari simpul komputasi berhasil disediakan, penyebaran kluster berpindah ke rak simpul komputasi berikutnya.

Contoh berikut adalah untuk pelanggan yang menggunakan strategi Rack by Rack dengan jenis ambang batas CountSuccess 10 node per rak dan jeda 1 menit.

az networkcloud cluster update --name "<clusterName>" /
--resource-group "<resourceGroup>" /
--update-strategy strategy-type="Rack" threshold-type="CountSuccess" /
threshold-value=10 wait-time-minutes=1 /
--subscription <subscriptionID>

Verifikasi pembaruan:

az networkcloud cluster show --resource-group "<resourceGroup>" /
--name "<clusterName>" /
--subscription <subscriptionID>| grep -a5 updateStrategy

      "strategyType": "Rack",
      "thresholdType": "CountSuccess",
      "thresholdValue": 10,
      "waitTimeMinutes": 1

Dalam contoh ini, jika kurang dari 10 simpul komputasi yang disediakan dalam rak gagal disediakan (berdasarkan Rack by Rack), penyebaran kluster gagal. Jika 10 atau lebih simpul komputasi berhasil disediakan, penyebaran kluster beralih ke rak simpul komputasi berikutnya.

Catatan

update-strategy tidak dapat diubah setelah peningkatan runtime kluster dimulai. Ketika nilai ambang batas di bawah 100% diatur, ada kemungkinan bahwa simpul yang tidak sehat mungkin tidak ditingkatkan, namun status "Kluster" masih dapat menunjukkan bahwa peningkatan berhasil. Untuk pemecahan masalah dengan mesin bare metal, silakan lihat Memecahkan masalah server Nexus Operator Azure

Meningkatkan runtime kluster menggunakan CLI

Untuk melakukan peningkatan runtime, gunakan perintah Azure CLI berikut:

az networkcloud cluster update-version --cluster-name "<clusterName>" /
--target-cluster-version "<versionNumber>" /
--resource-group "<resourceGroupName>" /
--subscription <subscriptionID>

Peningkatan runtime adalah proses yang panjang. Peningkatan pertama-tama meningkatkan simpul manajemen dan kemudian secara berurutan Rack by Rack untuk simpul pekerja. Peningkatan dianggap selesai ketika 80% simpul pekerja per rak dan 100% simpul manajemen berhasil ditingkatkan. Beban kerja mungkin terpengaruh saat simpul pekerja di rak sedang dalam proses ditingkatkan, namun beban kerja di semua rak lain tidak terpengaruh. Pertimbangan penempatan beban kerja mengingat desain implementasi ini didorong.

Meningkatkan semua simpul membutuhkan waktu beberapa jam, tergantung pada berapa banyak rak yang ada untuk Kluster. Karena lamanya proses peningkatan, status detail Kluster harus diperiksa secara berkala untuk status peningkatan saat ini. Untuk memeriksa status peningkatan, amati status terperinci Kluster. Pemeriksaan ini dapat dilakukan melalui portal atau az CLI.

Untuk melihat status peningkatan melalui portal Azure, navigasikan ke sumber daya kluster yang ditargetkan. Di layar Gambaran Umum kluster, status terperinci disediakan bersama dengan pesan status terperinci.

Peningkatan Kluster sedang berlangsung ketika detailedStatus diatur ke Updating dan detailedStatusMessage menunjukkan kemajuan peningkatan. Beberapa contoh kemajuan peningkatan yang ditampilkan dalam detailedStatusMessage adalah Waiting for control plane upgrade to complete..., , Waiting for nodepool "<rack-id>" to finish upgrading...dll.

Peningkatan kluster selesai ketika detailedStatus diatur ke Running dan detailedStatusMessage menunjukkan pesan Cluster is up and running

Untuk melihat status peningkatan melalui Azure CLI, gunakan az networkcloud cluster show.

az networkcloud cluster show --cluster-name "<clusterName>" /
--resource-group "<resourceGroupName>" /
--subscription <subscriptionID>

Output harus menjadi informasi kluster target dan status terperinci kluster dan pesan status detail harus ada. Untuk wawasan yang lebih rinci tentang kemajuan peningkatan, simpul individu di setiap Rak dapat diperiksa statusnya. Contoh pemeriksaan status disediakan di bagian referensi di bawah peran BareMetal Machine.

Pertanyaan Umum

Mengidentifikasi Peningkatan Kluster Terhenti/Macet

Selama peningkatan runtime, ada kemungkinan bahwa peningkatan gagal bergerak maju tetapi status detail mencerminkan bahwa peningkatan masih berlangsung. Karena peningkatan runtime dapat memakan waktu yang sangat lama untuk berhasil diselesaikan, tidak ada panjang batas waktu yang ditetapkan saat ini. Oleh karena itu, disarankan untuk juga memeriksa secara berkala pada status dan log detail kluster Anda untuk menentukan apakah peningkatan Anda tidak terbatas mencoba meningkatkan.

Kita dapat mengidentifikasi indefinitely attempting to upgrade situasi dengan melihat log Kluster, pesan terperinci, dan pesan status terperinci. Jika waktu habis terjadi, kami akan mengamati bahwa Kluster terus berdamai selama waktu yang sama tanpa batas waktu dan tidak bergerak maju. Dari sini, sebaiknya periksa Log kluster atau HUKUM yang dikonfigurasi, untuk melihat apakah ada kegagalan, atau peningkatan tertentu yang menyebabkan kurangnya kemajuan.

Kegagalan Perangkat Keras tidak memerlukan eksekusi ulang Peningkatan

Jika kegagalan perangkat keras selama peningkatan terjadi, peningkatan runtime berlanjut selama ambang batas yang ditetapkan terpenuhi untuk simpul komputasi dan manajemen/kontrol. Setelah mesin diperbaiki atau diganti, komputer akan disediakan dengan OS runtime platform saat ini, yang berisi versi runtime yang ditargetkan.

Jika kegagalan perangkat keras terjadi, dan peningkatan runtime gagal karena ambang batas tidak terpenuhi untuk simpul komputasi dan kontrol, eksekusi ulang peningkatan runtime mungkin diperlukan. Tergantung pada kapan kegagalan terjadi dan status server individu di rak. Jika rak diperbarui sebelum kegagalan, maka versi runtime yang ditingkatkan akan digunakan saat simpul diprovisikan ulang. Jika spesifikasi rak tidak diperbarui ke versi runtime yang ditingkatkan sebelum kegagalan perangkat keras, komputer akan disediakan dengan versi runtime sebelumnya. Untuk meningkatkan ke versi runtime baru, kirimkan permintaan peningkatan kluster baru. Hanya simpul dengan versi runtime sebelumnya yang ditingkatkan. Host yang berhasil dalam tindakan peningkatan sebelumnya tidak akan.

Setelah peningkatan runtime, kluster menunjukkan Status Provisi "Gagal"

Selama peningkatan runtime, kluster memasuki status Upgrading. Jika peningkatan runtime gagal, kluster masuk ke status Failed provisi. Komponen infrastruktur (misalnya Storage Appliance) dapat menyebabkan kegagalan selama peningkatan. Dalam beberapa skenario, mungkin perlu untuk mendiagnosis kegagalan dengan dukungan Microsoft.

Bagikan melalui