Megosztás a következőn keresztül:


Az Azure Kubernetes Service (AKS) proaktív monitorozási ajánlott eljárásai

Ez a cikk az Azure Kubernetes Service (AKS) proaktív monitorozásának ajánlott eljárásait ismerteti, és átfogó listát nyújt az AKS által a figyeléshez javasolt főbb jelekről.

Az AKS-fürtök proaktív monitorozása kulcsfontosságú az állásidő csökkentéséhez és az alkalmazások üzleti megszakításainak mentéséhez. Ez a folyamat magában foglalja a fürt rendellenes viselkedésének kulcsmutatóinak azonosítását és monitorozását, amelyek jelentős problémákhoz vagy állásidőhöz vezethetnek.

Monitorozás és riasztások áttekintése

Az AKS monitorozása metrikák, naplók és események használatával biztosítja a fürt állapotát és teljesítményét. A monitorozás gyakori forgatókönyvei közé tartozik a csomópont teljesítménye, a pod állapota és a fürt általános erőforrás-kihasználtsága. A naplók betekintést nyújtanak a rendszereseményekbe, a fürt műveleteibe és tevékenységeibe. Az AKS által a monitorozáshoz használt módszerekről és jelekről további információt az Azure Kubernetes Service (AKS) monitorozása című témakörben talál.

A fürt proaktív monitorozásának legjobb módja az Azure Monitor-riasztások konfigurálása. A riasztások proaktív intézkedésekként szolgálnak a lehetséges problémák vagy rendellenességek értesítésére, mielőtt kritikus problémákká eszkalálnának. A főbb metrikák és naplók küszöbértékeinek meghatározásával azonnali riasztások érkeznek, ha ezek a jelek túllépik az előre meghatározott korlátokat, jelezve az olyan lehetséges problémákat, mint az erőforrás-kimerültség vagy az alkalmazáshibák. Javasoljuk, hogy szolgáltatásszintű célkitűzéseket (SLO-kat) definiáljon az alkalmazás számára a szolgáltatás teljesítményének és megbízhatóságának méréséhez. Az SLO-k fő jelzéseire vonatkozó riasztások konfigurálásával gyorsan észlelheti az alkalmazás szolgáltatásminőségének romlását, amelyet az ügyfelek kapnak. Általánosságban elmondható, hogy az időalapú riasztások beállítása lehetővé teszi a problémák gyors kivizsgálását és elhárítását, az állásidő minimalizálását és az AKS-fürtön futó alkalmazások magas rendelkezésre állását.

Riasztások konfigurálása adott metrikatípusokhoz

Metrika típusa Hol találhatók ezek a metrikák? Riasztások konfigurálása
AKS platformmetrika Platformmetrikák megtekintése az Azure Portal Metrikák paneljén keresztül. Metrikariasztásokat az Azure Portalon hozhat létre, frissíthet és törölhet. További információ: Metrikariasztás létrehozása Egy Azure-erőforráshoz.
Azure Managed Prometheus Metric A Prometheus-metrikák eléréséhez engedélyeznie kell a Felügyelt Prometheust. A Prometheus-metrikák engedélyezéséről és megtekintéséről az Azure Monitor és a Prometheus című témakörben olvashat bővebben. A Prometheus-riasztások konfigurálásával kapcsolatos útmutatásért tekintse meg a Prometheus-szabálycsoportokhoz készült Azure Monitor felügyelt szolgáltatást.
Azure-tevékenységnaplók Tevékenységnaplók megtekintése az Azure Portalon. További információ: Azure-tevékenységnaplók az AKS-hez. Konfigurálja a tevékenységnaplók riasztásait az Azure Portalon. További információ: Tevékenységnapló-riasztások.
Azure-beli virtuálisgép-méretezési csoport metrikája Tekintse meg a virtuálisgép-méretezési csoport metrikáit az Azure Portalon. 1. A csomópontkészlethez társított virtuálisgép-méretezési csoportpéldány megkereséséhez lépjen az AKS-fürt Beállítások > tulajdonságai paneljére az Azure Portalon.
2. Válassza ki az infrastruktúra-erőforráscsoportot a fürthöz társított infrastruktúra-erőforrások megtekintéséhez.
3. Válassza ki azt a virtuálisgép-méretezési csoportpéldányt , amely megegyezik annak a csomópontkészletnek a nevével, amely számára riasztásokat hoz létre.
4. Lépjen a Riasztások panelre a metrikariasztás létrehozásához.
Terheléselosztó metrika A terheléselosztó metrikáit az Azure Portal Load Balancer oldalán tekintheti meg. 1. A csomópontkészlethez társított terheléselosztó-példány megkereséséhez lépjen az AKS-fürt Beállítások > tulajdonságai paneljére az Azure Portalon.
2. Válassza ki az infrastruktúra-erőforráscsoportot a fürthöz társított infrastruktúra-erőforrások megtekintéséhez.
3. Válassza ki a terheléselosztó-példányt a terheléselosztó Azure Portal-oldalának megjelenítéséhez.
4. Lépjen a Riasztások lapra a terheléselosztó metrikariasztásának létrehozásához.
Naplók és események A naplók és események riasztásához engedélyeznie kell a Container Insightst. További információt az Azure Monitor erőforrásnaplóiban talál. A naplókra és eseményekre vonatkozó riasztások létrehozásával kapcsolatos útmutatásért lásd : Naplókeresési riasztások létrehozása a Container Insightsból.

Kritikus jelek a riasztások konfigurálásához

Az AKS-környezet holisztikus lefedettségének eléréséhez konfigurálnia kell a fürt három fő összetevőjére vonatkozó riasztásokat:

  • Fürtinfrastruktúra: A fürt mögöttes infrastruktúráját, például csomópontokat, lemezeket és hálózatkezelést célzó riasztások.
  • Alkalmazás állapota: Riasztások a podok és alkalmazások állapotának monitorozásához. A nem megfelelő alkalmazások gyakori mutatói közé tartoznak a podok memóriahiányos leállásai (OOMKills), a nem kész állapotú podok stb.
  • Kubernetes vezérlősík: Riasztások az AKS vezérlősíkon az API-kiszolgáló és más összetevők állapotának és teljesítményének monitorozásához.

A következő szakaszok tartalmazzák a főbb jeleket, amelyeket javasoljuk, hogy minden AKS-ügyfél figyelje szorosan. Az AKS csapata azon dolgozik, hogy az összes kritikus jelet hozzáadja a meglévő Ajánlott riasztások funkcióhoz, amely lehetővé teszi a riasztások egyszerű engedélyezését az összes jelhez egy kattintásos felületen. A Prometheus-metrikákra vonatkozó riasztások jelenleg nyilvános előzetes verzióban érhetők el, a fennmaradó riasztások pedig 2025 elején lesznek elérhetők. Egyelőre manuálisan konfigurálhatja a riasztásokat a kritikus jeleken.

Fürtinfrastruktúra-riasztások

Riasztási forgatókönyv Forrás Jel Javasolt küszöbérték
A fürt sikertelen állapotban van Azure-tevékenységnaplók Felügyelt fürt létrehozása vagy frissítése A napló állapota sikertelen, ami azt jelzi, hogy a fürtfrissítési vagy létrehozási művelet nem sikerült.
A csomópontkészlet hibás állapotban van Azure-tevékenységnaplók Ügynökkészlet létrehozása vagy frissítése A napló állapota sikertelen, ami azt jelzi, hogy a csomópontkészlet sikertelen állapotban van egy sikertelen létrehozási, olvasási, frissítési vagy törlési (CRUD) művelet miatt.
Nagy csomópont operációsrendszer-lemez sávszélességének használata Virtuálisgép-méretezési csoport metrika Operációsrendszer-lemez sávszélességének felhasznált százaléka A csomópont operációsrendszer-lemez sávszélességének kihasználtsága meghaladja a 95%-ot.
Magas csomópont operációsrendszer-lemez IOPS-használata Virtuálisgép-méretezési csoport metrika Operációsrendszer-lemez IOPS-ának felhasznált százaléka A csomópont operációsrendszer-lemez IOPS-kihasználtsága meghaladja a 95%-ot.
Magas csomópont operációsrendszer-lemezterület-használat AKS platformmetrika Felhasznált lemez százalékos aránya A csomópont operációs rendszer lemezterületének százalékos kihasználtsága meghaladja a 90%-ot.
Magas csomóponti CPU-használat AKS platformmetrika CPU-használat százalékos aránya A csomópont processzorhasználata nagyobb, mint 90%.
Magas csomóponti memóriahasználat AKS platformmetrika Memória-munkakészlet százalékos aránya A csomópont memóriahasználata nagyobb, mint 90%.
A csomópont NotReady állapotban van AKS platformmetrika Különböző csomóponti feltételek állapota A csomópont 20 percig NotReady állapotban >van.
Nincs elegendő SNAT-port Terheléselosztó (LB) metrika SNAT-kapcsolatok száma A kapcsolat állapotának szűrése = "Sikertelen"

Alkalmazásállapot-riasztások

Riasztási forgatókönyv Forrás Jel Javasolt küszöbérték
Sérült podok magas száma Azure Managed Prometheus Metric Riasztás neve: KubePodReadyStateLow Ajánlott AKS-riasztásként érhető el. A riasztás engedélyezéséhez tekintse meg a Kubernetes-fürtökre vonatkozó ajánlott riasztási szabályokat.
Egy vagy több pod újraindul Azure Managed Prometheus Metric Riasztás neve: KubePodContainerRestart Ajánlott AKS-riasztásként érhető el. A riasztás engedélyezéséhez tekintse meg a Kubernetes-fürtökre vonatkozó ajánlott riasztási szabályokat.
Egy vagy több pod CrashLoop állapotban van Azure Managed Prometheus Metric Riasztás neve: KubePodCrashLooping Ajánlott AKS-riasztásként érhető el. A riasztás engedélyezéséhez tekintse meg a Kubernetes-fürtökre vonatkozó ajánlott riasztási szabályokat.

A Kubernetes vezérlősík-riasztásai

Riasztási forgatókönyv Forrás Jel Javasolt küszöbérték
Az ETCD fel van töltve Azure Managed Prometheus Metric etcd_mvcc_db_total_size_in_use_in_bytes Az ETCD kihasználtsága nagyobb, mint 2 GB
Az API Server túl sok kéréssel kapcsolatos hibája Azure Managed Prometheus Metric apiserver_request_total Szűrő a 429-ik hibakódra
API Server Webhook- és alagúthibák Azure Managed Prometheus Metric apiserver_request_total Szűrő az 500- és az 503-at jelző hibakódokhoz

Következő lépések

Az AKS monitorozásával kapcsolatos további információkért tekintse meg az alábbi cikkeket: