Az Azure Kubernetes Service (AKS) proaktív monitorozási ajánlott eljárásai
Ez a cikk az Azure Kubernetes Service (AKS) proaktív monitorozásának ajánlott eljárásait ismerteti, és átfogó listát nyújt az AKS által a figyeléshez javasolt főbb jelekről.
Az AKS-fürtök proaktív monitorozása kulcsfontosságú az állásidő csökkentéséhez és az alkalmazások üzleti megszakításainak mentéséhez. Ez a folyamat magában foglalja a fürt rendellenes viselkedésének kulcsmutatóinak azonosítását és monitorozását, amelyek jelentős problémákhoz vagy állásidőhöz vezethetnek.
Monitorozás és riasztások áttekintése
Az AKS monitorozása metrikák, naplók és események használatával biztosítja a fürt állapotát és teljesítményét. A monitorozás gyakori forgatókönyvei közé tartozik a csomópont teljesítménye, a pod állapota és a fürt általános erőforrás-kihasználtsága. A naplók betekintést nyújtanak a rendszereseményekbe, a fürt műveleteibe és tevékenységeibe. Az AKS által a monitorozáshoz használt módszerekről és jelekről további információt az Azure Kubernetes Service (AKS) monitorozása című témakörben talál.
A fürt proaktív monitorozásának legjobb módja az Azure Monitor-riasztások konfigurálása. A riasztások proaktív intézkedésekként szolgálnak a lehetséges problémák vagy rendellenességek értesítésére, mielőtt kritikus problémákká eszkalálnának. A főbb metrikák és naplók küszöbértékeinek meghatározásával azonnali riasztások érkeznek, ha ezek a jelek túllépik az előre meghatározott korlátokat, jelezve az olyan lehetséges problémákat, mint az erőforrás-kimerültség vagy az alkalmazáshibák. Javasoljuk, hogy szolgáltatásszintű célkitűzéseket (SLO-kat) definiáljon az alkalmazás számára a szolgáltatás teljesítményének és megbízhatóságának méréséhez. Az SLO-k fő jelzéseire vonatkozó riasztások konfigurálásával gyorsan észlelheti az alkalmazás szolgáltatásminőségének romlását, amelyet az ügyfelek kapnak. Általánosságban elmondható, hogy az időalapú riasztások beállítása lehetővé teszi a problémák gyors kivizsgálását és elhárítását, az állásidő minimalizálását és az AKS-fürtön futó alkalmazások magas rendelkezésre állását.
Riasztások konfigurálása adott metrikatípusokhoz
Metrika típusa | Hol találhatók ezek a metrikák? | Riasztások konfigurálása |
---|---|---|
AKS platformmetrika | Platformmetrikák megtekintése az Azure Portal Metrikák paneljén keresztül. | Metrikariasztásokat az Azure Portalon hozhat létre, frissíthet és törölhet. További információ: Metrikariasztás létrehozása Egy Azure-erőforráshoz. |
Azure Managed Prometheus Metric | A Prometheus-metrikák eléréséhez engedélyeznie kell a Felügyelt Prometheust. A Prometheus-metrikák engedélyezéséről és megtekintéséről az Azure Monitor és a Prometheus című témakörben olvashat bővebben. | A Prometheus-riasztások konfigurálásával kapcsolatos útmutatásért tekintse meg a Prometheus-szabálycsoportokhoz készült Azure Monitor felügyelt szolgáltatást. |
Azure-tevékenységnaplók | Tevékenységnaplók megtekintése az Azure Portalon. További információ: Azure-tevékenységnaplók az AKS-hez. | Konfigurálja a tevékenységnaplók riasztásait az Azure Portalon. További információ: Tevékenységnapló-riasztások. |
Azure-beli virtuálisgép-méretezési csoport metrikája | Tekintse meg a virtuálisgép-méretezési csoport metrikáit az Azure Portalon. | 1. A csomópontkészlethez társított virtuálisgép-méretezési csoportpéldány megkereséséhez lépjen az AKS-fürt Beállítások > tulajdonságai paneljére az Azure Portalon. 2. Válassza ki az infrastruktúra-erőforráscsoportot a fürthöz társított infrastruktúra-erőforrások megtekintéséhez. 3. Válassza ki azt a virtuálisgép-méretezési csoportpéldányt , amely megegyezik annak a csomópontkészletnek a nevével, amely számára riasztásokat hoz létre. 4. Lépjen a Riasztások panelre a metrikariasztás létrehozásához. |
Terheléselosztó metrika | A terheléselosztó metrikáit az Azure Portal Load Balancer oldalán tekintheti meg. | 1. A csomópontkészlethez társított terheléselosztó-példány megkereséséhez lépjen az AKS-fürt Beállítások > tulajdonságai paneljére az Azure Portalon. 2. Válassza ki az infrastruktúra-erőforráscsoportot a fürthöz társított infrastruktúra-erőforrások megtekintéséhez. 3. Válassza ki a terheléselosztó-példányt a terheléselosztó Azure Portal-oldalának megjelenítéséhez. 4. Lépjen a Riasztások lapra a terheléselosztó metrikariasztásának létrehozásához. |
Naplók és események | A naplók és események riasztásához engedélyeznie kell a Container Insightst. További információt az Azure Monitor erőforrásnaplóiban talál. | A naplókra és eseményekre vonatkozó riasztások létrehozásával kapcsolatos útmutatásért lásd : Naplókeresési riasztások létrehozása a Container Insightsból. |
Kritikus jelek a riasztások konfigurálásához
Az AKS-környezet holisztikus lefedettségének eléréséhez konfigurálnia kell a fürt három fő összetevőjére vonatkozó riasztásokat:
- Fürtinfrastruktúra: A fürt mögöttes infrastruktúráját, például csomópontokat, lemezeket és hálózatkezelést célzó riasztások.
- Alkalmazás állapota: Riasztások a podok és alkalmazások állapotának monitorozásához. A nem megfelelő alkalmazások gyakori mutatói közé tartoznak a podok memóriahiányos leállásai (OOMKills), a nem kész állapotú podok stb.
- Kubernetes vezérlősík: Riasztások az AKS vezérlősíkon az API-kiszolgáló és más összetevők állapotának és teljesítményének monitorozásához.
A következő szakaszok tartalmazzák a főbb jeleket, amelyeket javasoljuk, hogy minden AKS-ügyfél figyelje szorosan. Az AKS csapata azon dolgozik, hogy az összes kritikus jelet hozzáadja a meglévő Ajánlott riasztások funkcióhoz, amely lehetővé teszi a riasztások egyszerű engedélyezését az összes jelhez egy kattintásos felületen. A Prometheus-metrikákra vonatkozó riasztások jelenleg nyilvános előzetes verzióban érhetők el, a fennmaradó riasztások pedig 2025 elején lesznek elérhetők. Egyelőre manuálisan konfigurálhatja a riasztásokat a kritikus jeleken.
Fürtinfrastruktúra-riasztások
Riasztási forgatókönyv | Forrás | Jel | Javasolt küszöbérték |
---|---|---|---|
A fürt sikertelen állapotban van | Azure-tevékenységnaplók | Felügyelt fürt létrehozása vagy frissítése | A napló állapota sikertelen, ami azt jelzi, hogy a fürtfrissítési vagy létrehozási művelet nem sikerült. |
A csomópontkészlet hibás állapotban van | Azure-tevékenységnaplók | Ügynökkészlet létrehozása vagy frissítése | A napló állapota sikertelen, ami azt jelzi, hogy a csomópontkészlet sikertelen állapotban van egy sikertelen létrehozási, olvasási, frissítési vagy törlési (CRUD) művelet miatt. |
Nagy csomópont operációsrendszer-lemez sávszélességének használata | Virtuálisgép-méretezési csoport metrika | Operációsrendszer-lemez sávszélességének felhasznált százaléka | A csomópont operációsrendszer-lemez sávszélességének kihasználtsága meghaladja a 95%-ot. |
Magas csomópont operációsrendszer-lemez IOPS-használata | Virtuálisgép-méretezési csoport metrika | Operációsrendszer-lemez IOPS-ának felhasznált százaléka | A csomópont operációsrendszer-lemez IOPS-kihasználtsága meghaladja a 95%-ot. |
Magas csomópont operációsrendszer-lemezterület-használat | AKS platformmetrika | Felhasznált lemez százalékos aránya | A csomópont operációs rendszer lemezterületének százalékos kihasználtsága meghaladja a 90%-ot. |
Magas csomóponti CPU-használat | AKS platformmetrika | CPU-használat százalékos aránya | A csomópont processzorhasználata nagyobb, mint 90%. |
Magas csomóponti memóriahasználat | AKS platformmetrika | Memória-munkakészlet százalékos aránya | A csomópont memóriahasználata nagyobb, mint 90%. |
A csomópont NotReady állapotban van | AKS platformmetrika | Különböző csomóponti feltételek állapota | A csomópont 20 percig NotReady állapotban >van. |
Nincs elegendő SNAT-port | Terheléselosztó (LB) metrika | SNAT-kapcsolatok száma | A kapcsolat állapotának szűrése = "Sikertelen" |
Alkalmazásállapot-riasztások
Riasztási forgatókönyv | Forrás | Jel | Javasolt küszöbérték |
---|---|---|---|
Sérült podok magas száma | Azure Managed Prometheus Metric | Riasztás neve: KubePodReadyStateLow | Ajánlott AKS-riasztásként érhető el. A riasztás engedélyezéséhez tekintse meg a Kubernetes-fürtökre vonatkozó ajánlott riasztási szabályokat. |
Egy vagy több pod újraindul | Azure Managed Prometheus Metric | Riasztás neve: KubePodContainerRestart | Ajánlott AKS-riasztásként érhető el. A riasztás engedélyezéséhez tekintse meg a Kubernetes-fürtökre vonatkozó ajánlott riasztási szabályokat. |
Egy vagy több pod CrashLoop állapotban van | Azure Managed Prometheus Metric | Riasztás neve: KubePodCrashLooping | Ajánlott AKS-riasztásként érhető el. A riasztás engedélyezéséhez tekintse meg a Kubernetes-fürtökre vonatkozó ajánlott riasztási szabályokat. |
A Kubernetes vezérlősík-riasztásai
Riasztási forgatókönyv | Forrás | Jel | Javasolt küszöbérték |
---|---|---|---|
Az ETCD fel van töltve | Azure Managed Prometheus Metric | etcd_mvcc_db_total_size_in_use_in_bytes | Az ETCD kihasználtsága nagyobb, mint 2 GB |
Az API Server túl sok kéréssel kapcsolatos hibája | Azure Managed Prometheus Metric | apiserver_request_total | Szűrő a 429-ik hibakódra |
API Server Webhook- és alagúthibák | Azure Managed Prometheus Metric | apiserver_request_total | Szűrő az 500- és az 503-at jelző hibakódokhoz |
Következő lépések
Az AKS monitorozásával kapcsolatos további információkért tekintse meg az alábbi cikkeket:
Azure Kubernetes Service