Az Azure Kubernetes Service (AKS) proaktív monitorozási ajánlott eljárásai

Cikk
11/11/2024

Ez a cikk az Azure Kubernetes Service (AKS) proaktív monitorozásának ajánlott eljárásait ismerteti, és átfogó listát nyújt az AKS által a figyeléshez javasolt főbb jelekről.

Az AKS-fürtök proaktív monitorozása kulcsfontosságú az állásidő csökkentéséhez és az alkalmazások üzleti megszakításainak mentéséhez. Ez a folyamat magában foglalja a fürt rendellenes viselkedésének kulcsmutatóinak azonosítását és monitorozását, amelyek jelentős problémákhoz vagy állásidőhöz vezethetnek.

Monitorozás és riasztások áttekintése

Az AKS monitorozása metrikák, naplók és események használatával biztosítja a fürt állapotát és teljesítményét. A monitorozás gyakori forgatókönyvei közé tartozik a csomópont teljesítménye, a pod állapota és a fürt általános erőforrás-kihasználtsága. A naplók betekintést nyújtanak a rendszereseményekbe, a fürt műveleteibe és tevékenységeibe. Az AKS által a monitorozáshoz használt módszerekről és jelekről további információt az Azure Kubernetes Service (AKS) monitorozása című témakörben talál.

A fürt proaktív monitorozásának legjobb módja az Azure Monitor-riasztások konfigurálása. A riasztások proaktív intézkedésekként szolgálnak a lehetséges problémák vagy rendellenességek értesítésére, mielőtt kritikus problémákká eszkalálnának. A főbb metrikák és naplók küszöbértékeinek meghatározásával azonnali riasztások érkeznek, ha ezek a jelek túllépik az előre meghatározott korlátokat, jelezve az olyan lehetséges problémákat, mint az erőforrás-kimerültség vagy az alkalmazáshibák. Javasoljuk, hogy szolgáltatásszintű célkitűzéseket (SLO-kat) definiáljon az alkalmazás számára a szolgáltatás teljesítményének és megbízhatóságának méréséhez. Az SLO-k fő jelzéseire vonatkozó riasztások konfigurálásával gyorsan észlelheti az alkalmazás szolgáltatásminőségének romlását, amelyet az ügyfelek kapnak. Általánosságban elmondható, hogy az időalapú riasztások beállítása lehetővé teszi a problémák gyors kivizsgálását és elhárítását, az állásidő minimalizálását és az AKS-fürtön futó alkalmazások magas rendelkezésre állását.

Riasztások konfigurálása adott metrikatípusokhoz

Metrika típusa	Hol találhatók ezek a metrikák?	Riasztások konfigurálása
AKS platformmetrika	Platformmetrikák megtekintése az Azure Portal Metrikák paneljén keresztül.	Metrikariasztásokat az Azure Portalon hozhat létre, frissíthet és törölhet. További információ: Metrikariasztás létrehozása Egy Azure-erőforráshoz.
Azure Managed Prometheus Metric	A Prometheus-metrikák eléréséhez engedélyeznie kell a Felügyelt Prometheust. A Prometheus-metrikák engedélyezéséről és megtekintéséről az Azure Monitor és a Prometheus című témakörben olvashat bővebben.	A Prometheus-riasztások konfigurálásával kapcsolatos útmutatásért tekintse meg a Prometheus-szabálycsoportokhoz készült Azure Monitor felügyelt szolgáltatást.
Azure-tevékenységnaplók	Tevékenységnaplók megtekintése az Azure Portalon. További információ: Azure-tevékenységnaplók az AKS-hez.	Konfigurálja a tevékenységnaplók riasztásait az Azure Portalon. További információ: Tevékenységnapló-riasztások.
Azure-beli virtuálisgép-méretezési csoport metrikája	Tekintse meg a virtuálisgép-méretezési csoport metrikáit az Azure Portalon.	1. A csomópontkészlethez társított virtuálisgép-méretezési csoportpéldány megkereséséhez lépjen az AKS-fürt Beállítások > tulajdonságai paneljére az Azure Portalon. 2. Válassza ki az infrastruktúra-erőforráscsoportot a fürthöz társított infrastruktúra-erőforrások megtekintéséhez. 3. Válassza ki azt a virtuálisgép-méretezési csoportpéldányt , amely megegyezik annak a csomópontkészletnek a nevével, amely számára riasztásokat hoz létre. 4. Lépjen a Riasztások panelre a metrikariasztás létrehozásához.
Terheléselosztó metrika	A terheléselosztó metrikáit az Azure Portal Load Balancer oldalán tekintheti meg.	1. A csomópontkészlethez társított terheléselosztó-példány megkereséséhez lépjen az AKS-fürt Beállítások > tulajdonságai paneljére az Azure Portalon. 2. Válassza ki az infrastruktúra-erőforráscsoportot a fürthöz társított infrastruktúra-erőforrások megtekintéséhez. 3. Válassza ki a terheléselosztó-példányt a terheléselosztó Azure Portal-oldalának megjelenítéséhez. 4. Lépjen a Riasztások lapra a terheléselosztó metrikariasztásának létrehozásához.
Naplók és események	A naplók és események riasztásához engedélyeznie kell a Container Insightst. További információt az Azure Monitor erőforrásnaplóiban talál.	A naplókra és eseményekre vonatkozó riasztások létrehozásával kapcsolatos útmutatásért lásd : Naplókeresési riasztások létrehozása a Container Insightsból.

Kritikus jelek a riasztások konfigurálásához

Az AKS-környezet holisztikus lefedettségének eléréséhez konfigurálnia kell a fürt három fő összetevőjére vonatkozó riasztásokat:

Fürtinfrastruktúra: A fürt mögöttes infrastruktúráját, például csomópontokat, lemezeket és hálózatkezelést célzó riasztások.
Alkalmazás állapota: Riasztások a podok és alkalmazások állapotának monitorozásához. A nem megfelelő alkalmazások gyakori mutatói közé tartoznak a podok memóriahiányos leállásai (OOMKills), a nem kész állapotú podok stb.
Kubernetes vezérlősík: Riasztások az AKS vezérlősíkon az API-kiszolgáló és más összetevők állapotának és teljesítményének monitorozásához.

A következő szakaszok tartalmazzák a főbb jeleket, amelyeket javasoljuk, hogy minden AKS-ügyfél figyelje szorosan. Az AKS csapata azon dolgozik, hogy az összes kritikus jelet hozzáadja a meglévő Ajánlott riasztások funkcióhoz, amely lehetővé teszi a riasztások egyszerű engedélyezését az összes jelhez egy kattintásos felületen. A Prometheus-metrikákra vonatkozó riasztások jelenleg nyilvános előzetes verzióban érhetők el, a fennmaradó riasztások pedig 2025 elején lesznek elérhetők. Egyelőre manuálisan konfigurálhatja a riasztásokat a kritikus jeleken.

Fürtinfrastruktúra-riasztások

Riasztási forgatókönyv	Forrás	Jel	Javasolt küszöbérték
A fürt sikertelen állapotban van	Azure-tevékenységnaplók	Felügyelt fürt létrehozása vagy frissítése	A napló állapota sikertelen, ami azt jelzi, hogy a fürtfrissítési vagy létrehozási művelet nem sikerült.
A csomópontkészlet hibás állapotban van	Azure-tevékenységnaplók	Ügynökkészlet létrehozása vagy frissítése	A napló állapota sikertelen, ami azt jelzi, hogy a csomópontkészlet sikertelen állapotban van egy sikertelen létrehozási, olvasási, frissítési vagy törlési (CRUD) művelet miatt.
Nagy csomópont operációsrendszer-lemez sávszélességének használata	Virtuálisgép-méretezési csoport metrika	Operációsrendszer-lemez sávszélességének felhasznált százaléka	A csomópont operációsrendszer-lemez sávszélességének kihasználtsága meghaladja a 95%-ot.
Magas csomópont operációsrendszer-lemez IOPS-használata	Virtuálisgép-méretezési csoport metrika	Operációsrendszer-lemez IOPS-ának felhasznált százaléka	A csomópont operációsrendszer-lemez IOPS-kihasználtsága meghaladja a 95%-ot.
Magas csomópont operációsrendszer-lemezterület-használat	AKS platformmetrika	Felhasznált lemez százalékos aránya	A csomópont operációs rendszer lemezterületének százalékos kihasználtsága meghaladja a 90%-ot.
Magas csomóponti CPU-használat	AKS platformmetrika	CPU-használat százalékos aránya	A csomópont processzorhasználata nagyobb, mint 90%.
Magas csomóponti memóriahasználat	AKS platformmetrika	Memória-munkakészlet százalékos aránya	A csomópont memóriahasználata nagyobb, mint 90%.
A csomópont NotReady állapotban van	AKS platformmetrika	Különböző csomóponti feltételek állapota	A csomópont 20 percig NotReady állapotban >van.
Nincs elegendő SNAT-port	Terheléselosztó (LB) metrika	SNAT-kapcsolatok száma	A kapcsolat állapotának szűrése = "Sikertelen"

Alkalmazásállapot-riasztások

Riasztási forgatókönyv	Forrás	Jel	Javasolt küszöbérték
Sérült podok magas száma	Azure Managed Prometheus Metric	Riasztás neve: KubePodReadyStateLow	Ajánlott AKS-riasztásként érhető el. A riasztás engedélyezéséhez tekintse meg a Kubernetes-fürtökre vonatkozó ajánlott riasztási szabályokat.
Egy vagy több pod újraindul	Azure Managed Prometheus Metric	Riasztás neve: KubePodContainerRestart	Ajánlott AKS-riasztásként érhető el. A riasztás engedélyezéséhez tekintse meg a Kubernetes-fürtökre vonatkozó ajánlott riasztási szabályokat.
Egy vagy több pod CrashLoop állapotban van	Azure Managed Prometheus Metric	Riasztás neve: KubePodCrashLooping	Ajánlott AKS-riasztásként érhető el. A riasztás engedélyezéséhez tekintse meg a Kubernetes-fürtökre vonatkozó ajánlott riasztási szabályokat.

A Kubernetes vezérlősík-riasztásai

Riasztási forgatókönyv	Forrás	Jel	Javasolt küszöbérték
Az ETCD fel van töltve	Azure Managed Prometheus Metric	etcd_mvcc_db_total_size_in_use_in_bytes	Az ETCD kihasználtsága nagyobb, mint 2 GB
Az API Server túl sok kéréssel kapcsolatos hibája	Azure Managed Prometheus Metric	apiserver_request_total	Szűrő a 429-ik hibakódra
API Server Webhook- és alagúthibák	Azure Managed Prometheus Metric	apiserver_request_total	Szűrő az 500- és az 503-at jelző hibakódokhoz

Következő lépések

Az AKS monitorozásával kapcsolatos további információkért tekintse meg az alábbi cikkeket:

Megosztás a következőn keresztül: