Aracılığıyla paylaş


Azure Kubernetes Service (AKS) için proaktif izleme en iyi yöntemleri

Bu makale, Azure Kubernetes Service (AKS) üzerinde proaktif izleme için en iyi yöntemleri kapsar ve AKS'nin izlemeniz için önerdiği önemli sinyallerin kapsamlı bir listesini sağlar.

AKS kümelerinizi proaktif bir şekilde izlemek, kapalı kalma süresini azaltmak ve uygulamalarınız için iş kesintilerinden tasarruf etmek için çok önemlidir. Bu işlem, kümenizde önemli sorunlara veya kapalı kalma süresine yol açabilecek anormal davranışların ana göstergelerini tanımlamayı ve izlemeyi içerir.

İzleme ve uyarıya genel bakış

AKS'de izleme, kümenizin sistem durumunu ve performansını sağlamak için ölçümleri, günlükleri ve olayları kullanmayı içerir. İzlenecek yaygın senaryolar düğüm performansı, pod durumu ve kümenizdeki genel kaynak kullanımıdır. Günlükler, sistem olayları, küme işlemleri ve etkinliği hakkında içgörüler sağlar. AKS'nin izleme için sağladığı yöntemler ve sinyaller hakkında daha fazla bilgi için bkz . Azure Kubernetes Service'i (AKS) izleme.

Kümenizi proaktif olarak izlemenin en iyi yolu Azure İzleyici uyarılarını yapılandırmaktır. Uyarılar, kritik sorunlara geçmeden önce olası sorunları veya anomalileri size bildirmek için proaktif önlemler görevi görür. Önemli ölçümler ve günlükler için eşikler tanımlayarak, bu sinyaller önceden tanımlanmış sınırları aştığında anında uyarı alırsınız ve bu da kaynak tükenmesi veya uygulama hataları gibi olası sorunları gösterir. Hizmetinizin performansını ve güvenilirliğini ölçmek için uygulamanız için hizmet düzeyi hedefleri (SLO) tanımlamanızı kesinlikle öneririz. SLO'larınızın önemli sinyallerinde uyarıları yapılandırmak, uygulamanızın müşterilerinizin aldığı hizmet kalitesi düşüşlerini hızla algılamanıza olanak tanır. Genel olarak, zamanında uyarılar ayarlamak sorunları hızla araştırmanıza ve düzeltmenize, kapalı kalma süresini en aza indirmenize ve AKS kümenizde çalışan uygulamaların yüksek kullanılabilirliğini sağlamanıza olanak tanır.

Belirli ölçüm türlerinde uyarıları yapılandırma

Ölçüm türü Bu ölçümleri nerede bulabilirim? Uyarıları yapılandırma
AKS Platform Ölçümü Azure portalındaki Ölçümler dikey penceresi aracılığıyla platform ölçümlerini görüntüleyin. Ölçüm uyarılarını Azure portalı üzerinden oluşturabilir, güncelleştirebilir ve silebilirsiniz. Daha fazla bilgi için bkz . Azure kaynağı için ölçüm uyarısı oluşturma.
Azure Yönetilen Prometheus Ölçümü Prometheus ölçümlerine erişmek için Yönetilen Prometheus'un etkinleştirilmesi gerekir. Prometheus ölçümlerini etkinleştirme ve görüntüleme hakkında ayrıntılı bilgi için bkz . Azure İzleyici ve Prometheus. Prometheus uyarılarını yapılandırma yönergeleri için bkz . Prometheus kural grupları için Azure İzleyici yönetilen hizmeti.
Azure Activity Günlükleri Azure portalı üzerinden etkinlik günlüklerini görüntüleyin. Daha fazla bilgi için bkz . AKS için Azure etkinlik günlükleri. Azure portalı aracılığıyla etkinlik günlüklerindeki uyarıları yapılandırın. Daha fazla bilgi için bkz . Etkinlik günlüğü uyarıları.
Azure Sanal Makine Ölçek Kümesi Ölçümü Azure portalı üzerinden Sanal Makine Ölçek Kümesi ölçümlerini görüntüleyin. 1. Düğüm havuzunuzla ilişkili Sanal Makine Ölçek Kümesi örneğini bulmak için Azure portalında AKS kümenizin Ayarlar > Özellikleri dikey penceresine gidin.
2. Kümenizle ilişkili altyapı kaynaklarını görüntülemek için altyapı kaynak grubunuzu seçin.
3. Uyarı oluşturduğunuz düğüm havuzunuzun adıyla eşleşen Sanal Makine Ölçek Kümesi örneğini seçin.
4. Ölçüm uyarınızı oluşturmak için Uyarılar dikey penceresine gidin.
Load Balancer Ölçümü Yük dengeleyici ölçümlerini Azure portalındaki Load Balancer sayfası üzerinden görüntüleyin. 1. Düğüm havuzunuzla ilişkili yük dengeleyici örneğini bulmak için Azure portalında AKS kümenizin Ayarlar > Özellikleri dikey penceresine gidin.
2. Kümenizle ilişkili altyapı kaynaklarını görüntülemek için altyapı kaynak grubunuzu seçin.
3. Yük dengeleyici için Azure portal sayfasını açmak için yük dengeleyici örneğini seçin.
4. Yük dengeleyici ölçüm uyarınızı oluşturmak için Uyarılar sayfasına gidin.
Günlükler ve Olaylar Günlükler ve olaylar hakkında uyarı almak için Container Insights'ı etkinleştirmeniz gerekir. Daha fazla bilgi için bkz . Azure İzleyici kaynak günlükleri. Günlüklerde ve olaylarda uyarı oluşturma yönergeleri için bkz . Kapsayıcı içgörülerinden günlük araması uyarıları oluşturma.

Uyarıları yapılandırmak için kritik sinyaller

AKS ortamınızın bütünsel kapsamını elde etmek için kümenizin üç ana bileşeninde uyarıları yapılandırmanız gerekir:

  • Küme altyapısı: Düğümler, diskler ve ağ gibi kümenizin temel altyapısını hedefleyen uyarılar.
  • Uygulama durumu: Podlarınızın ve uygulamalarınızın durumunu izlemeye yönelik uyarılar. İyi durumda olmayan uygulamaların bazı yaygın göstergeleri arasında podlarınızın bellek dışı sonlandırmaları (OOMKills), hazır durumda olmayan podlar vb. bulunur.
  • Kubernetes denetim düzlemi: API sunucusunun sistem durumunu ve performansını vb. ve diğer bileşenleri izlemek için AKS denetim düzleminde uyarılar.

Aşağıdaki bölümler, tüm AKS müşterilerinin yakından izlemesini önerdiğimiz önemli sinyalleri içerir. AKS ekibi, tek tıklamayla tüm sinyaller için uyarıları kolayca etkinleştirmenizi sağlayan mevcut Önerilen Uyarılar özelliğine tüm kritik sinyalleri eklemek için çalışmaktadır. Prometheus ölçüm uyarıları bugün Genel Önizleme'de kullanılabilir ve kalan uyarıların 2025'in başlarında kullanılabilir olduğu tahmin edilir. Şimdilik kritik sinyallerde uyarıları el ile yapılandırabilirsiniz.

Küme altyapısı uyarıları

Uyarı senaryosu Kaynak Sinyal Önerilen eşik
Küme başarısız durumda Azure Activity Günlükleri Yönetilen küme oluşturma veya güncelleştirme Küme yükseltme veya oluşturma eyleminin başarısız olduğunu gösteren günlüğün durumu Başarısız oldu.
Düğüm havuzu başarısız durumda Azure Activity Günlükleri Aracı havuzu oluşturma veya güncelleştirme Günlük durumu Başarısız, düğüm havuzunun başarısız bir Oluşturma, Okuma, Yükseltme veya Silme (CRUD) işlemi nedeniyle Başarısız durumda olduğunu gösterir.
Yüksek Düğüm İşletim Sistemi Disk Bant Genişliği Kullanımı Sanal Makine Ölçek Kümesi Ölçümü Tüketilen İşletim Sistemi Diski Bant Genişliği Yüzdesi Düğüm işletim sistemi disk bant genişliği kullanımı %95'in üzerindedir.
Yüksek Düğüm İşletim Sistemi Disk IOPS Kullanımı Sanal Makine Ölçek Kümesi Ölçümü Tüketilen İşletim Sistemi Diski IOPS Yüzdesi Düğüm işletim sistemi diski IOPS kullanımı %95'in üzerindedir.
Yüksek Düğüm İşletim Sistemi Disk Alanı Kullanımı AKS Platform Ölçümü Kullanılan Disk Yüzdesi Düğüm işletim sistemi disk alanı yüzde kullanımı %90'ın üzerindedir.
Yüksek Düğüm CPU Kullanımı AKS Platform Ölçümü CPU Kullanım Yüzdesi Düğüm CPU Kullanımı %90'dan büyük.
Yüksek Düğüm bellek kullanımı AKS Platform Ölçümü Bellek Çalışma Kümesi Yüzdesi Düğüm Bellek Kullanımı %90'dan büyük.
Düğüm NotReady durumunda AKS Platform Ölçümü Çeşitli düğüm koşullarının durumu Düğüm 20 dakika boyunca >NotReady durumunda.
SNAT bağlantı noktası tükenmesi Load Balancer (LB) Ölçümü SNAT Bağlantı Sayısı Bağlantı Durumu Filtresi = "Başarısız"

Uygulama durumu uyarıları

Uyarı senaryosu Kaynak Sinyal Önerilen eşik
Yüksek sayıda iyi durumda olmayan pod Azure Yönetilen Prometheus Ölçümü Uyarı adı: KubePodReadyStateLow AKS tarafından önerilen uyarı olarak kullanılabilir. Bu uyarıyı etkinleştirmek için bkz . Kubernetes kümeleri için önerilen uyarı kuralları.
Bir veya daha fazla pod yeniden başlatılıyor Azure Yönetilen Prometheus Ölçümü Uyarı adı: KubePodContainerRestart AKS tarafından önerilen uyarı olarak kullanılabilir. Bu uyarıyı etkinleştirmek için bkz . Kubernetes kümeleri için önerilen uyarı kuralları.
Bir veya daha fazla pod CrashLoop durumunda Azure Yönetilen Prometheus Ölçümü Uyarı adı: KubePodCrashLooping AKS tarafından önerilen uyarı olarak kullanılabilir. Bu uyarıyı etkinleştirmek için bkz . Kubernetes kümeleri için önerilen uyarı kuralları.

Kubernetes denetim düzlemi uyarıları

Uyarı senaryosu Kaynak Sinyal Önerilen eşik
ETCD Dolu Azure Yönetilen Prometheus Ölçümü etcd_mvcc_db_total_size_in_use_in_bytes ETCD kullanımı 2 GB'tan büyük
API Sunucusu Çok Fazla İstek Hatası Azure Yönetilen Prometheus Ölçümü apiserver_request_total Hata kodu 429 için filtre uygulama
API Server Web Kancası ve Tünel Hataları Azure Yönetilen Prometheus Ölçümü apiserver_request_total 500 ve 503 hata kodları için filtre uygulama

Sonraki adımlar

AKS'de izleme hakkında daha fazla bilgi için aşağıdaki makalelere bakın: