Azure Kubernetes Service (AKS) düğümü otomatik onarımı
Azure Kubernetes Service (AKS) çalışan düğümlerinin sistem durumlarını sürekli izler ve durumu bozulan düğümlerde otomatik onarım gerçekleştirir. Azure sanal makine (VM) platformu , sorun yaşayan VM'lerde bakım gerçekleştirir. AKS ve Azure sanal makineleri, kümelerde hizmet kesintilerini en aza indirmek için birlikte çalışır.
Bu makalede, otomatik düğüm onarım işlevinin Windows ve Linux düğümleri için nasıl davrandığını öğreneceksiniz.
AKS NotReady düğümlerini nasıl denetler?
AKS, bir düğümün iyi durumda olmadığını ve onarılması gerekip gerekmediğini belirlemek için aşağıdaki kuralları kullanır:
- Düğüm, 10 dakikalık bir zaman dilimi içinde ardışık denetimlerde NotReady durumunu bildirir.
- Düğüm 10 dakika içinde herhangi bir durum bildirmez.
komutunu kullanarak düğümlerinizin sistem durumunu el ile kubectl get nodes
de kontrol edebilirsiniz.
Otomatik onarım nasıl çalışır?
Not
AKS, aks-remediator kullanıcı hesabıyla onarım işlemlerini başlatır.
AKS en az beş dakika boyunca iyi durumda olmayan bir düğüm tanımlarsa, AKS aşağıdaki eylemleri gerçekleştirir:
- AKS düğümü yeniden başlatır.
- Yeniden başlatma sonrasında düğüm iyi durumda değilse AKS düğümü yeniden oluşturur.
- Yeniden oluşturma sonrasında düğüm iyi durumda değilse ve bir Linux düğümüyse AKS düğümü yeniden dağıtır.
AKS, düğüm iyi durumda değilse yeniden başlatma, yeniden oluşturma ve yeniden dağıtma dizisini en fazla üç kez yeniden dener. Genel otomatik onarım işleminin tamamlanması bir saat kadar sürebilir.
Sınırlamalar
AKS düğümü otomatik onarımı en iyi çaba hizmetidir ve düğümün iyi durumda geri yüklendiğini garanti etmeyiz. Düğümünüz iyi durumda değilse, düğüm üzerinde el ile araştırma gerçekleştirmenizi kesinlikle öneririz. Düğüm NotReady durumu sorunlarını giderme hakkında daha fazla bilgi edinin.
AKS'nin otomatik onarım gerçekleştirmediği durumlar vardır. Düğümün otomatik olarak onarılamaması tasarım gereği veya Azure bir sorunun mevcut olduğunu algılayamazsa oluşabilir. Otomatik onarımın ne zaman gerçekleştirilmediğinin örnekleri şunlardır:
- Ağ yapılandırmasındaki hata nedeniyle düğüm durumu bildirilmiyor.
- Bir düğüm başlangıçta iyi durumda bir düğüm olarak kaydedilemedi.
- Düğümde aşağıdaki renk tonlarından biri varsa:
node.cloudprovider.kubernetes.io/shutdown
,ToBeDeletedByClusterAutoscaler
.
Kubernetes olaylarını kullanarak düğüm otomatik onarımı izleme
AKS kümenizde düğüm otomatik onarımı gerçekleştirdiğinde AKS, görünürlük için aks-auto-repair kaynağından Kubernetes olaylarını yayar. Otomatik onarım gerçekleştiğinde düğüm nesnesinde aşağıdaki olaylar görüntülenir.
Kubernetes olaylarına erişme, uyarıları depolama ve yapılandırma hakkında daha fazla bilgi edinmek için bkz . Azure Kubernetes Service'te sorun giderme için Kubernetes olaylarını kullanma.
Nedeni | Olay İletisi | Açıklama |
---|---|---|
NodeRebootStart | Düğüm otomatik onarımı, NotReady durumunun 5 dakikadan uzun süre kalıcı olması nedeniyle yeniden başlatma eylemi başlatıyor. | Bu olay, düğümünüzde yeniden başlatma işlemi gerçekleştirilmek üzere olduğunda sizi bilgilendirmek için gönderilir. Bu eylem, genel düğüm otomatik onarım dizisindeki ilk eylemdir. |
NodeRebootEnd | Düğüm otomatik onarımından yeniden başlatma eylemi tamamlandı. | Düğümde yeniden başlatma tamamlandıktan sonra gönderilir. Bu olay, yeniden başlatma gerçekleştirildikten sonra düğümün sistem durumunu (iyi durumda veya iyi durumda değil) göstermez. |
NodeReimageStart | Düğüm otomatik onarımı, NotReady durumunun 5 dakikadan uzun süre kalıcı olması nedeniyle yeniden oluşturma eylemi başlatıyor. | Bu olay, düğümünüzde yeniden tahmin gerçekleştirilmek üzere olduğunda sizi bilgilendirmek için gönderilir. |
NodeReimageEnd | Düğüm otomatik onarımından yeniden oluşturma eylemi tamamlandı. | Düğümde yeniden tahmin tamamlandıktan sonra gönderilir. Bu olay, yeniden oluşturma gerçekleştirildikten sonra düğümün sistem durumunu (iyi durumda veya iyi durumda değil) göstermez. |
NodeRedeployStart | Düğüm otomatik onarımı, NotReady durumunun 5 dakikadan uzun süre kalıcı olması nedeniyle yeniden dağıtma eylemi başlatıyor. | Bu olay, düğümünüzde yeniden dağıtım gerçekleştirilmek üzere olduğunda sizi bilgilendirmek için gönderilir. Yeniden dağıtma, düğüm otomatik onarım dizisindeki son eylemdir. |
NodeRedeployEnd | Düğüm otomatik onarımından yeniden dağıtma eylemi tamamlandı. | Düğümde yeniden dağıtım tamamlandıktan sonra gönderilir. Bu olay, yeniden dağıtım gerçekleştirildikten sonra düğümün sistem durumunu (iyi durumda veya iyi durumda değil) göstermez. |
Düğüm otomatik onarım işlemi sırasında herhangi bir hata oluşursa, aşağıdaki olaylar ayrıntılı hata iletisiyle birlikte gönderilir. Yaygın düğüm otomatik onarım hatalarını giderme hakkında daha fazla bilgi edinin.
Not
Aşağıdaki olay iletilerindeki hata kodu , bildirilen hataya bağlı olarak değişir.
Nedeni | Olay İletisi | Açıklama |
---|---|---|
NodeRebootError | Düğüm otomatik onarım yeniden başlatma eylemi bir işlem hatası nedeniyle başarısız oldu. Burada hata ayrıntılarına bakın: Hata kodu | Yeniden başlatma eylemiyle ilgili bir hata olduğunda gönderilir. |
NodeReimageError | Düğüm otomatik onarım yeniden oluşturma eylemi bir işlem hatası nedeniyle başarısız oldu. Burada hata ayrıntılarına bakın: Hata kodu | Yeniden oluşturma eylemiyle ilgili bir hata olduğunda gönderilir. |
NodeRedeployError | Düğüm otomatik onarım yeniden dağıtma eylemi bir işlem hatası nedeniyle başarısız oldu. Burada hata ayrıntılarına bakın: Hata kodu | Yeniden dağıtma eylemiyle ilgili bir hata olduğunda gönderilir. |
Sonraki adımlar
Varsayılan olarak, AKS kümenizdeki Kubernetes olaylarına ve günlüklerine son 1 saatte erişebilirsiniz. Son 90 günün olaylarını ve günlüklerini depolamak ve sorgulamak için AKS kümenizde daha ayrıntılı sorun giderme için Container Insights'ı etkinleştirin.
Azure Kubernetes Service