Azure'da SaaS iş yükleri için olay yönetimi
Hizmet olarak yazılım (SaaS) çözümleri için bağımsız yazılım satıcılarının (ISV) çözümü müşterileri için çalıştırması gerekir. Bunu yapmak için beklenmeyen üretim durumlarını sorunsuz bir şekilde işleyen bir kuruluş kurulumu ve kültürü gerekir. Mimar olarak yönetim süreçlerini ve araçlarını buna göre tasarlamanız gerekir.
Bu makale, üretim SaaS çözümünün olay yönetimini desteklemek için kuruluşunuzun kültürünü, süreçlerini ve araçlarını uyumlu hale getirme konusunda size yol gösterir.
Hizmet sağlayıcısı olarak sorumluluklarınızı anlama
SaaS çözümü çalıştırmak, müşterilerinizin 7/24 BT ve operasyon departmanı olduğunuz anlamına gelir. Doğru personel, kültür, süreçler ve araçlarla hazırlıklı olmanız gerekir.
Tasarımla ilgili dikkat edilecek noktalar
24x7x365 desteği için sorumluluk alın. SaaS çözümünün çalıştırılması için kuruluşunuzun her zaman olay yanıtına hazırlıklı olması gerekir. Olaylar iş saatleri dışında gerçekleşebileceğinden, bu hazırlık her zaman ekip üyelerinin kullanılabilir olmasını içerir.
Canlı site desteği , sistem kullanılabilirliğini, güvenliği, performansı veya dağıtımı etkileyen olayları gerçek zamanlı izleme ve yanıtlamayı içerir. Siz veya müşterileriniz bu olayları algılayabilirsiniz. Bu tür olayları işlemek için baskı altındaki sorunları analiz etme ve çözme de dahil olmak üzere belirli becerilere ihtiyacınız vardır.
Canlı site desteği stresli olabilir ve ekip üyelerinizi desteklemek önemlidir. Ekip bu sorumlulukta yeniyse geçişi dikkatle planlayın. Olaylar sırasında arama görevleri, ücretlendirme ve kullanılamazlığı yönetme ile ilgili endişeleri giderin.
Risk: Beceri ve beklenti yönetimi. Tüm mühendisler 24x7x365 destek rolü için uygun değildir. Bir SaaS çözümünü desteklemek için önceden var olan bir ekibin geçişini yaparken, uygun beklentilerin belirlendiğinden ve eğitim fırsatlarının sağlandığından emin olun.
Canlı bir kültür oluşturun. Destek olaylarını ve olaylarını nasıl yönettiğinizi ve yükseltmelerin nasıl gerçekleştiğini düşünün. Amaç, ekip üyelerinin sorumluluklarını anlamasını ve olayları işlemek için gerekli becerilere ve araçlara sahip olmasını sağlamaktır.
Startup'ların ve küçük kuruluşların canlı site sorunları için basit bir planı olabilir. Mühendisler başlangıçta müşteri desteği olaylarına yanıt vererek ön cephe desteği olarak görev alabilir. Olgun kuruluşların veya kurumsal müşterileri olan SaaS sağlayıcılarının daha yapılandırılmış desteğe ve özel ekiplere ihtiyacı vardır.
Denge: Operasyonel mükemmellik ve maliyet. Canlı site olaylarının yönetilmesi, yeni özellikler veya hata düzeltmeleri için geliştirme süresinden uzak olabilir. Geliştirme hızı önemliyse, ayrılmış canlı site kaynaklarını işe almayı göz önünde bulundurun.
Tasarım önerileri
Öneri | Avantaj |
---|---|
Destek olaylarını işlemek için bir ön cephe ekibi tanıtın. Karmaşık durumlarda bu ekip, mühendislik ekibinin araştırması için ihtiyaç duyduğu bilgileri toplar. Bir satıcı ön cephe destek ekibiniz olarak görev yapabilir ve ilk sorun analizini gerçekleştirebilir ve basit sorunları çözebilir. |
Olay işleme sorumluluklarıyla mühendislik ekibine yük devretmekten ve düzenli görevlerindeki kesintilerle uğraşmaktan kaçınabilirsiniz. |
Mühendislerin karmaşık olayları işlemesi, araştırması ve eyleme geçmeleri için bir çağrı içi işleve yatırım yapın. Mümkünse, ekip üyeleri arasında arama sorumluluklarını döndürün ve her mühendis bir kerede birkaç gün boyunca beklemede olur. |
İyi tanımlanmış sorumluluklar ve yükseltme yollarıyla, mühendislik iş akışınızı kesintiye uğratmadan sorunları hızla belirleyebilir ve giderebilirsiniz. |
Olay yönetimi için özel araçlar temin edin. Tüm yanıtlayanların bu araçlara erişimi olduğundan emin olun ve bu araçların nasıl etkili bir şekilde kullanılacağını anlayın. Sistem durumunu izleyebilen, müşteri tarafından bildirilen sorunları izleyebilen, sorunları belirleyebilen, çağrıdaki mühendislere yükseltebilen, yanıt vermeyen mühendisleri yönetebilen ve üretimde değişiklik yapmayı etkinleştirebilen araçları seçin. |
Doğru araçlara sahip olmak, arama ekibinizin güvenlik ve operasyon denetimini korurken olayları hızla belirlemesine ve çözmesine yardımcı olur. |
İzleme, dağıtımlar, güncelleştirmeler ve diğer düzenli yönetim işlemlerinizi geliştirin. | Operasyonel olgunluğa yatırım yaparak, canlı site sorunlarının olasılığını azaltırsınız. Sorun oluşursa, iyi tanımlanmış işlemlerin yerinde olması çözüm süresini kısaltır. |
Yanıt planınızı tanımlama
Olayların kaçınılmaz olduğunu kabul edin ve bir olay yanıt planı tanımlayarak bunlara hazırlanın. Bu proaktif yaklaşım, ilk olayınız sırasında bir yanıt stratejisi tasarlamanızı önler.
Müşterilerinizin hizmetinizi kullanma becerisini etkileyen önemli olaylar için önceden plan yapın. Bu hazırlık, olayları meydana gelen olayları yönetirken stresi ve karmaşıklığı en aza indirmeye yardımcı olur.
Tasarımla ilgili dikkat edilecek noktalar
İlerletme yolunu tanımlayın. Ekiplerin destek görevleri için yükseltme sürecini anladığınızdan emin olun. Birçok SaaS çözümünde müşteriler ön cephe destek ekibine başvurarak mühendislik ekibiyle iletişim kurar. Müşterilerin kimlerle etkileşim kuracaklarını ve bu işlemleri neden atlamamaları gerektiğini bilmelerini sağlayın. Ayrıca, mühendislik ekibinizin Microsoft'taki destek ekipleri de dahil olmak üzere satıcılardan ne zaman ve nasıl yardım isteyeceğinizi bildiğinden emin olun.
Önem derecesi düzeylerini tanımlayın. Farklı olaylar sizin ve müşterilerinizin önemine göre değişir. Büyük bir üretim kesintisi ile başa çıkma şekliniz, küçük bir hatayı giderme yönteminizden farklıdır. Müşteri etkisine göre önem düzeylerini tanımlayın ve her düzey için uygun beklentileri ve zaman çizelgelerini ayarlayın.
Önceliklendirme için ihtiyacınız olan belge bilgileri. Etkili olay yanıtı için belgelerin güncel tutulması önemlidir. Bu belgeler sistemin mimari düzenini, bileşen düzeyi ayrıntılarını, sahiplerini ve önemli kişilerini içerir. Yanlış veya güncel olmayan bilgiler, olay yanıtı ekibinin sistem işlemlerini, sorumluluklarını ve olayın olası etkisini anlamak için değerli zaman kaybetmesine neden olabilir.
Müşterilerle etkili iletişim için planlama. Durum güncelleştirmelerinin sağlanması, olay yönetiminde çok önemlidir. Durum güncelleştirmeleri, müşterilerinizin bir olayın doğasını anlamasına ve benzer sorunlarla karşılaşan müşterilerden gelen destek olaylarının hacmini azaltmanıza yardımcı olur.
Tasarım önerileri
Öneri | Avantaj |
---|---|
Müşterilerinize ön cephe destek ekibinizle destek olayı açma gibi net bir olay raporlama süreci sağlayın. | Olayları bulma ve yanıtlama şeklinizde tutarlılık sağlarsınız; bu da çözüm süresini kısaltır ve bilgilerin kaybolmasını veya göz ardı edilmesini önler. |
Mimari düzeni, bileşen düzeyi ayrıntıları, gizlilik veya güvenlik sınıflandırmaları, sahipler ve önemli kişileri belgeleyin. | Önceliklendirme ekibi, bilgilere hazır bir şekilde sahiptir ve araştırmalara ve etkiyi değerlendirmeye odaklanabilir. |
Olay yanıtı ekibinizin günlükler gibi gerekli varlıklara ve sistemlere erişebildiğinden emin olun. Ayrıca, güvenli ve denetimli bir süreç aracılığıyla üretim değişiklikleri yapabilmeleri gerekir. | Ekibinizin zaman kaybetmediğinden emin olarak işlemleri daha hızlı bir şekilde geri yüklersiniz. |
Kendi durumunuzu oluşturmak yerine ticari durum sayfası kullanın. | Ticari durum sayfası kullanarak zaman kazanın. Başka bir kuruluş tarafından barındırılan bir durum sayfası, sisteminizdeki bir kesinti sırasında müşterilerin erişimine açık kalır. |
Olayları yöntemsel olarak yönetme
Tanımlanan plana bağlı kalma, yanıt süresi boyunca doğaçlamayı önlemek için çok önemlidir. Bu yaklaşım, bu durumları yönetmenin stresini ve karmaşıklığını en aza indirmeye yardımcı olur.
Tasarımla ilgili dikkat edilecek noktalar
Olay önem derecesi atayın. Olay önem derecesini belirlemek için olay yanıt planınızı kullanın. Müşteriler genellikle olaylar sırasında hayal kırıklığına uğrar. Öncelik verebilmeniz için gördükleri etkiyi anlamanız önemlidir. Müşterilerin gerçekçi beklentilere sahip olması için olayın önem derecesini net bir şekilde iletin.
Sakin ol ve net düşün. Olaylar stresli ve belirsiz olabilir ve birden çok proje katılımcısı dikkat çekmek istiyor. Bir olayda lideri kimin aldığına ilişkin net bir süreç elde edin. Kusurlu bilgilerle çalışmanız gerekebileceğini kabul ederken olayları olabildiğince iyi önceliklendirme. Durumu kontrol etmeye çalış.
Kuruluş liderleri, bir olayı etkin bir şekilde araştıran veya azaltan ekip üyelerini koruyarak yardımcı olabilir.
Durumunuzu müşterilerinize iletin. Yeterli bilgiyi yayımlamak için durum sayfasını güncelleştirin. Hemen iletişim kurun ve tahmini çözüm süreleri gibi gerekli bilgileri sağlayın. Müşterilere güvenlerini korumak için sık sık güncelleştirmeler yapın.
Tasarım önerileri
Öneri | Avantaj |
---|---|
Bir olay sırasında, bulma yerine kurtarmanın önceliğini belirleyin. Bir olay oluştuğunda, müşterilerinizin kesintiye uğramasını en aza indirmek için geri yükleme işlemlerinin önceliğini hızla belirleyin. |
Soruna neyin neden olduğunu henüz anlamasanız bile etkilenen bir bileşenin etrafında yönlendirme yaparak veya güncelleştirmeyi geri alarak kurtarabilirsiniz. |
Kesintiler sırasında zamanında, net ve sık güncelleştirmeler sağlayın. | Müşteri güvenini aşılayabilir ve ön saf destek ekibinizin yükünü azaltabilirsiniz. |
Etkin bir olay sırasında bir iletişim yöneticisi belirleyin. Bu yönetici tek bir kişi olabilir veya ekip üyeleri arasındaki sorumluluğu olaylar arasında değiştirebilirsiniz. | Mühendislik ekibiniz için tek bir sese sahip olarak, konuşmaları merkezileştirir ve diğer ekip üyelerinin dikkatini dağıtan şeyleri azaltırsınız. Çakışan bilgilerin karmaşık bir olay sırasında müşterilere veya paydaşlara ulaşmasını da engellersiniz. |
Microsoft gibi satıcılar için görev açısından kritik bir destek planına sahip olduğunuzdan emin olun. | Bir kesinti oluşursa, sorunun nerede olduğunu belirlemenize ve kesinti süresini kısaltmanıza yardımcı olması için Microsoft gibi platform satıcılarınızla hızlı yanıt veren iletişimlere ihtiyacınız vardır. |
Olay sonrası gözden geçirmeleri gerçekleştirme
Bir olaydan kurtarıldıktan sonra, olaydan neler öğrenebileceğinizi gözden geçirin ve analiz edin. Teknik değişiklikler, süreç ayarlamaları veya daha fazla eğitim içerebilen düzeltme eylemleri uygulayın.
Tasarımla ilgili dikkat edilecek noktalar
Olaylar hakkında bilgi edinin. Kesintiler değerli öğrenme fırsatları sunar. Dersleri tanımlamak ve iyileştirmeler uygulamak için olaylardan sonra ayrıntılı incelemeler yapın. Büyük olayların genellikle birden çok nedeni vardır. Çözümünüzün işletimsel süreçler gibi diğer katmanlarının sorunu yükseltmeden önce engelleyip engellemeyeceğini veya algılayıp algılamayacağını değerlendirin. Ayrıca, çözümünüzün başka bir yerinde aynı sorunla ilgili risk altında olabilecek benzer desenleri arayın.
Müşterilerinizle iletişim kurun. Birçok ISV, özellikle yüksek kaliteli güncelleştirmeler bekleyen kurumsal müşteriler için olay sonrası iletişim sağlar. Şeffaf olun ve müşterilerin sorunu ve risk azaltma adımlarını anlaması için yeterli bilgi sağlayın. Ancak, güvenlik ve bütünlüğü korumak için çözüm mimariniz veya bileşenleriniz hakkında aşırı iç ayrıntıları paylaşmaktan kaçının.
Tasarım önerileri
Öneri | Avantaj |
---|---|
Olay sonrası iç gözden geçirmeleri gerçekleştirmek için bir işlem oluşturun. Soruna katkıda bulunan nedenleri belirlemeye odaklanın. Teknik nedenleri, süreçlerinizin kesintiye nasıl katkıda bulunduğunu ve olaya nasıl yanıt verdiğinizi göz önünde bulundurun. |
Olay sonrası iç incelemeler, üretim kesintilerinden ders çıkarmanıza ve benzer sorunların yeniden ortaya çıkma riskini en aza indirmenize yardımcı olur. |
Düzeltme gerektiren öğeleri ele almak için yapılandırılmış bir plan yapın. Net sorumluluk ve zaman çizelgeleri ekleyin. | Net sorumluluk, her rolün işlevsel beklentilerini karşıladığından, netliği artırdığından ve istenen düzeylerde saydam raporlamaya olanak sağladığından emin olmanıza yardımcı olur. |
Müşteriye yönelik olay sonrası gözden geçirmeleri yayımlayın. Gereksiz iç ayrıntıları veya sistem mimarisini ortaya çıkarmaksızın müşterilere sorunu ve risk azaltma adımlarını anlamak için yeterli ayrıntı sağlayın. Olay sonrası iletişimler her zaman insanlar tarafından yazılmalıdır ve yayımlanmalıdır. Teknik ve teknik olmayan paydaşlar, iletişimleri doğruluk ve netlik açısından gözden geçirmelidir. |
Bu yaklaşım müşterilerin güvenini korumaya yardımcı olur ve onlara olaydan öğrendiğiniz ve belirlenen sorunları çözdüğünüz konusunda güvence sağlar. |
Sonraki adım
Tasarım alanlarını gözden geçirdikten sonra, tasarımınızı değerlendirmek için değerlendirme aracına geçin.