Recomanacions per definir objectius de fiabilitat

Article
10/16/2024

S'aplica a aquesta Power Platform recomanació de la llista de verificació de fiabilitat ben arquitectada:

RE:04	Definiu objectius de fiabilitat i recuperació per als components, els fluxos i la solució general. Visualitza els objectius per negociar, obtenir consens, establir expectatives i impulsar accions per assolir l'estat ideal. Utilitzeu els objectius definits per crear el model d'estat. El model de salut defineix com són els estats saludables, degradats i no saludables.

Aquesta guia descriu les recomanacions per definir les mètriques de destinació de disponibilitat i recuperació per a càrregues de treball crítiques. Els objectius de fiabilitat es deriven a través d'exercicis de taller amb les parts interessades del negoci.

Els objectius es milloren mitjançant el seguiment i les proves. Treballeu amb els vostres grups d'interès interns per establir expectatives realistes de fiabilitat. Aquest exercici també ajudarà les parts interessades a donar suport a les vostres opcions de disseny arquitectònic i a entendre que esteu dissenyant per complir millor els objectius que heu acordat.

Microsoft Power Platform gestiona la majoria dels problemes de disponibilitat i fiabilitat a nivell d'infraestructura. Tanmateix, la disponibilitat de les càrregues de treball que creeu és una responsabilitat compartida. És important entendre que, fins i tot amb el compromís de Microsoft amb l'alta disponibilitat , el risc d'inactivitatdel sistema mai és zero.

Penseu en utilitzar les mètriques següents per quantificar els requisits empresarials.

Terme	Definició
Objectiu de nivell de servei (SLO)	Un objectiu de percentatge que representa l'estat del component i el nivell de fiabilitat. Com més alt sigui el nivell, més fiable serà el component. SLO compost representa l'objectiu agregat de tota la càrrega de treball i té en compte els SLO del component.
Indicador de nivell de servei (SLI)	Mètrica emesa per un servei. Les mètriques SLI s'agreguen per quantificar un valor SLO.
Acord de nivell de servei (SLA)	Un acord contractual entre el proveïdor de serveis i el client del servei. L'acord defineix els SLO. L'incompliment de l'acord pot tenir conseqüències econòmiques per al proveïdor de serveis.
Temps mitjà de recuperació (MTTR)	El temps necessari per restaurar un component després de detectar una fallada.
Temps mitjà entre fallades (MTBF)	La durada durant la qual la càrrega de treball pot realitzar la funció esperada sense interrupcions, fins que falli.
Objectiu de temps de recuperació (RTO)	El temps màxim acceptable que una aplicació no pot estar disponible després d'un incident.
Objectiu de punt de recuperació (RPO)	Durada màxima acceptable de la pèrdua de dades durant un incident.

Definiu els valors de destinació de la càrrega de treball per a aquestes mètriques en el context dels fluxos d'usuari i del sistema. Identifiqueu i puntueu aquests fluxos segons la seva importància per als vostres requisits. Utilitzeu els valors per impulsar el disseny de la vostra càrrega de treball en termes d'arquitectura, revisió, proves i operacions de gestió d'incidents. L'incompliment dels objectius afectarà el negoci més enllà del nivell de tolerància.

Estratègies clau de disseny

Les discussions tècniques no haurien d'influir en la definició dels objectius de fiabilitat per als fluxos crítics. En canvi, les parts interessades del negoci s'han de centrar en els seus requisits i les expectatives dels usuaris finals de la càrrega de treball. Els experts tècnics ajuden les parts interessades a assignar valors numèrics realistes que compleixin aquests requisits. Mitjançant l'intercanvi d'informació, els experts tècnics permeten la discussió i l'acord sobre SLO factibles.

Considereu un exemple de com assignar els requisits a valors numèrics mesurables. Les parts interessades estimen que per a un flux d'usuaris crític, una hora d'inactivitat durant l'horari comercial habitual comporta una pèrdua de X dòlars en ingressos mensuals. Aquesta quantitat en dòlars es compara amb el cost estimat de dissenyar un flux que tingui un SLO de disponibilitat del 99,95 per cent en lloc del 99,9 per cent. Els responsables de la presa de decisions han de discutir si el risc d'aquesta pèrdua d'ingressos supera els costos afegits i la càrrega de gestió necessària per protegir-se.

Seguiu aquest patró mentre examineu els fluxos i creeu una llista completa d'objectius.

Recordeu que els objectius de fiabilitat difereixen dels objectius de rendiment. Els objectius de fiabilitat se centren en la disponibilitat i la recuperació. Per establir objectius de fiabilitat, comenceu definint els requisits més amplis i, a continuació, definiu mètriques més específiques per complir els requisits d'alt nivell.

Els requisits de fiabilitat i recuperació de més alt nivell i les mètriques correlacionades poden incloure, per exemple, una disponibilitat d'aplicacions del 99,9 per cent per a totes les regions o un RTO objectiu de 5 hores per a la regió d'Amèrica. La definició d'aquests tipus d'objectius us ajuda a identificar quins fluxos crítics estan implicats en aquests objectius. A continuació, podeu considerar objectius a nivell de component.

Mètriques de disponibilitat

Els objectius de disponibilitat corresponen a les mètriques SLO, SLA i SLI.

SLO i SLA

Les mètriques de disponibilitat es correlacionen amb els SLO, que utilitzeu per definir SLA. L'SLO de càrrega de treball determina quant temps d'inactivitat és tolerable en un període determinat; per exemple, menys d'1 hora al mes. Per assegurar-vos que podeu complir l'objectiu SLO, reviseu els SLA Microsoft de cada component.

Per establir els vostres SLO, penseu en:

Requisits no funcionals de la càrrega de treball (per exemple, percentatges de sol·licituds màximes, usuaris simultanis) durant els propers 1-2 anys.
Mètriques disponibles sobre el que podeu mesurar, durant un període de temps específic. Aquestes dades informaran quins SLI s'han d'especificar.

Després de recopilar els SLA per als components individuals de la càrrega de treball, calculeu un SLA compost. L'SLA compost ha de coincidir amb l'SLO objectiu de la càrrega de treball. El càlcul d'un SLA compost implica diversos factors, depenent del disseny de l'arquitectura.

Definir els SLO adequats requereix temps i una consideració acurada. Les parts interessades de l'empresa han d'entendre la tolerància a la fiabilitat. Aquesta retroalimentació hauria d'informar els objectius.

Valors SLA

La taula següent defineix els valors d'SLA comuns.

SLA	Temps d'inactivitat per setmana	Temps d'inactivitat al mes	Temps d'inactivitat per any
99%	1.68 hores	7.2 hores	3.65 dies
99.9%	10.1 minuts	43.2 minuts	8.76 hores
99.95%	5 minuts	21.6 minuts	4.38 hores
99.99%	1.01 minuts	4.32 minuts	52.56 minuts
99.999%	6 segons	25.9 segons	5.26 minuts

Quan penseu en SLA compostos en el context dels fluxos d'usuaris i del sistema, recordeu que els diferents fluxos d'usuaris i del sistema tenen definicions de criticitat diferents. Tingueu en compte aquestes diferències quan creeu els SLA compostos. Els fluxos no crítics poden tenir components que hauríeu d'ometre dels càlculs perquè no afecten l'experiència del client si no estan disponibles breument.

SLI

Penseu en els SLI com a mètriques a nivell de component que contribueixen a un SLO. Els SLI més significatius són els que afecten els vostres fluxos crítics des de la perspectiva dels vostres clients. Per a molts fluxos, els SLI inclouen latència, rendiment, taxa d'error i disponibilitat. Un bon SLI us ajuda a identificar quan un SLO corre el risc de ser incomplert. Correlacionar l'SLI amb clients específics quan sigui possible.

Per evitar la recollida de mètriques inútils, limiteu el nombre de SLI per a cada flux. Apunta a tres SLI per flux si és possible.

Mètriques de recuperació

Els objectius de recuperació corresponen a les mètriques RTO, RPO, MTTR i MTBF. A diferència dels objectius de disponibilitat, els objectius de recuperació per a aquestes mesures no depenen en gran mesura dels SLA Microsoft. Microsoft publica garanties RTO i RPO només per a alguns productes, com ara SQL Base de dades.

Les definicions per a objectius de recuperació realistes es basen en l'anàlisi del mode de fallada i els plans i proves per a la continuïtat del negoci i la recuperació de desastres. Abans d'acabar aquest treball, discutiu els objectius aspiracionals amb les parts interessades i assegureu-vos que el vostre disseny d'arquitectura admeti els objectius de recuperació segons la vostra comprensió. Comuniqueu clarament a les parts interessades que qualsevol part de la càrrega de treball que no s'hagi provat a fons per a les mètriques de recuperació no hauria de tenir SLA garantits. Assegureu-vos que les parts interessades entenguin que els objectius de recuperació poden canviar amb el temps a mesura que s'actualitzen les càrregues de treball. La càrrega de treball pot ser més complexa a mesura que adopteu noves tecnologies per millorar l'experiència de l'usuari. Aquests canvis poden augmentar o disminuir les mètriques de recuperació.

Nota

MTBF pot ser difícil de definir i garantir. Les plataformes com a servei (PaaS) o el programari com a servei (SaaS) poden fallar i recuperar-se sense cap notificació del proveïdor del núvol, i el procés pot ser completament transparent per a vosaltres. Si definiu objectius per a aquesta mètrica, cobriu només els components que estiguin sota el vostre control.

Construint un model de salut

Utilitzeu les dades que heu recopilat per als vostres objectius de fiabilitat per crear el vostre model d'estat per a cada càrrega de treball i fluxos crítics associats. Un model d'estat defineix estats correctes, degradats i no correctes* per als fluxos i les càrregues de treball. Els estats asseguren una priorització operativa adequada. Aquest model també es coneix com a model de semàfor. El model assigna verd per a sa, groc per degradat i vermell per a no saludable. Un model d'estat garanteix que sàpigues quan l'estat d'un flux canvia de saludable a degradat o incorrecte.

La manera de definir els estats saludables, degradats i no saludables depèn dels objectius de fiabilitat. Aquests són alguns exemples de maneres de definir els estats:

Un estat verd o saludable indica que els requisits i objectius clau no funcionals es compleixen plenament i que els recursos s'utilitzen de manera òptima.
Un estat groc o degradat indica que un o més components del flux estan alertant contra el llindar definit, però el flux està operatiu. Per exemple, s'ha detectat una limitació de l'emmagatzematge.
Un estat vermell o incorrecte indica que la degradació ha persistit més del permès pels objectius de fiabilitat o que el flux no està disponible.

Nota

El model de salut no hauria de tractar tots els fracassos de la mateixa manera. El model de salut ha de distingir entre falles transitòries i no transitòries . Hauria de distingir clarament entre fallades transitòries esperades però recuperables i un veritable estat de desastre.

Aquest model funciona mitjançant una estratègia de monitorització i alerta que es desenvolupa i opera segons els principis de millora contínua. A mesura que evolucionen les càrregues de treball, els models de salut han d'evolucionar amb elles.

Per obtenir instruccions detallades sobre les configuracions de supervisió i alertes, consulteu la guia de supervisió de l'estat .

Visualització

Per mantenir els equips d'operacions i les parts interessades de la càrrega de treball informats sobre l'estat en temps real i les tendències generals del model d'estat de la càrrega de treball, considereu la possibilitat de crear escriptoris digitals a la vostra solució de supervisió. Discutiu solucions de visualització amb les parts interessades per assegurar-vos que proporcioneu la informació que valoren i que és fàcil de consumir. També és possible que vulguin veure informes generats setmanalment, mensualment o trimestralment.

Power Platform facilitació

Power Platform Els SLA proporcionen els compromisos Microsoft per al temps de funcionament i la connectivitat. Els diferents serveis tenen diferents SLA i, de vegades, els SKU d'un servei tenen diferents SLA. Per obtenir més informació, vegeu Acords de nivell de servei per a serveis en línia.

L'SLA Power Platform inclou procediments per obtenir un crèdit de servei si no es compleix l'SLA, juntament amb definicions de disponibilitat per a cada servei. Aquest aspecte de l'SLA actua com una política d'aplicació.

Microsoft Business Applications proporciona capacitats de continuïtat de negoci i recuperació de desastres (BCDR) a tots els entorns de tipus producció en aplicacions Dynamics 365 i Power Platform SaaS. Obteniu informació sobre com Microsoft garanteix que les vostres dades de producció siguin resistents durant les interrupcions regionals.

Alineació organitzativa

Cloud Adoption Framework proporciona orientació per a recomanacions per a SLO i SLI relacionades amb la supervisió a tota l'organització.

Per obtenir més informació, vegeu SLO de supervisió al núvol.

Llista de verificació de fiabilitat

Consulteu el conjunt complet de recomanacions.

Llista de verificació de fiabilitat

Comparteix a través de

Recomanacions per definir objectius de fiabilitat

Estratègies clau de disseny

Mètriques de disponibilitat

SLO i SLA

Valors SLA

SLI

Mètriques de recuperació

Construint un model de salut

Visualització

Power Platform facilitació

Alineació organitzativa

Llista de verificació de fiabilitat

Comentaris

Recursos addicionals