Documentación acerca de la ingeniería de confiabilidad de sitios

La ingeniería de confiabilidad de sitios es una disciplina de ingeniería dedicada a ayudar a una organización a lograr de manera sostenible el nivel adecuado de confiabilidad en sus sistemas, servicios y productos.

video

Introducción a SRE: ¿Qué es SRE? (1/3)

video

Introducción a SRE: principios básicos y prácticas (2/3)

video

Introducción a SRE: cómo empezar (3/3)

SRE en Azure

Documentación para ingenierías de confiabilidad de sitios

Arquitectura

Marco de buena arquitectura de Microsoft Azure
Guía de la arquitectura de aplicaciones en Azure
Arquitecturas de referencia y cargas de trabajo de ejemplo
Microsoft Cloud Adoption Framework para Azure
Creación de microservicios en Azure
Guía de arquitectura de datos de Azure
Procedimientos recomendados en la nube
Diseño de aplicaciones de Azure confiables
Patrones de diseño en la nube
Azure para profesionales de AWS
Azure para profesionales de GCP
Optimización del rendimiento
Más información en el Centro de arquitectura de Azure

Supervisión

Introducción a Azure Monitor
Métricas con Azure Monitor
Registros con Azure Monitor
Application Performance Management con Application Insights
Seguimiento distribuido con Azure Monitor
Más información sobre Azure Monitor

Aprovisionamiento y entrega

Azure Resource Manager
Terraform en Azure
Acciones de GitHub
Azure Pipelines

Ampliación

Introducción a la escalabilidad automática
Instrucciones de escalado automático
Desarrollo para la escalabilidad automática
Descripción general del pilar de eficiencia del desempeño
Diseño de escalado horizontal
Patrones de confiabilidad

Información de Microsoft sobre SRE

Referencia cultural

La evolución de la ingeniería de confiabilidad de sitios
Creación de SRE: un enfoque cultural de afuera hacia adentro
Matiz de referencia cultural y colaboración efectiva para equipos multiculturales
Evolución de SRE y creciente necesidad de catalizadores de SRE
Bucles de comentarios: beneficios de las ingenierías de confiabilidad de sitios y elementos necesarios para percibir su potencial
Las métricas empresariales pueden mejorar la ingeniería de confiabilidad de sitios
La historia interminable de la confiabilidad de sitios
Todos los días son lunes en las operaciones

Respuesta ante incidentes y reseñas tras los incidentes

Creación de resiliencia: cómo aprender más de los incidentes
Historia de dos post mortem: una vista de factores humanos
Ironías de la automatización: comedia en tres actos
En contra de las guardias: una polémica
SRE mano a mano

Supervisión y observabilidad

Más de 600 millones de miembros y cientos de microservicios: cómo escalamos nuestro sistema de supervisión para mantenernos al día
Fuera de lo común: cambiar el enfoque de la observabilidad del servicio al cliente
Obtiene lo que mide: importancia de las métricas
Aguantando el temporal: cómo las alertas tempranas salvan la granja
Captura y análisis de millones de consultas sin sobrecarga
Correlación de eventos: un enfoque nuevo para reducir el MTTR
Potenciación de la alta disponibilidad de la fuente LinkedIn mediante una sólida supervisión
Reducción del MTTR y las escalaciones falsas: correlación de eventos en LinkedIn

Prácticas y principios

Disponibilidad: pensar más allá de los nueves
Modelos mentales de las ingenierías de confiabilidad de sitios
Prioridad de la confianza al crear aplicaciones
Java odia Linux. Lidia con eso.
Fases de caracterización y comprensión de las prácticas de SRE
Seguridad y SRE: multiplicadores de la fuerza natural
Revisión de mejoras en la producción: reducción de la deuda de reparaciones
Garantía de confiabilidad de las aplicaciones de alto rendimiento
La tarjeta de puntuación del servicio: excelencia operativa de la gamificación
Mejora de un servicio vuelta y vuelta

Equipos y administración

Código amarillo: cómo ayudar de manera inteligente a los equipos operativos en dificultades
Liderar sin administrar: cómo convertirse en líder técnico de SRE
Diferencias en las implementaciones de SRE entre empresas
Cien equipos, cien formas de cometer errores
El por qué, qué y cómo de iniciar la involucración en SRE
Crear y llevar equipos de SRE
De estudiante universitario a SRE: incorporación de personal de nivel principiante
SRE de LinkedIn: desde la concepción hasta la escala global
División de las secuencias de DNA de SRE en la mayor empresa de software del planeta
Transformación de gusanos de nivel 1 en mariposas

Herramientas y tecnologías

Azure SREBot: más que un bot de chat, un bot inteligente para pulverizar el tiempo de mitigación
TrafficShift: prevención de desastres a gran escala
Creemos un sistema de archivos distribuido
TCP: arquitectura, mejoras y ajuste
BGP: la red troncal de Internet
Los ops si no hay servidor
Uso de Kafka para escalar la infraestructura de las bases de datos
Redes para SRE: conocimientos necesarios para solucionar los problemas de las aplicaciones
Ambry: el almacén de objetos inmutables distribuido de LinkedIn
BPerf: generación de perfiles en la nube de Bing.com en producción
DNS: una solución antigua para problemas modernos
Dirección del tráfico mediante Rum DNS @ LinkedIn

Ampliación

Infraestructura de las pruebas de esfuerzo y previsión del tráfico
¡Es difícil aprender a escala! Análisis de patrones de interrupción y datos sucios
Escalado de un sistema con estado distribuido: un caso práctico de LinkedIn
Depuración a escala: paso de un solo cuarto a un entorno de producción
Creación de una infraestructura de almacenamiento en caché centralizada a escala
Codificación escalable: búsqueda del error
Administración de la capacidad y LinkedIn
InStream: distribución a gran escala mediante BitTorrent, Python, Salt y Kafka
Evitar y romper la prisión de la falta de capacidad
La evolución del enrutamiento del tráfico global y de la conmutación por error

Documentación acerca de la ingeniería de confiabilidad de sitios

Mejora de la confiabilidad mediante prácticas operativas modernas

Cursos en línea de SRE

Recursos de SRE

SRE en Azure

Información de Microsoft sobre SRE