Documentación acerca de la ingeniería de confiabilidad de sitios
La ingeniería de confiabilidad de sitios es una disciplina de ingeniería dedicada a ayudar a una organización a lograr de manera sostenible el nivel adecuado de confiabilidad en sus sistemas, servicios y productos.
Mejora de la confiabilidad mediante prácticas operativas modernas
SRE en Azure
Documentación para ingenierías de confiabilidad de sitios
Arquitectura
Aprovisionamiento y entrega
Información de Microsoft sobre SRE
Referencia cultural
- La evolución de la ingeniería de confiabilidad de sitios
- Creación de SRE: un enfoque cultural de afuera hacia adentro
- Matiz de referencia cultural y colaboración efectiva para equipos multiculturales
- Evolución de SRE y creciente necesidad de catalizadores de SRE
- Bucles de comentarios: beneficios de las ingenierías de confiabilidad de sitios y elementos necesarios para percibir su potencial
- Las métricas empresariales pueden mejorar la ingeniería de confiabilidad de sitios
- La historia interminable de la confiabilidad de sitios
- Todos los días son lunes en las operaciones
Respuesta ante incidentes y reseñas tras los incidentes
Supervisión y observabilidad
- Más de 600 millones de miembros y cientos de microservicios: cómo escalamos nuestro sistema de supervisión para mantenernos al día
- Fuera de lo común: cambiar el enfoque de la observabilidad del servicio al cliente
- Obtiene lo que mide: importancia de las métricas
- Aguantando el temporal: cómo las alertas tempranas salvan la granja
- Captura y análisis de millones de consultas sin sobrecarga
- Correlación de eventos: un enfoque nuevo para reducir el MTTR
- Potenciación de la alta disponibilidad de la fuente LinkedIn mediante una sólida supervisión
- Reducción del MTTR y las escalaciones falsas: correlación de eventos en LinkedIn
Prácticas y principios
- Disponibilidad: pensar más allá de los nueves
- Modelos mentales de las ingenierías de confiabilidad de sitios
- Prioridad de la confianza al crear aplicaciones
- Java odia Linux. Lidia con eso.
- Fases de caracterización y comprensión de las prácticas de SRE
- Seguridad y SRE: multiplicadores de la fuerza natural
- Revisión de mejoras en la producción: reducción de la deuda de reparaciones
- Garantía de confiabilidad de las aplicaciones de alto rendimiento
- La tarjeta de puntuación del servicio: excelencia operativa de la gamificación
- Mejora de un servicio vuelta y vuelta
Equipos y administración
- Código amarillo: cómo ayudar de manera inteligente a los equipos operativos en dificultades
- Liderar sin administrar: cómo convertirse en líder técnico de SRE
- Diferencias en las implementaciones de SRE entre empresas
- Cien equipos, cien formas de cometer errores
- El por qué, qué y cómo de iniciar la involucración en SRE
- Crear y llevar equipos de SRE
- De estudiante universitario a SRE: incorporación de personal de nivel principiante
- SRE de LinkedIn: desde la concepción hasta la escala global
- División de las secuencias de DNA de SRE en la mayor empresa de software del planeta
- Transformación de gusanos de nivel 1 en mariposas
Herramientas y tecnologías
- Azure SREBot: más que un bot de chat, un bot inteligente para pulverizar el tiempo de mitigación
- TrafficShift: prevención de desastres a gran escala
- Creemos un sistema de archivos distribuido
- TCP: arquitectura, mejoras y ajuste
- BGP: la red troncal de Internet
- Los ops si no hay servidor
- Uso de Kafka para escalar la infraestructura de las bases de datos
- Redes para SRE: conocimientos necesarios para solucionar los problemas de las aplicaciones
- Ambry: el almacén de objetos inmutables distribuido de LinkedIn
- BPerf: generación de perfiles en la nube de Bing.com en producción
- DNS: una solución antigua para problemas modernos
- Dirección del tráfico mediante Rum DNS @ LinkedIn
Ampliación
- Infraestructura de las pruebas de esfuerzo y previsión del tráfico
- ¡Es difícil aprender a escala! Análisis de patrones de interrupción y datos sucios
- Escalado de un sistema con estado distribuido: un caso práctico de LinkedIn
- Depuración a escala: paso de un solo cuarto a un entorno de producción
- Creación de una infraestructura de almacenamiento en caché centralizada a escala
- Codificación escalable: búsqueda del error
- Administración de la capacidad y LinkedIn
- InStream: distribución a gran escala mediante BitTorrent, Python, Salt y Kafka
- Evitar y romper la prisión de la falta de capacidad
- La evolución del enrutamiento del tráfico global y de la conmutación por error