Dokumentasi rekayasa keandalan situs
Rekayasa keandalan situs adalah disiplin teknik yang dikhususkan untuk membantu organisasi secara berkelanjutan mencapai tingkat keandalan yang sesuai dalam sistem, layanan, dan produk mereka.
Meningkatkan Keandalan melalui Praktik Pengoperasian Modern
SRE di Azure
Dokumentasi untuk SRE
Sistem
Penyediaan dan Pengiriman
Pembicaraan SRE dari Microsoft
Kultur
- Evolusi Rekayasa Keandalan Situs
- Membangun SRE: Budaya dari Luar Dalam
- Nuansa Budaya dan Kolaborasi Efektif untuk Tim Multikultural
- Evolusi SRE dan Meningkatnya Kebutuhan atas SRE Catalyzers
- Feedback Loops: Bagaimana SRE Memanfaatkan dan Apa yang Dibutuhkan untuk Mewujudkan Potensi Mereka
- Memahami Metrik Bisnis Dapat Membuat Anda Menjadi SRE yang Lebih Baik
- Kisah yang Tak Putus tentang Keandalan Situs
- Setiap Hari adalah Senin dalam Operasi
Tanggapan Insiden dan Ulasan Pasca-Insiden
Pemantauan dan Pengamatan
- Lebih dari 600 Juta Anggota dan Ratusan Layanan Mikro: Cara Kami Menskalakan Sistem Pemantauan Kami untuk Mengikuti
- Off the Beaten Path: Memindahkan Fokus Pengamatan dari Layanan Anda ke Pelanggan Anda
- Anda Mendapatkan Apa yang Anda Ukur—Mengapa Metrik Penting
- Menangani Badai Masalah: Bagaimana Peringatan Dini Menyelamatkan Peternakan
- Menangkap dan Menganalisis Jutaan Pertanyaan tanpa Overhead
- Korelasi Acara: Pendekatan Segar untuk Mengurangi MTTR
- Seberapa Kuat Pemantauan Mendorong Ketersediaan Tinggi untuk Umpan LinkedIn
- Mengurangi MTTR dan Eskalasi Palsu: Korelasi Peristiwa di LinkedIn
Praktik dan Prinsip
- Ketersediaan—Berpikir di luar 9s
- Model Mental untuk SRE
- Memprioritaskan Kepercayaan Saat Membuat Aplikasi
- Java Benci Linux. Urusi saja.
- Mencirikan dan Memahami Fase Praktik SRE
- Keamanan dan SRE: Pengali Kekuatan Alami
- Tinjauan Perbaikan Produksi: Mengurangi Perbaikan Utang
- Memastikan Keandalan Aplikasi Berperforma Tinggi
- Kartu Skor Layanan—Keunggulan Operasional Gamifying
- Cara Meningkatkan Layanan dengan Memanggangnya
Tim dan Manajemen
- Kode-Kuning: Membantu Tim Top-Heavy Operasi dengan Cara Cerdas
- Memimpin tanpa Mengelola: Menjadi Pemimpin Teknis SRE
- Perbedaan Implementasi SRE di Seluruh Perusahaan
- 100 Tim, 100 Cara Gagal
- Mengapa, Apa, dan Bagaimana Memulai Keterlibatan SRE
- Membangun dan Menjalankan Tim SRE
- Mahasiswa ke SRE: Orientasi Bakat Tingkat Pemula Anda
- SRE LinkedIn: Dari Awal hingga Skala Global
- Splicing Urutan DNA SRE di Perusahaan Perangkat Lunak Terbesar di Planet Ini
- Mengubah Tingkat 1 Ulat Menjadi Kupu-kupu
Alat dan Teknologi
- Azure SREBot: Lebih dari Sekadar Chatbot—Bot Cerdas untuk Menghemat Waktu Mitigasi
- TrafficShift: Menghindari Bencana dalam Skala Besar
- Mari Bangun Sistem File Terdistribusi
- TCP—Arsitektur, Penyempurnaan, dan Penyetelan
- BGP—Tulang Punggung Internet
- Ops di Serverless
- Cara Kami Menggunakan Kafka untuk Menskalakan Infrastruktur Database
- Jaringan untuk SRE: Apa yang Perlu Saya Ketahui untuk Pemecahan Masalah Aplikasi
- Ambry—Penyimpanan Objek Abadi Terdistribusi LinkedIn
- BPerf—Profiling Cloud Bing.com pada Produksi
- DNS: Solusi Lama untuk Masalah Modern
- Kemudi Lalu Lintas menggunakan Rum DNS @ LinkedIn
Penskalaan
- Infrastruktur Prakiraan Lalu Lintas dan Pengujian Stres
- Belajar dalam Skala Besar Itu Sulit! Analisis Pola Pemadaman dan Data Kotor
- Penskalaan Sistem Stateful Terdistribusi: Studi Kasus LinkedIn
- Debugging dalam Skala Besar—Berawal dari Kotak Tunggal ke Produksi
- Membangun Infrastruktur Penembolokan Terpusat dalam Skala Besar
- Pengkodean yang Dapat Diskalakan—Temukan Kesalahan
- Mengelola Kapasitas @ LinkedIn
- InStream: Distribusi Skala Besar menggunakan BitTorrent, Python, Salt, dan Kafka
- Menghindari dan Kabur dari Penjara Kapasitas
- Evolusi Perutean dan Failover Lalu Lintas Global