Dokumentasi rekayasa keandalan situs

Rekayasa keandalan situs adalah disiplin teknik yang dikhususkan untuk membantu organisasi secara berkelanjutan mencapai tingkat keandalan yang sesuai dalam sistem, layanan, dan produk mereka.

video

Pengantar SRE: Apa itu SRE? (1/3)

video

Pengenalan SRE: Prinsip dan Praktik Inti (2/3)

video

Pengenalan SRE: Cara Memulai (3/3)

SRE di Azure

Dokumentasi untuk SRE

Sistem

Kerangka Kerja Microsoft Azure yang Terarsitektur dengan Baik
Panduan Arsitektur Aplikasi Azure
Arsitektur Referensi dan Contoh Beban Kerja
Microsoft Cloud Adoption Framework untuk Azure
Membangun Layanan Mikro di Azure
Panduan Arsitektur Data Azure
Praktik Terbaik Cloud
Merancang aplikasi Azure yang Andal
Pola Desain Cloud
Azure untuk Profesional AWS
Azure untuk Profesional GCP
Penyetelan performa
Lihat selengkapnya di Pusat Arsitektur Azure

Pemantauan

Gambaran Umum Azure Monitor
Metrik dengan Azure Monitor
Log dengan Azure Monitor
Manajemen Performa Aplikasi dengan Application Insights
Pelacakan Terdistribusi dengan Azure Monitor
Lihat selengkapnya tentang Azure Monitor

Penyediaan dan Pengiriman

Azure Resource Manager
Terraform di Azure
GitHub Actions
Azure Pipelines

Penskalaan

Gambaran umum skala otomatis
Panduan penskalaan otomatis
Mengembangkan untuk Penskalaan Otomatis
Gambaran umum pilar efisiensi performa
Desain untuk peluasan skala
Pola keandalan

Pembicaraan SRE dari Microsoft

Kultur

Evolusi Rekayasa Keandalan Situs
Membangun SRE: Budaya dari Luar Dalam
Nuansa Budaya dan Kolaborasi Efektif untuk Tim Multikultural
Evolusi SRE dan Meningkatnya Kebutuhan atas SRE Catalyzers
Feedback Loops: Bagaimana SRE Memanfaatkan dan Apa yang Dibutuhkan untuk Mewujudkan Potensi Mereka
Memahami Metrik Bisnis Dapat Membuat Anda Menjadi SRE yang Lebih Baik
Kisah yang Tak Putus tentang Keandalan Situs
Setiap Hari adalah Senin dalam Operasi

Tanggapan Insiden dan Ulasan Pasca-Insiden

Ketahanan Bangunan: Cara Belajar Lebih Banyak dari Insiden
Kisah Dua Postmortem: Pandangan Faktor Manusia
Ironi Otomatisasi: Komedi dalam Tiga Bagian
Melawan On-Call: Polemik
SRE one-on-one

Pemantauan dan Pengamatan

Lebih dari 600 Juta Anggota dan Ratusan Layanan Mikro: Cara Kami Menskalakan Sistem Pemantauan Kami untuk Mengikuti
Off the Beaten Path: Memindahkan Fokus Pengamatan dari Layanan Anda ke Pelanggan Anda
Anda Mendapatkan Apa yang Anda Ukur—Mengapa Metrik Penting
Menangani Badai Masalah: Bagaimana Peringatan Dini Menyelamatkan Peternakan
Menangkap dan Menganalisis Jutaan Pertanyaan tanpa Overhead
Korelasi Acara: Pendekatan Segar untuk Mengurangi MTTR
Seberapa Kuat Pemantauan Mendorong Ketersediaan Tinggi untuk Umpan LinkedIn
Mengurangi MTTR dan Eskalasi Palsu: Korelasi Peristiwa di LinkedIn

Praktik dan Prinsip

Ketersediaan—Berpikir di luar 9s
Model Mental untuk SRE
Memprioritaskan Kepercayaan Saat Membuat Aplikasi
Java Benci Linux. Urusi saja.
Mencirikan dan Memahami Fase Praktik SRE
Keamanan dan SRE: Pengali Kekuatan Alami
Tinjauan Perbaikan Produksi: Mengurangi Perbaikan Utang
Memastikan Keandalan Aplikasi Berperforma Tinggi
Kartu Skor Layanan—Keunggulan Operasional Gamifying
Cara Meningkatkan Layanan dengan Memanggangnya

Tim dan Manajemen

Kode-Kuning: Membantu Tim Top-Heavy Operasi dengan Cara Cerdas
Memimpin tanpa Mengelola: Menjadi Pemimpin Teknis SRE
Perbedaan Implementasi SRE di Seluruh Perusahaan
100 Tim, 100 Cara Gagal
Mengapa, Apa, dan Bagaimana Memulai Keterlibatan SRE
Membangun dan Menjalankan Tim SRE
Mahasiswa ke SRE: Orientasi Bakat Tingkat Pemula Anda
SRE LinkedIn: Dari Awal hingga Skala Global
Splicing Urutan DNA SRE di Perusahaan Perangkat Lunak Terbesar di Planet Ini
Mengubah Tingkat 1 Ulat Menjadi Kupu-kupu

Alat dan Teknologi

Azure SREBot: Lebih dari Sekadar Chatbot—Bot Cerdas untuk Menghemat Waktu Mitigasi
TrafficShift: Menghindari Bencana dalam Skala Besar
Mari Bangun Sistem File Terdistribusi
TCP—Arsitektur, Penyempurnaan, dan Penyetelan
BGP—Tulang Punggung Internet
Ops di Serverless
Cara Kami Menggunakan Kafka untuk Menskalakan Infrastruktur Database
Jaringan untuk SRE: Apa yang Perlu Saya Ketahui untuk Pemecahan Masalah Aplikasi
Ambry—Penyimpanan Objek Abadi Terdistribusi LinkedIn
BPerf—Profiling Cloud Bing.com pada Produksi
DNS: Solusi Lama untuk Masalah Modern
Kemudi Lalu Lintas menggunakan Rum DNS @ LinkedIn

Penskalaan

Infrastruktur Prakiraan Lalu Lintas dan Pengujian Stres
Belajar dalam Skala Besar Itu Sulit! Analisis Pola Pemadaman dan Data Kotor
Penskalaan Sistem Stateful Terdistribusi: Studi Kasus LinkedIn
Debugging dalam Skala Besar—Berawal dari Kotak Tunggal ke Produksi
Membangun Infrastruktur Penembolokan Terpusat dalam Skala Besar
Pengkodean yang Dapat Diskalakan—Temukan Kesalahan
Mengelola Kapasitas @ LinkedIn
InStream: Distribusi Skala Besar menggunakan BitTorrent, Python, Salt, dan Kafka
Menghindari dan Kabur dari Penjara Kapasitas
Evolusi Perutean dan Failover Lalu Lintas Global

Dokumentasi rekayasa keandalan situs

Meningkatkan Keandalan melalui Praktik Pengoperasian Modern

Kursus online SRE

Sumber daya SRE

SRE di Azure

Pembicaraan SRE dari Microsoft