Basınç altında gerçekten işe yarayan bir olay müdahale runbook'u nasıl oluşturulur
Çoğu runbook yazıldıktan sonraki gün güncelliğini yitirir. İşte sunucular yanıyorken dayanacak bir tane nasıl oluşturulur.
Runbook sorunu
Her mühendislik ekibinin bir runbook'u vardır. Çoğu yanlıştır.
Teorik anlamda değil — kriz anlamında yanlış. Bir olay gece 2'de patlak verdiğinde ve nöbetçi bir mühendis saniyeler içinde harekete geçmesi gerektiğinde, runbook ya çok belirsiz, ya çok eski ya da taranmak için çok uzundur.
Runbook'lar neden başarısız olur
Çok fazla düz metin, çok az adım. Dokümantasyon gibi yazılmış bir runbook olayda işe yaramaz.
Eksik eskalasyon tetikleyicileri. İyi runbook'lar sadece ne yapılacağını değil, ne zaman eskalasyon yapılacağını da tanımlar.
Rollback yolu yok. Her eylemin karşılık gelen bir "geri al" adımı olmalıdır.
Olaylardan sonra bakım yapılmamış. Bir runbook'u güncellemenin en iyi zamanı bir olayın hemen ardından.
Etkili bir runbook anatomisi
- Olay sınıflandırması — somut eşiklerle önem seviyeleri
- Tespit ve bildirim — kimin çağrıldığı, hangi kanalda
- İlk tanı adımları — standart ilk kontroller
- Olay türüne göre oyun kitapları — rollback'li numaralı adımlar
- İletişim şablonları — önceden yazılmış durum sayfası güncellemeleri
- Olay sonrası tetikleyiciler — 24 saat içinde suçsuz post-mortem
Canlı olaylar için Reloadium Incident Response kullanımı
Runbook'lar planlanmış yanıtları kapsar. Reloadium Incident Response planlanmayanları ele alır — AI rehberliğinde tanı ve yapılandırılmış iletişim taslakları ile.