Como construir um runbook de resposta a incidentes que realmente funciona sob pressão
A maioria dos runbooks está desatualizada no dia seguinte à sua escrita. Aqui está como construir um que aguente quando os servidores estão em chamas.
O problema dos runbooks
Cada equipa de engenharia tem um runbook. A maioria está errada.
Não errada em sentido teórico — errada em sentido de crise. Quando um incidente acontece às 2h da manhã e um engenheiro de plantão precisa de agir em segundos, o runbook é demasiado vago, demasiado desatualizado ou demasiado longo para analisar.
Por que os runbooks falham
Demasiada prosa, poucos passos. Um runbook escrito como documentação é inútil num incidente.
Gatilhos de escalada em falta. Os bons runbooks definem não só o que fazer, mas quando escalar.
Sem caminho de rollback. Cada ação precisa de um passo de "desfazer" correspondente.
Não mantido após incidentes. O melhor momento para atualizar um runbook é imediatamente após um incidente.
A anatomia de um runbook eficaz
- Classificação de incidentes — níveis de gravidade com limiares concretos
- Deteção e notificação — quem é contactado, em que canal
- Passos de diagnóstico inicial — primeiras verificações padronizadas
- Playbooks por tipo de incidente — passos numerados com rollbacks
- Modelos de comunicação — atualizações de página de estado pré-escritas
- Gatilhos pós-incidente — post-mortem sem culpa em 24h
Usar o Reloadium Incident Response para incidentes ao vivo
Os runbooks cobrem respostas planeadas. O Reloadium Incident Response trata das não planeadas — com diagnóstico guiado por IA e rascunhos de comunicação estruturados.