Como construir um runbook de resposta a incidentes que realmente funciona sob pressão

A maioria dos runbooks está desatualizada no dia seguinte à sua escrita. Aqui está como construir um que aguente quando os servidores estão em chamas.

O problema dos runbooks

Cada equipa de engenharia tem um runbook. A maioria está errada.

Não errada em sentido teórico — errada em sentido de crise. Quando um incidente acontece às 2h da manhã e um engenheiro de plantão precisa de agir em segundos, o runbook é demasiado vago, demasiado desatualizado ou demasiado longo para analisar.

Por que os runbooks falham

Demasiada prosa, poucos passos. Um runbook escrito como documentação é inútil num incidente.

Gatilhos de escalada em falta. Os bons runbooks definem não só o que fazer, mas quando escalar.

Sem caminho de rollback. Cada ação precisa de um passo de "desfazer" correspondente.

Não mantido após incidentes. O melhor momento para atualizar um runbook é imediatamente após um incidente.

A anatomia de um runbook eficaz

Classificação de incidentes — níveis de gravidade com limiares concretos
Deteção e notificação — quem é contactado, em que canal
Passos de diagnóstico inicial — primeiras verificações padronizadas
Playbooks por tipo de incidente — passos numerados com rollbacks
Modelos de comunicação — atualizações de página de estado pré-escritas
Gatilhos pós-incidente — post-mortem sem culpa em 24h

Usar o Reloadium Incident Response para incidentes ao vivo

Os runbooks cobrem respostas planeadas. O Reloadium Incident Response trata das não planeadas — com diagnóstico guiado por IA e rascunhos de comunicação estruturados.

Experimentar Reloadium Incident Response Saiba mais sobre Reloadium Incident Response