Voltar às notícias
ReloadiumDevOpsGestão de incidentesRunbook

Como construir um runbook de resposta a incidentes que realmente funciona sob pressão

A maioria dos runbooks está desatualizada no dia seguinte à sua escrita. Aqui está como construir um que aguente quando os servidores estão em chamas.

O problema dos runbooks

Cada equipa de engenharia tem um runbook. A maioria está errada.

Não errada em sentido teórico — errada em sentido de crise. Quando um incidente acontece às 2h da manhã e um engenheiro de plantão precisa de agir em segundos, o runbook é demasiado vago, demasiado desatualizado ou demasiado longo para analisar.

Por que os runbooks falham

Demasiada prosa, poucos passos. Um runbook escrito como documentação é inútil num incidente.

Gatilhos de escalada em falta. Os bons runbooks definem não só o que fazer, mas quando escalar.

Sem caminho de rollback. Cada ação precisa de um passo de "desfazer" correspondente.

Não mantido após incidentes. O melhor momento para atualizar um runbook é imediatamente após um incidente.

A anatomia de um runbook eficaz

  1. Classificação de incidentes — níveis de gravidade com limiares concretos
  2. Deteção e notificação — quem é contactado, em que canal
  3. Passos de diagnóstico inicial — primeiras verificações padronizadas
  4. Playbooks por tipo de incidente — passos numerados com rollbacks
  5. Modelos de comunicação — atualizações de página de estado pré-escritas
  6. Gatilhos pós-incidente — post-mortem sem culpa em 24h

Usar o Reloadium Incident Response para incidentes ao vivo

Os runbooks cobrem respostas planeadas. O Reloadium Incident Response trata das não planeadas — com diagnóstico guiado por IA e rascunhos de comunicação estruturados.

Partilhar