Cómo crear un runbook de respuesta a incidentes que realmente funcione bajo presión
La mayoría de los runbooks están desactualizados al día siguiente de escribirse. Aquí está cómo crear uno que aguante cuando los servidores están en llamas.
El problema de los runbooks
Cada equipo de ingeniería tiene un runbook. La mayoría están mal.
No mal en un sentido teórico — mal en un sentido de crisis. Cuando un incidente ocurre a las 2am y un ingeniero de guardia necesita actuar en segundos, el runbook es demasiado vago, desactualizado o largo para escanear.
Por qué fallan los runbooks
Demasiada prosa, pocos pasos. Un runbook escrito como documentación es inútil en un incidente.
Sin disparadores de escalada. Los buenos runbooks definen no solo qué hacer, sino cuándo escalar.
Sin ruta de rollback. Cada acción necesita un paso de «deshacer» correspondiente.
No mantenido post-incidente. El mejor momento para actualizar un runbook es inmediatamente después de un incidente.
La anatomía de un runbook efectivo
- Clasificación de incidentes — niveles de severidad con umbrales concretos
- Detección y notificación — quién es paginado, en qué canal
- Pasos de diagnóstico inicial — primeras verificaciones estandarizadas
- Playbooks por tipo de incidente — pasos numerados con rollbacks
- Plantillas de comunicación — actualizaciones de página de estado pre-escritas
- Disparadores post-incidente — post-mortem sin culpa en 24h
Usando Reloadium Incident Response para incidentes en vivo
Los runbooks cubren respuestas planificadas. Reloadium Incident Response maneja las no planificadas — con diagnóstico guiado por IA y borradores de comunicación estructurados.