Post-Mortem - Retraso en Torre de Control y Shopper App
Fecha del Incidente: 20 de septiembre, 2024
Hora de Inicio: 11:09 AM (Colombia)
Hora de Resolución: 11:31 AM (Colombia)
Descripción del Problema: El 20 de septiembre de 2024, se presentaron retrasos en la Torre de Control y en la Shopper App, impactando temporalmente el rendimiento del sistema. No hubo una caída completa del sistema, pero los usuarios experimentaron tiempos de respuesta más lentos de lo habitual.
Línea de Tiempo:
- 11:09 AM (Colombia): Se detectan retrasos en la Torre de Control y la Shopper App.
- 11:15 AM: El equipo de ingeniería comienza la investigación del problema.
- 11:20 AM: Se identifica que el problema está relacionado con un uso excesivo de la CPU, provocado por procesos en segundo plano dentro del core logístico.
- 11:25 AM: El equipo aumenta temporalmente la capacidad de la CPU para mitigar el problema y los retrasos son resueltos.
- 11:35 AM: Se logra estabilización de los sistemas operativos
Causa Raíz: La causa del retraso fue identificada como procesos en segundo plano en el core logístico que dispararon el uso excesivo de la CPU. Estos procesos aún no están completamente optimizados, lo que provocó una disminución temporal en el rendimiento del sistema.
Acciones Tomadas:
- Se incrementó temporalmente la capacidad de la CPU para estabilizar el sistema.
- Se informó a los clientes sobre el incidente a través de la página de status page, asegurando trazabilidad y transparencia.
- El equipo de ingeniería comenzó a trabajar en la implementación de una herramienta de monitoreo para identificar y optimizar los procesos que generan un alto consumo de CPU.
Impacto: El retraso afectó temporalmente el rendimiento del sistema en la Torre de Control y la Shopper App, generando un impacto limitado en la experiencia del usuario. Sin embargo, no hubo una caída completa del sistema, y las operaciones normales se restablecieron en 22 minutos.
Lecciones Aprendidas:
- Monitoreo proactivo: La falta de visibilidad en los procesos que consumen recursos excesivos demostró la necesidad de herramientas de monitoreo más avanzadas.
- Respuesta rápida: Aumentar la capacidad de la CPU rápidamente permitió mitigar el impacto y restaurar la operación del sistema en un corto tiempo.
Próximos Pasos:
- Implementar la herramienta de monitoreo identificada para rastrear los procesos que generan alto uso de la CPU y trabajar en su optimización.
- Continuar revisando y ajustando los procesos en segundo plano para evitar futuros incidentes similares.
- Mantener a los clientes informados sobre cualquier cambio o mejora en el sistema a través de nuestra página de estado.