[Logistic]_Delay torre de control y shopper app Latam
Incident Report for Instaleap
Postmortem

Post-Mortem - Retraso en Torre de Control y Shopper App

Fecha del Incidente: 20 de septiembre, 2024  

Hora de Inicio: 11:09 AM (Colombia)  

Hora de Resolución: 11:31 AM (Colombia)  

Descripción del Problema: El 20 de septiembre de 2024, se presentaron retrasos en la Torre de Control y en la Shopper App, impactando temporalmente el rendimiento del sistema. No hubo una caída completa del sistema, pero los usuarios experimentaron tiempos de respuesta más lentos de lo habitual. 

Línea de Tiempo:

  • 11:09 AM (Colombia): Se detectan retrasos en la Torre de Control y la Shopper App.  
  • 11:15 AM: El equipo de ingeniería comienza la investigación del problema.  
  • 11:20 AM: Se identifica que el problema está relacionado con un uso excesivo de la CPU, provocado por procesos en segundo plano dentro del core logístico.  
  • 11:25 AM: El equipo aumenta temporalmente la capacidad de la CPU para mitigar el problema y los retrasos son resueltos.  
  • 11:35 AM: Se  logra estabilización de los sistemas operativos

Causa Raíz: La causa del retraso fue identificada como procesos en segundo plano en el core logístico que dispararon el uso excesivo de la CPU. Estos procesos aún no están completamente optimizados, lo que provocó una disminución temporal en el rendimiento del sistema.

Acciones Tomadas:

  • Se incrementó temporalmente la capacidad de la CPU para estabilizar el sistema.  
  • Se informó a los clientes sobre el incidente a través de la página de status page, asegurando trazabilidad y transparencia.  
  • El equipo de ingeniería comenzó a trabajar en la implementación de una herramienta de monitoreo para identificar y optimizar los procesos que generan un alto consumo de CPU.

Impacto: El retraso afectó temporalmente el rendimiento del sistema en la Torre de Control y la Shopper App, generando un impacto limitado en la experiencia del usuario. Sin embargo, no hubo una caída completa del sistema, y las operaciones normales se restablecieron en 22 minutos.

Lecciones Aprendidas:

  • Monitoreo proactivo: La falta de visibilidad en los procesos que consumen recursos excesivos demostró la necesidad de herramientas de monitoreo más avanzadas.  
  • Respuesta rápida: Aumentar la capacidad de la CPU rápidamente permitió mitigar el impacto y restaurar la operación del sistema en un corto tiempo.

Próximos Pasos:

  • Implementar la herramienta de monitoreo identificada para rastrear los procesos que generan alto uso de la CPU y trabajar en su optimización.  
  • Continuar revisando y ajustando los procesos en segundo plano para evitar futuros incidentes similares.  
  • Mantener a los clientes informados sobre cualquier cambio o mejora en el sistema a través de nuestra página de estado.
Posted Sep 25, 2024 - 18:04 GMT-05:00

Resolved
This incident has been resolved.
Posted Sep 20, 2024 - 11:45 GMT-05:00
Monitoring
Estimado cliente,

Queremos informarle que nuestros sistemas de Torre de Control y la aplicación de Shopper están ahora más estables. El retraso que experimentamos previamente está disminuyendo y esperamos que continúe mejorando hasta restablecer los tiempos de respuesta normales.

Gracias nuevamente por su paciencia y comprensión.


Dear Customer,

We would like to inform you that our Control Tower systems and Shopper app are now more stable. The delays we experienced earlier are decreasing, and we expect response times to continue improving until normal service is fully restored.

Thank you again for your patience and understanding.



Prezado cliente,

Gostaríamos de informar que nossos sistemas de Torre de Controle e o aplicativo de Shopper estão mais estáveis. O atraso que enfrentamos anteriormente está diminuindo, e esperamos que os tempos de resposta continuem melhorando até que o serviço seja totalmente restabelecido.

Agradecemos novamente sua paciência e compreensão.
Posted Sep 20, 2024 - 11:45 GMT-05:00
Investigating
Estimado cliente,

Queremos informarle que actualmente estamos experimentando algunas demoras en nuestros sistemas de Torre de Control y en la aplicación de Shopper. Estamos trabajando para solucionar esta afectación lo antes posible. Es importante aclarar que no se trata de una caída total del servicio, sino de una demora en los tiempos de respuesta.

Gracias por su comprensión.


Dear Customer,

We would like to inform you that we are currently experiencing some delays in our Control Tower systems and Shopper app. We are actively working to resolve the issue as soon as possible. Please note that this is not a total outage, but a delay in response times.

Thank you for your understanding.


Prezado cliente,

Gostaríamos de informar que estamos enfrentando alguns atrasos nos nossos sistemas de Torre de Controle e no aplicativo de Shopper. Estamos trabalhando para resolver essa situação o mais rápido possível. Importante esclarecer que não se trata de uma queda total do serviço, mas sim de um atraso nos tempos de resposta.

Agradecemos sua compreensão.

Atenciosamente,
Posted Sep 20, 2024 - 11:40 GMT-05:00
This incident affected: Control_Tower and ShopperApp.