Le 7 septembre 2023

Des lenteurs avaient été remarquées sur les opérations d'agrégation à partir de la veille, la plateforme est devenue complètement indisponible à 16h le 7 et n'a pu être rétablie que 40 minutes plus tard.

Un script opérant sur un agenda connecté à une centaine d'autres a lancé des mises à jour - à vide pour la plupart - sur un millier d'événements.

Chaque mise à jour d'événement provoque l'ajout sur une file de traitement d'autant de tâche qu'il y a d'agendas connectés à l'agenda où la mise à jour à lieu. Dans ce cas, à peu près 1000x100 traitements d'empilés. Ces traitements on provoqué une saturation de mémoire sur les serveurs où ils étaient stoqués, ces mêmes serveurs sont utilisés pour gérer la cache et les sessions sur la plateforme.

Le script responsable de cette saturation a été arrêté, un nouveau cluster a été déployé pour remettre la plateforme en ligne.

Des actions sont programmées pour éviter une nouvelle occurrence de cette interruption:

  1. Eviter d'empiler des évaluations d'agrégation sur des mises à jour à vide
  2. Modifier le traitement des agrégations à évaluer pour passer à un système s'appuyant seulement sur un item empilé sur la file d'attente par évaluation d'agrégation (contre l'actuel 1 item par lien agenda-source<>agenda agrégateur pour chaque mise à jour d'événement)