Alerte
Préambule
Il faut bien distinguer les visualisations (dashboards), des alertes. Les premières servent à avoir un état en temps réel d’un système depuis plusieurs métriques. Les secondes servent à définir des conditions qui lorsqu’elles sont remplies, déclenchent une alerte.
Typologie
Dans Grafana, le système d’alerte s’articule autour de 3 éléments :
- Alert rules : Ce sont les règles d’évaluation, elles mêmes composées de conditions, qui, une fois remplies, déclencheront une alerte.
- Contact points : Ce sont les canaux de communication par lesquels passeront les alertes (Ex: mail, slack)
- Notification policies : Liées à un contact point, elles définissent principalement les timings de diffusion et de rediffusion des alertes
Créer une alerte
Pour créer une alerte, il suffit simplement de reproduire la query effectuée dans un panel de dashboard, définir la condition grâce au Threshold et de configurer certaines options tels que le nom de l’alerte, ses descriptifs etc.
Dans le cadre d’une alerte pour un health check, le threshold doit toujours être à IS BELOW:1
Il faut ensuite attribuer à l’alerte un dossier. Généralement, on attribue à une alerte le même dossier que celui dans lesquel est stocké le dashboard (Si on a deux dossiers, un pour la prod et un pour la preprod, on mettra toutes les règles concernant la preprod dans le même dossier que celui où les dashboards preprod sont stockées).
On attribue alors un groupe d’évaluation. Un groupe d’évaluation a pour objectif de définir l’intervalle de temps entre deux évaluation des conditions spécifiées dans une alerte (Alert rule).
Il existe une propriété propre à l’alerte appelée pending period, cette dernière définit le temps qu’il peut
y’avoir entre le moment où une métrique devrait déclencher une alerte et le moment où cette alerte
sera effectivement déclenché. Certains cas d’utilisation pourraient en bénéficier, autrement la valeur 0 indiquera
qu’il n y aura aucun délai entre l’évaluation et le déclenchement.
Timings
Il faut bien distinguer les deux types de timings qui composent le système d’alertes :
- Les timing d’évaluation de la condition et du déclenchement de l’alerte (qui peut être impacté par la pending period)
- Les timings de déclenchement d’envoi de notifications. (Ces derniers se règlent au niveau de la Notification Policy)