Qu’est-ce que le temps moyen de réparation (MTTR) ?

Le temps moyen de réparation (MTTR, Mean Time To Restore/Recovery en anglais), correspond au délai moyen qui sépare une défaillance au niveau d’un déploiement, un incident ou une panne de service et la restauration du système concerné. Il mesure le temps qui s’écoule entre la détection d’un incident ou d’une panne et la restauration complète des fonctionnalités du système.

Le MTTR est un indicateur de haut niveau qui aide à mesurer la rapidité du processus de reprise et à connaître le temps nécessaire pour restaurer un système après une défaillance. En général, le MTTR concerne les incidents imprévus et non les demandes de service.

Temps moyen de réparation et temps moyen de résolution : quelle différence ?

Le temps moyen de réparation renvoie à la durée moyenne de restauration après une défaillance d’un produit ou d’un service, mais n’inclut pas le temps supplémentaire consacré à s’assurer que l’incident ne se reproduira pas.

Le temps moyen de résolution, lui, est le délai moyen de restauration complète d’un système, et inclut le temps requis pour régler le problème et réaliser les autres tâches nécessaires pour éviter qu’il se reproduise. Il peut inclure la détection de la panne, le diagnostic, la restauration et les mesures préventives pour renforcer le système contre de nouvelles défaillances similaires.

Le temps moyen de résolution donne ainsi une idée de tout le temps nécessaire pour résoudre le problème au-delà de l’arrêt proprement dit. Pour l’équipe, il s’agit non seulement de régler le problème, mais également d’améliorer les performances à long terme du système.

Calcul du temps moyen de réparation

Pour calculer le temps moyen de réparation, on additionne le temps d’arrêt total sur une période donnée, et on divise le résultat par le nombre total d’incidents sur la période en question.

MTTR = somme de tous les temps de réparation / nombre d’incidents

Imaginons par exemple que votre système s’arrête trois fois sur une période de deux semaines. S’il a fallu deux heures pour restaurer le système après le premier incident, quatre heures après le deuxième incident et six heures après le troisième incident, nous arrivons à un total de 12 heures et le MTTR pour cette période de deux semaines est de :

MTTR = 12 heures d’arrêt au total / 3 incidents

MTTR = 4 heures

Qu’est-ce qu’un Temps moyen de réparation correct ?

Les pannes et les arrêts du système ont un fort impact sur l’expérience utilisateur, aussi est-il important de réduire le plus possible le MTTR. Un MTTR élevé signifie que l’organisation et ses clients ont plus de risques de subir des arrêts longs et fréquents qui peuvent aboutir à des réclamations, des annulations et des non-renouvellements.

Un MTTR correct dépend directement de la vitesse à laquelle vous pouvez détecter un problème et en identifier l’origine (temps moyen de détection ou MTTD). Plus le délai de détection du problème est long, plus il faudra du temps pour que le système fonctionne à nouveau parfaitement.

Un MTTD bas est essentiel pour réduire le MTTR et améliorer les autres indicateurs de fiabilité. En réduisant le délai de détection des problèmes, vous réduisez également le délai de résolution. L’observation et la surveillance continue sont essentielles pour alerter les équipes et réduire rapidement le MTTD.

Le MTTR peut être réduit par d’autres biais que la surveillance :

Développement d’un plan de gestion des incidents clairement documenté qui indiquera aux équipes comment gérer un incident depuis la première alerte jusqu’à la reprise du fonctionnement complet du système.
Utilisation d’outils automatisés pour attribuer des responsabilités, créer des documents, capturer des analyses et gérer des configurations.
Assignation de rôles et de responsabilités clairement définis à l’équipe, pour que chaque personne sache ce qu’elle a à faire en cas d’incident.
Réalisation d’une autopsie des incidents passés, pour rechercher et documenter les spécificités de chaque problème, savoir comment il s’est produit et déterminer les mesures à prendre pour éviter qu’il se reproduise.

Calcul du temps moyen de résolution

Le temps moyen de résolution (MTTR) se distingue du temps moyen de réparation en ce qu’il inclut en plus le temps consacré à chercher comment éviter que le problème ne se reproduise plus tard.

Pour calculer le MTTR, on additionne le temps total consacré à la restauration du système, y compris le temps supplémentaire pour s’assurer que le problème ne se reproduira pas, et on divise le résultat par le nombre total d’incidents. On peut résumer ainsi :

MTTR = délai total de restauration après un incident + temps supplémentaire consacré à faire en sorte que le problème ne se reproduise pas / nombre d’incidents

Imaginons que votre système s’arrête deux fois en 48 heures. Le premier incident dure une heure et le second, deux heures. L’équipe passe ensuite trois heures supplémentaires à renforcer les systèmes pour éviter que le problème ne se reproduise. Au total, la résolution du problème lui aura pris six heures.

MTTR = (1 + 2 + 3) heures / 2 incidents

MTTR = 3 heures

Qu’est-ce qu’un Temps moyen de résolution correct ?

Dans la mesure où la réduction du MTTD réduit aussi le temps moyen de restauration, on pourra adopter les mêmes mesures pour résoudre entièrement le problème (temps moyen de résolution).

On peut aussi s’attacher plus particulièrement à accélérer la mise en œuvre de mesures préventives par l’équipe. L’autopsie incluse dans le processus de réparation, par exemple, sera particulièrement utile ici, puisqu’une analyse approfondie du problème peut révéler des informations applicables aux opérations de suivi.

Qui doit utiliser le MTTR et à quel moment ?

Globalement, le MTTR est un bon indicateur de la rapidité du processus de restauration dans différents domaines technologiques. Vous devez l’utiliser si vous souhaitez réduire le temps moyen nécessaire à vos équipes pour réparer vos ressources.

Utilisation du MTTR dans le domaine de la cybersécurité

Dans le domaine de la cybersécurité, le MTTR correspond au temps nécessaire à l’équipe pour remettre le système en état de marche après une faille de cybersécurité. Il montre à quelle vitesse votre équipe de sécurité est capable de remettre le système en service pour que les clients touchés puissent l’utiliser normalement.

Pour les équipes de sécurité, la mesure du MTTR démarre généralement lorsqu’elles sont informées d’une défaillance du système due à une cyberattaque.

Ici, le processus de restauration peut inclure plusieurs étapes : endiguement (pour empêcher la propagation de la menace), suppression effective de la menace, « désinfection » des composants et des ressources nécessaires pour rétablir le fonctionnement normal du système. Lorsque toutes ces étapes ont été accomplies, on considère que la restauration du système est terminée.

Utilisation du MTTR dans le domaine de la réponse aux incidents

Le MTTR est un indicateur essentiel dans la réponse aux incidents car il fournit des informations importantes sur la gravité de l’impact et aide les organisations à déterminer si la reprise a été assez rapide.

Dans la réponse aux incidents, le MTTR est la moyenne du temps écoulé entre l’heure de signalement d’un problème et l’heure de résolution qui ont été enregistrées. En plus de signaler les incidents aux équipes, les outils automatiques facilitent la collaboration et la communication, ce qui améliore le MTTR.

Les objectifs et les indicateurs de niveau de services (SLO et SLI) peuvent également être utilisés pour mesurer la fiabilité et la disponibilité du système et évaluer la satisfaction clients par rapport à un produit ou service. Lorsqu’un SLO n’est pas respecté, le temps moyen de restauration des services correspond au délai total nécessaire pour détecter, atténuer et résoudre le problème jusqu’à la mise en conformité avec le SLO.

Utilisation du MTTR dans le domaine des DevOps

Dans le domaine des DevOps, le MTTR peut représenter le temps moyen nécessaire pour restaurer une application après une défaillance en production. La mesure du MTTR aide les équipes à garantir la résilience et la stabilité du système, mais aussi à déterminer les améliorations possibles au niveau du processus de réponse.

Pour les DevOps, la mesure du MTTR nécessite souvent le recours à des systèmes de surveillance chargés d’enregistrer le début d’un incident et sa résolution (par exemple, la durée de restauration d’une modification ou d’une version déjà mise en production).

Le MTTR permet également d’évaluer la performance de l’équipe DevOps. Un MTTR bas signifie que l’équipe est efficace. Le rapport Accelerate State of DevOps 2021 identifie quatre catégories de performance pour les équipes DevOps :

Elite : moins d’une heure
Élevée : moins de 24 heures
Moyenne : moins d’une semaine
Basse : une semaine ou plus

Si le MTTR est bas, le taux de défaillance est plus faible, la réponse plus rapide et la satisfaction des utilisateurs renforcée. À mesure que la maturité des DevOps augmentera, le MTTR devrait poursuivre sa baisse.

Quels outils sont nécessaires pour surveiller le MTTR ?

Pour améliorer le MTTR, vous devez pouvoir détecter rapidement les défaillances du système. Des outils de surveillance continue comme Prometheus et Grafana, ainsi que des outils courants de surveillance de la performance des applications comme Datadog, Splunk et Dynatrace, peuvent faciliter la collecte de mesures pour le MTTR.

À partir de grosses quantités de données en temps réel et de données historiques, ces systèmes vous aident à diagnostiquer et analyser plus rapidement les problèmes. Mais pour que les requêtes complexes et le traitement en temps réel soient possibles, vous aurez besoins des vitesses ultrarapides du stockage 100 % flash.

Pure Storage propose différentes solutions de stockage de données 100 % flash qui offrent des débits gigantesques et des performances constantes. FlashBlade® est une plateforme de stockage de fichiers et d’objets hautement performante qui offre la vitesse et les performances requises par l’application et les outils de surveillance pour accélérer le MTTD et le MTTR.

Quel indicateur utiliser après le MTTR ?

Si le MTTR est un bon indicateur de votre capacité à réagir rapidement en cas de problème, d’autres indicateurs de fiabilité sont à surveiller. En savoir plus sur un autre indicateur essentiel : le temps moyen de bon fonctionnement (MTBF).