Qu’est-ce que le MTTF ?

Le temps moyen de fonctionnement jusqu’à la panne, ou MTTF (Mean Time to Failure) est un indicateur qui mesure la durée moyenne qui s’écoule avant une panne non réparable d’un actif technologique donné (périphérique, système ou application, par exemple).

Le MTTF aide à connaître la durée de vie moyenne d’un produit, d’un système ou d’un périphérique, y compris les processeurs, les disques durs, les périphériques IoT ou les commutateurs réseau. Cet indicateur permet également de comparer les performances d’un ancien système et d’un nouveau système, de déterminer la durée de vie à attendre du système et de planifier la maintenance.

Le MTTF enregistre une seule panne par actif et calcule la moyenne d’un grand nombre d’actifs sur une longue durée. Plus le nombre d’actifs observé est élevé, plus le MTTF est précis.

MTBF et MTTF : quel indicateur utiliser ?

Le temps moyen de fonctionnement jusqu’à la panne et le temps moyen de bon fonctionnement (MTBF) sont deux indicateurs temporels qui permettent d’évaluer la performance d’un actif, mais ils s’appliquent à des types d’actifs différents.

MTBF et MTTF : principales différences

Le MTTF est la durée moyenne avant qu’un actif ne tombe en panne pour la première et dernière fois. Il ne s’applique qu’aux équipements qui doivent être remplacés dès la première panne. Dans ce cas, le problème ne peut être corrigé qu’en changeant l’équipement. Lorsque le MTTF est atteint, l’actif a atteint le nombre maximal d’heures de fonctionnement.

Le MTBF, de son côté, est la durée moyenne avant la première défaillance de l’actif. Autrement dit, il concerne uniquement les équipements qui peuvent être réparés. Le système étant réparable, il peut retomber en panne, et le MTBF représente la durée écoulée entre deux défaillances.

La principale différence entre le MTTF et le MTBF est donc que dans le premier cas, le problème ne peut être résolu qu’en changeant l’équipement. Avec le MTBF, le problème peut être résolu en réparant l’équipement.

Quand utiliser le MTBF

Les équipes en charge de l’exploitation et de la fiabilité peuvent utiliser le MTBF pour évaluer la performance de l’équipement et des systèmes. En comparant les performances d’équipements semblables fonctionnant dans des conditions similaires, elles peuvent évaluer les défaillances et concevoir des plans de maintenance préventive.

Par ailleurs, le MTBF est souvent utilisé pour surveiller la progression des programmes de fiabilité. Un MTBF en hausse signifie que les systèmes et les équipements deviennent plus fiables.

Comment calculer le MTTF : Formule pas à pas

Pour calculer le MTTF, on fait la somme des durées de vie de tous les périphériques évalués et on divise le résultat par le nombre de périphériques. La formule générale est la suivante :

MTTF = durée de vie totale de l’ensemble des périphériques / nombre total de périphériques

Il faut d’abord déterminer le nombre total de périphériques, puis la durée de vie de chacun d’eux. Imaginons par exemple que vous avez trois disques durs similaires dans une configuration RAID et que ces disques durs ont respectivement une durée de vie de 3, 4 et 5 ans.

Dans ce cas :

Nombre total de périphériques = 3
Durée totale de fonctionnement = (3 + 4 + 5) = 12 ans
MTTF = 12 / 3 = 4 ans

Quels outils sont nécessaires pour surveiller le MTTF ?

On emploie souvent des outils logiciels pour mesurer le MTTF et d’autres indicateurs de fiabilité.

Ces applications de surveillance, associées aux indicateurs, aux journaux et au suivi indispensables à l’observation, permettent aux équipes d’identifier les problèmes qui peuvent accélérer la survenue de pannes sur les systèmes et les composants. Il existe plusieurs outils disponibles en open source ou dans le commerce, parmi lesquels Prometheus, Datadog, Splunk et OpenTelemetry.

Les flux métier automatisés peuvent également aider les équipes à détecter, traiter et résoudre plus rapidement les problèmes. L’automatisation permet de signaler un problème à l’équipe concernée, de documenter le problème et le processus d’atténuation et de commander des pièces de rechange.

Qu’est-ce qu’un MTTF correct ?

Le MTTF est particulièrement important pour les systèmes ou les composants dont dépend l’activité de votre entreprise. Plus le MTTF est élevé, mieux c’est. Si le MTTF est court, cela signifie que votre système a plus de risques de subir une panne ou un arrêt, ce qui peut influer sur le fonctionnement des applications et la fourniture de services, la satisfaction clients et les recettes.

Comment augmenter le MTTF pour gagner en fiabilité

Une estimation correcte du MTTF permet d’améliorer sensiblement la fiabilité du système. Si vous savez à quel moment une ressource risque de connaître une défaillance, vous pouvez prendre les devants et la remplacer. Il existe d’autres solutions pour augmenter le MTTF afin de renforcer la fiabilité :

Maintenance proactive : ayez des pièces et des équipements de rechange à disposition pour que les équipes puissent effectuer au plus vite les remplacements nécessaires. Maintenez vos actifs et vos équipements en bon état en établissant un programme de remplacement planifié et revoyez et améliorez en permanence vos processus de maintenance préventive.
Documentation : si un problème survient, documentez-en la cause, les mesures d’identification et toute opération de résolution menée pour éviter que le problème ne se reproduise.
Mise en œuvre de la redondance : pour optimiser la redondance matérielle, utilisez des systèmes RAID, des commutateurs redondants et d’autres technologies qui réduiront l’impact des pannes.

Exemples de calcul du MTTF

Voyons quelques exemples de MTTF bas, moyens et élevés pour différents ensembles de périphériques ayant chacun une durée de vie prévue de 20 000 heures au maximum.

MTTF élevé

Le périphérique 1 a une durée de vie de 15 000 heures, celle du périphérique 2 est de 19 000 heures, celle du périphérique 3 de 18 000 heures et celle du périphérique 4 de 20 000 heures.

Nombre total de périphériques = 4
Durée totale de fonctionnement = (15 000 + 19 000 + 18 000 + 20 000) = 72 000 heures
MTTF = 72 000 / 4 = 18 000 heures

MTTF moyen

Le périphérique 1 a une durée de vie de 9 000 heures, celle du périphérique 2 est de 11 000 heures, celle du périphérique 3 de 15 000 heures et celle du périphérique 4 de 19 000 heures.

Nombre total de périphériques = 4
Durée totale de fonctionnement = (9 000 + 11 000 + 15 000 + 19 000) = 54 000 heures
MTTF = 54 000 / 4 = 13 500 heures

MTTF bas

Le périphérique 1 a une durée de vie de 10 000 heures, celle du périphérique 2 est de 11 000 heures, celle du périphérique 3 de 8 000 heures et celle du périphérique 4 de 9 000 heures.

Nombre total de périphériques = 4
Durée totale de fonctionnement = (10 000 + 11 000 + 8 000 + 9 000) = 38 000 heures
MTTF = 38 000 / 4 = 9 500 heures

Qui doit utiliser le MTTF et à quel moment ?

Le MTTF est un indicateur de fiabilité utile dans différents domaines technologiques, notamment la cybersécurité, la réponse aux incidents et les DevOps.

Utilisation du MTTF dans le domaine de la cybersécurité

Tout incident qui ne correspond pas au comportement habituel du système, par exemple un e-mail suspect ou le téléchargement d’un logiciel, constitue un incident de cybersécurité. Dans certains cas, cet incident sera anodin, dans d’autres il représentera une menace pour le système. Dans le domaine de la cybersécurité, le MTTF montre que les mécanismes de sécurité n’ont pas réussi à déjouer une attaque.

Utilisation du MTTF dans le domaine de la résolution des incidents

La résolution des incidents permet aux équipes informatiques de résoudre les incidents de sécurité comme les cyberattaques réussies.

Dans ce domaine, le MTTF indique combien de temps le système infecté est capable de fonctionner avant de s’arrêter. Il permet à l’équipe de connaître le délai dont elle dispose pour mettre en place des mesures de basculement ou des mesures de sécurité complémentaires pour éviter de nouvelles pertes ou de nouveaux dégâts.

Utilisation du MTTF dans le domaine des DevOps

Le suivi du MTTF dans le domaine des DevOps peut aider les équipes à connaître la fiabilité du déploiement d’un système ou d’applications. Par exemple, le MTTF peut indiquer la durée moyenne entre la détection d’un défaut dans un système ou une application et une défaillance totale. Cela peut aider les équipes DevOps à se préparer aux pannes système.

Le calcul du MTTF et d’autres indicateurs de fiabilité pour la sécurité, la résolution des incidents et les DevOps requiert d’énormes quantités de données en temps réel et de données historiques. Les outils d’observation et de surveillance nécessitent un stockage ultrarapide et hautement performant pour accueillir des requêtes complexes et traiter les données en temps réel.

Pure Storage® FlashBlade® est la solution de stockage 100 % flash la plus avancée du marché pour un stockage rapide de fichiers et de données par objets. FlashBlade offre les niveaux de vitesse et de performance nécessaires pour mesurer précisément le MTTF.