Was ist die Mean Time to Restore (MTTR)?

Die mittlere Wiederherstellungszeit (manchmal auch „durchschnittliche Wiederherstellungszeit“) oder MTTR (Mean Time to Restore) beschreibt die durchschnittlich benötigte Zeit bis zur Wiederherstellung nach einer fehlgeschlagenen Bereitstellung, einem Vorfall oder einem Service-Ausfall. Gemessen wird die Zeit von der Erkennung eines Zwischenfalls oder Ausfalls bis zur Wiederherstellung der vollen Systemfunktionalität.

MTTR ist eine übergeordnete Kennzahl, mit der Sie die Schnelligkeit Ihres Wiederherstellungsprozesses messen können und die angibt, wie schnell Ihr System nach einem Ausfall wiederhergestellt werden kann. Im Allgemeinen bezieht sich MTTR eher auf ungeplante Vorfälle als auf Serviceanfragen.

Mean Time to Restore versus Mean Time to Resolve: Worin besteht der Unterschied?

Die mittlere Wiederherstellungszeit (Mean Time to Restore) bezieht sich auf die durchschnittliche Zeit, die benötigt wird, um Daten nach einem Produkt- oder Service-Ausfall wiederherzustellen, beinhaltet jedoch nicht die zusätzliche Zeit, die benötigt wird, um sicherzustellen, dass sich der Vorfall nicht wiederholt.

Die mittlere Behebungszeit (Mean Time to Resolve) hingegen ist die durchschnittliche Zeit, die für die vollständige Wiederherstellung eines Systems benötigt wird, einschließlich der Zeit für die Behebung des Problems und die Durchführung zusätzlicher Arbeiten, die erforderlich sind, um zu verhindern, dass das Problem erneut auftritt. Dies kann die Erkennung von Fehlern, die Diagnose, die Wiederherstellung und proaktive Maßnahmen umfassen, die ergriffen werden, um das System in Zukunft vor ähnlichen Fehlern zu schützen.

Die mittlere Behebungszeit gibt Aufschluss über den gesamten für die Problembehebung benötigten Zeitaufwand, der über die eigentliche Ausfallzeit hinausgeht, und erweitert die Zuständigkeit des Teams über das Beheben des Problems hinaus auf das Verbessern der langfristigen Performance des Systems.

Mean Time to Restore berechnen

Die mittlere Wiederherstellungszeit wird berechnet, indem die gesamte Ausfallzeit über einen bestimmten Zeitraum addiert und durch die Gesamtzahl der Vorfälle innerhalb dieses Zeitraums geteilt wird.

MTTR = Summe aller für das Lösen von Problemen benötigten Zeiträume geteilt durch Anzahl der Vorfälle

Stellen Sie sich zum Beispiel vor, dass Ihr System innerhalb von zwei Wochen dreimal ausfällt. Wenn die Wiederherstellung für den ersten Vorfall zwei Stunden, für den zweiten vier Stunden und für den dritten sechs Stunden gedauert hat, also insgesamt 12 Stunden, beträgt die MTTR für diesen Zeitraum von zwei Wochen:

MTTR = 12 Stunden Ausfallzeit insgesamt geteilt durch 3 Vorfälle

MTTR = 4 Stunden

Was ist eine gute mittlere Wiederherstellungszeit?

Systemausfälle und Ausfallzeiten wirken sich stark auf die Kundenerfahrung aus. Daher ist es wichtig, dass die MTTR so kurz wie möglich ist. Eine höhere MTTR bedeutet, dass die Organisation und ihre Kunden mit größerer Wahrscheinlichkeit erhebliche und häufige Ausfallzeiten erleben werden, was zu Beschwerden, Kündigungen und Nichtverlängerungen führen kann.

Eine gute MTTR hängt direkt damit zusammen, wie schnell Sie die Ursache eines Problems erkennen und identifizieren können (mittlere Erkennungszeit, Mean Time to Detect oder MTTD). Je länger es dauert, ein Problem zu erkennen, desto länger dauert es auch, das System wieder voll funktionsfähig zu machen.

Eine niedrige MTTD ist der Schlüssel zur Verringerung der MTTR und zur Verbesserung anderer Zuverlässigkeitskennzahlen. Wenn Sie die für die Erkennung eines Problems benötigte Zeit verkürzen, verkürzt sich auch die Zeit bis zur Lösung des Problems. Beobachtbarkeit und kontinuierliche Überwachung spielen eine wichtige Rolle, wenn es darum geht, Teams auf Probleme aufmerksam zu machen und die MTTD schnell zu reduzieren.

Neben der Überwachung gibt es noch einige andere Möglichkeiten, die MTTR zu verringern:

Entwickeln Sie einen klar dokumentierten Plan für das Vorfallsmanagement, damit Teams wissen, wie ein Vorfall zu bewältigen ist, vom ersten Alarm bis zu dem Zeitpunkt, an dem das System den vollen Betrieb wieder aufnimmt.
Verwenden Sie automatisierte Tools, um Aufgaben zuzuweisen, Dokumente zu erstellen, Analysen zu erfassen und Konfigurationen zu verwalten.
Legen Sie die Rollen und Zuständigkeiten im Team klar fest und weisen Sie sie zu, damit jedes Teammitglied weiß, was es im Falle eines Zwischenfalls zu tun hat.
Führen Sie nachträgliche Analysen zu vergangenen Vorfällen durch, um die Einzelheiten jedes Problems zu untersuchen und zu dokumentieren, wie es zustande kam und wie man es in Zukunft verhindern kann.

Mean Time to Resolve berechnen

Die mittlere Behebungszeit (MTTR) unterscheidet sich von der mittleren Wiederherstellungszeit, da sie die zusätzliche Zeit einschließt, die dafür aufgewendet wird, ähnliche Probleme in Zukunft zu vermeiden.

Zur Berechnung der MTTR addieren Sie die Gesamtzeit, die für die Wiederherstellung des Systems benötigt wird, einschließlich der zusätzlichen Zeit, um sicherzustellen, dass das Problem nicht erneut auftritt, und teilen diese Zahl durch die Gesamtzahl der Vorfälle. Stellen Sie sich das so vor:

MTTR = Gesamtzeit für die Wiederherstellung nach einem Vorfall + zusätzliche Zeit, um sicherzustellen, dass das Problem nicht wieder auftritt / Anzahl der Vorfälle

Stellen Sie sich vor, dass Ihr System innerhalb von 48 Stunden zweimal ausfällt. Der erste Vorfall dauert eine Stunde, der zweite zwei Stunden. Dann verbringt das Team weitere drei Stunden damit, Systeme zu sichern, um zu verhindern, dass sich die Probleme wiederholen, was insgesamt sechs Stunden macht.

MTTR = (1 + 2 + 3) Stunden / 2 Vorfälle

MTTR = 3 Stunden

Was ist eine gute mittlere Behebungszeit?

Da durch eine Verringerung der MTTD die mittlere Zeit bis zur Wiederherstellung verkürzt wird, wirken sich dieselben Maßnahmen auch auf die Zeit bis zur vollständigen Behebung (mittlere Behebungszeit) aus.

Der Schwerpunkt kann auch darauf gelegt werden, zu verbessern, wie schnell das Team vorbeugende Maßnahmen umsetzen kann. Die nachträgliche Analyse aus dem MTTR-Prozess zum Beispiel wird hier besonders hilfreich sein, da eine gründliche Analyse des Problems hilfreiche Erkenntnisse liefern kann, die für Folgemaßnahmen genutzt werden können.

Wer sollte die MTTR verwenden und wann?

Insgesamt ist die MTTR eine gute Kennzahl für das Bewerten der Geschwindigkeit Ihres Wiederherstellungsprozesses in verschiedenen Technologiebereichen. Sie sollten die MTTR verwenden, wenn Sie die durchschnittliche Zeit verbessern möchten, die Ihr Team für die Reparatur von Anlagen benötigt.

Verwendung der MTTR in der Cybersicherheit

Die MTTR bezieht sich im Bereich der Cybersicherheit auf die Zeit, die das Team benötigt, um das System nach einem Cybersicherheitsverstoß wieder zum Laufen zu bringen. Auf diese Weise zeigt sich, wie schnell Ihr Sicherheitsteam das System und die betroffenen Kunden wieder zum normalen Betrieb zurückbringen kann.

Bei Cybersicherheitsteams beginnt die MTTR-Uhr in der Regel zu ticken, wenn das Team auf einen Systemausfall aufgrund eines Cyberangriffs aufmerksam gemacht wird.

In diesem Fall kann der Wiederherstellungsprozess mehrere Schritte umfassen, darunter die Eindämmung (um die Ausbreitung der Bedrohung zu stoppen), die tatsächliche Beseitigung der Bedrohung und die Bereinigung von Komponenten und Ressourcen, die für die Wiederherstellung des Systems erforderlich sind. Wenn alle Schritte abgeschlossen sind, gilt das System als vollständig wiederhergestellt.

Einsatz der MTTR bei der Reaktion auf einen Vorfall

Die MTTR ist eine wichtige Kennzahl bei der Reaktion auf Vorfälle, da sie Aufschluss über die Schwere der Auswirkungen gibt und Organisationen dabei hilft, zu beurteilen, ob Vorfälle mit Ausfallzeiten schnell genug behoben werden.

Bei der Reaktion auf Vorfälle ist MTTR die durchschnittliche Zeit, die zwischen der Meldung und dem Zeitstempel der Lösung eines Problems verstreicht. Automatisierte Tools machen die Teams nicht nur auf Vorfälle aufmerksam, sondern erleichtern ihnen auch die Zusammenarbeit und Kommunikation, was in einer verbesserten MTTR resultiert.

Service Level Objectives (SLO) und Service Level Indicators (SLI) können auch zur Messung der Systemzuverlässigkeit und -verfügbarkeit und der ungefähren Kundenzufriedenheit mit einem Produkt oder einem Service verwendet werden. Wenn gegen ein SLO verstoßen wird, ist die mittlere Zeit zur Wiederherstellung der Services die Gesamtzeit zur Erkennung, Eingrenzung und Behebung des Problems, bis das SLO wieder erfüllt ist.

Einsatz von MTTR in DevOps

Bei DevOps kann MTTR die durchschnittliche Zeit darstellen, die zur Wiederherstellung einer Anwendung nach einem Produktionsausfall benötigt wird. Die Messung der MTTR hilft Teams dabei, die Ausfallsicherheit und Stabilität eines Systems sicherzustellen und festzustellen, wo der Reaktionsprozess verbessert werden kann.

Bei DevOps werden zur Messung der MTTR häufig Überwachungssysteme eingesetzt, um den Beginn eines Vorfalls und den Zeitpunkt seiner Behebung aufzuzeichnen (z. B. die Zeit, die für das Rollback von Änderungen oder Releases benötigt wird, nachdem sie die Produktion erreicht haben).

Mit der MTTR kann auch die Performance des DevOps-Teams bewertet werden. Je niedriger die MTTR eines DevOps-Teams ist, desto besser. Im Bericht Accelerate State of DevOps 2021 werden vier Performance-Kategorien für DevOps-Teams identifiziert:

Elite: Weniger als eine Stunde
Hoch: Weniger als 24 Stunden
Mittel: Weniger als eine Woche
Niedrig: Bis zu einer Woche

Eine schnellere MTTR bewirkt geringere Ausfallraten, eine schnellere Bereitstellung und eine höhere Benutzerzufriedenheit. Mit zunehmender DevOps-Reife sollte die MTTR immer niedriger werden.

Welche Tools benötigen Sie, um MTTRs zu überwachen?

Um die MTTR zu verbessern, müssen Sie in der Lage sein, Systemausfälle schnell zu erkennen. Tools zur kontinuierlichen Überwachung, wie Prometheus und Grafana, sowie gängige Tools zur Überwachung der Anwendungs-Performance, wie Datadog, Splunk und Dynatrace, können Ihnen bei der Erfassung von MTTR-Kennzahlen helfen.

Diese Systeme nutzen eine große Menge an Echtzeit- und historischen Daten, um Ihnen zu helfen, Probleme schneller zu diagnostizieren und zu analysieren. Um deren komplexe Abfragen und Echtzeitverarbeitung zu unterstützen, benötigen Sie jedoch die ultraschnellen Performance-Geschwindigkeiten, die All-Flash-Storage bieten kann.

Pure Storage bietet mehrere All-Flash-Daten-Storage-Lösungen an, die enormen Durchsatz und konstante Performance bieten. FlashBlade® ist eine hochleistungsfähige Datei- und Objekt-Storage-Plattform, die die erforderliche Geschwindigkeit und Performance für die Anwendungs- und Überwachungstools bietet, die eine schnellere MTTD und MTTR ermöglichen.

Was ist die nächste Kennzahl nach der MTTR?

Die MTTR ist zwar ein aussagekräftiger Indikator für Ihre Fähigkeit, schnell auf Probleme zu reagieren, aber es gibt noch andere wichtige Zuverlässigkeitskennzahlen, die Sie ebenfalls überwachen sollten. Erfahren Sie mehr über eine weitere kritische Kalkulation: die mittlere Betriebsdauer zwischen Ausfällen (Mean Time Between Failures, MTBF).