Was ist die MTBF und wie wird sie berechnet?

Die mittlere Betriebsdauer zwischen Ausfällen, oder MTBF, ist die durchschnittliche Zeit zwischen reparablen Ausfällen eines Produkts oder Systems. Sie ist eine wichtige Kennzahl, um die Häufigkeit von Systemausfällen zu ermitteln und einen Überblick über die Zuverlässigkeit des Systems zu erhalten.

Anhand der MTBF lässt sich feststellen, wie erfolgreich Ihr Team bei der Vermeidung oder Reduzierung potenzieller Störungen ist. Je höher die Zeit zwischen zwei Ausfällen, desto zuverlässiger ist das System.

Was misst die MTBF? Zuverlässigkeit versus Verfügbarkeit

Die MTBF spielt eine Rolle bei der Überwachung der Zuverlässigkeit und Verfügbarkeit einer Komponente oder eines Systems.

Die Zuverlässigkeit bezieht sich auf die Wahrscheinlichkeit, dass ein System oder eine Komponente über einen bestimmten Zeitraum hinweg wie vorgesehen funktioniert, ohne zu versagen. Die MTBF ist ein grundlegendes Maß für die Zuverlässigkeit eines Systems: Je höher die MTBF, desto höher die Zuverlässigkeit des Produkts. Die Verwendung der MTBF zusammen mit anderen Fehlerkennzahlen und Wartungsstrategien erleichtert die Vorhersage von Anlagenausfällen, da Teams besser feststellen können, wie und wann sie Präventivmaßnahmen ergreifen müssen, bevor ein Ausfall eintritt.

Verfügbarkeit ist die Fähigkeit eines Systems oder einer Komponente, im Bedarfsfall wie vorgesehen zu funktionieren. Die MTBF in Kombination mit der mittleren Wiederherstellungszeit (MTTR) kann dabei helfen zu ermitteln, wie wahrscheinlich es ist, dass ein System innerhalb eines bestimmten Zeitrahmens ausfallen wird. Die Verfügbarkeit eines Systems kann berechnet werden, indem die MTBF durch die Summe aus MTTR und MTBF geteilt wird.

Verfügbarkeit = MTBF / (MTBF + MTTR)

Berechnung der MTBF: Schritt-für-Schritt-Formel

Die MTBF wird berechnet, indem die Gesamtbetriebszeit für einen bestimmten Zeitraum durch die Anzahl der Ausfälle in diesem Zeitraum geteilt wird. So funktioniert die Berechnung:

Um die Gesamtbetriebszeit eines Systems zu ermitteln, müssen Sie das System über einen bestimmten Zeitraum hinweg überwachen.

Die Gesamtbetriebszeit ist die Gesamtzeit, in der das System ohne Ausfall läuft.
Die Gesamtzahl der Ausfälle gibt an, wie oft das System innerhalb des angegebenen Zeitraums ausgefallen ist.

Nehmen wir als Beispiel an, dass ein System innerhalb von 24 Stunden drei Stunden Ausfallzeit hat, die durch drei verschiedene Vorfälle verursacht werden.

Gesamte Betriebszeit = (24 - 3) = 21 Stunden
Gesamtzahl Vorfälle = 3
MTBF = Betriebszeit gesamt / Anzahl der Vorfälle
MTBF = 21 / 3 = 7 Stunden

Berechnung der MTBF von der Ausfallrate

Wie oben beschrieben, kann die MTBF berechnet werden, indem die Gesamtbetriebszeit durch die Anzahl der aufgezeichneten Ausfälle geteilt wird. Die Ausfallrate hingegen ist der Kehrwert der MTBF und wird berechnet, indem die Anzahl der Ausfälle durch die Gesamtbetriebszeit dividiert wird.

Die MTBF kann wie folgt aus der Ausfallrate berechnet werden: MTBF = 1 / Ausfallrate

Zum Beispiel:

Ausfallrate = 25 Ausfälle / 1.000 Stunden unterbrechungsfreier Betrieb
Fehlerrate = 0,025
MTBF = 1 / 0,025
MTBF = 40

Was ist eine gute MTBF?

Da die Zeit zwischen den Ausfällen eines Systems oder einer Komponente von Faktoren wie Konfigurationen, Betriebsbedingungen, Alter und anderen externen Faktoren abhängen kann, gibt es nicht die eine „gute“ MTBF-Kennzahl. Stattdessen sollte die MTBF für Ihre spezifischen Anlagen berechnet werden und wird umso genauer, je mehr Daten Sie über sie sammeln.

Was bedeutet eine hohe MTBF?

Natürlich gibt es keine allgemein akzeptierte Ziel-MTBF. Es gilt jedoch: Je höher die MTBF, desto besser. Eine hohe MTBF zeigt, dass Ihr System oder Ihre Komponente sehr zuverlässig ist und während der Lebensdauer weniger Probleme auftreten werden – und weniger Zwischenfälle bedeuten in der Regel weniger Ausfallzeiten und geringere Kosten.

Was bedeutet eine niedrige MTBF?

Eine niedrige MTBF bedeutet, dass Ihr System wahrscheinlich häufiger ausfallen wird und die Zuverlässigkeit Ihres Systems überprüft werden muss. Ein guter Plan zur vorbeugenden Wartung und die Implementierung von Tools zur Überwachung der MTBF und anderer Fehlerkennzahlen können dazu beitragen, die Systemzuverlässigkeit zu verbessern.

Berechnungsbeispiele für die MTBF

Als Nächstes betrachten wir einige Beispiele für eine niedrige, durchschnittliche und hohe MTBF bei einem Produktionssystem, das über einen Zeitraum von 30 Tagen in Betrieb ist.

Niedrige MTBF

Angenommen, das System fällt innerhalb von 30 Tagen (720 Stunden) sechsmal für jeweils vier Stunden aus, was einer Gesamtunterbrechungszeit von 24 Stunden entspricht.

Gesamte Betriebszeit = (720 - 24) = 696 Stunden
Gesamtzahl Vorfälle = 6
MTBF = Betriebszeit gesamt / Anzahl der Vorfälle
MTBF = 696 / 6 = 116 Stunden (ca. 5 Tage)

Ein Ausfall alle fünf Tage deutet auf ein extrem unzuverlässiges System hin, das sich häufig auf den Geschäftsbetrieb und die Kunden auswirken wird.

Durchschnittliche MTBF

Stellen Sie sich nun vor, dass das System innerhalb der gleichen 30 Tage (720 Stunden) nur zweimal für jeweils zwei Stunden ausfällt, was eine Gesamtunterbrechungszeit von vier Stunden ergibt.

Gesamte Betriebszeit = (720 - 4) = 716 Stunden
Gesamtzahl Vorfälle = 2
MTBF = Betriebszeit gesamt / Anzahl der Vorfälle
MTBF = 716 / 2 = 358 Stunden (ca. 15 Tage)

Das mag zwar keine extrem hohe MTBF sein, aber ein Ausfall alle 15 Tage kann für einige Geschäftsanwendungen akzeptabel sein.

Hohe MTBF

Betrachten wir zum Schluss ein System, das nur einmal innerhalb von 30 Tagen (720 Stunden) für zwei Stunden ausfällt.

Gesamte Betriebszeit = (720 - 2) = 718 Stunden
Gesamtzahl Vorfälle = 1
MTBF = Betriebszeit gesamt / Anzahl der Vorfälle
MTBF = 718 / 1 = 718 Stunden (ca. 30 Tage)

Im Vergleich zu den anderen hier beschriebenen Szenarien kann ein Ausfall alle 30 Tage als hohe MTBF angesehen werden, die zeigt, dass das System sehr zuverlässig ist.

Berechnung der MTBF: Drei Szenarios

Die MTBF ist ein nützliches Maß für die Zuverlässigkeit in verschiedenen Bereichen der Technologie. Betrachten wir einige Szenarien zu Cybersicherheit, Vorfallsreaktion und DevOps.

MTBF bei der Cybersicherheit berechnen

Im Bereich der Cybersicherheit kann die MTBF darauf hinweisen, dass sich ein System dem Ende seiner Lebensdauer nähert und das Risiko eines kritischen Ausfalls steigt.

Stellen Sie sich zum Beispiel vor, dass ein Cybersicherheitssystem über einen Zeitraum von 48 Stunden beobachtet wird. In dieser Zeit fällt das System fünfmal aus, was einer Gesamtausfallzeit von acht Stunden oder einer Gesamtbetriebszeit von 40 Stunden entspricht.

MTBF = 40 / 5 = 8 Stunden

Im darauffolgenden Monat wird das System erneut über 48 Stunden beobachtet. Diesmal fällt das System achtmal aus, was einer Gesamtausfallzeit von 12 Stunden oder einer Gesamtbetriebszeit von 36 Stunden entspricht. Die MTBF des Systems beträgt jetzt 4,5 Stunden.

MTBF = 36 / 8 = 4,5 Stunden

Wenn die MTBF bei nachfolgenden Beobachtungen weiter sinkt, könnte dies darauf hindeuten, dass ein Bereich im System – oder das gesamte System an sich – ersetzt oder gestärkt werden muss.

MTBF bei der Vorfallsreaktion berechnen

Die MTBF kann auch dabei helfen, festzustellen, wie effektiv Ihr Incident-Response-Team bei der Minimierung und Verhinderung von Vorfällen ist. Wenn die MTBF zu niedrig ist oder eine rückläufige Tendenz aufweist, sollte das Team Vorfallsdaten analysieren, um wiederkehrende Ausfälle und besorgniserregende Trends zu erkennen.

MTBF bei DevOps berechnen

Die MTBF bei DevOps ist ein Maß für die Häufigkeit von Ausfällen für eine Funktion oder eine einzelne Komponente und ermöglicht es Teams, die Zuverlässigkeit und Verfügbarkeit eines Service vorherzusagen. Auf diese Weise können Schwachstellen in der Konstruktion einer Komponente oder im Prüf- und Wartungsprozess aufgezeigt werden.

Durch die Überwachung der MTBF können DevOps-Teams Ineffizienzen und Engpässe, die zu Ausfällen führen könnten, aufdecken und beseitigen, indem sie Prozesse und Systeminfrastruktur verbessern. Wenn Teams Verbesserungen vornehmen, steigt die MTBF, was auf ein zuverlässigeres System hindeutet.

Nehmen wir zum Beispiel einen Fall, in dem die Gesamtarbeit für eine Code-Integrationspipeline über fünf Tage 100 Stunden betrug. Im Laufe der Woche kommt es zu vier Ausfällen.

Gesamtbetriebszeit = 100 Stunden
Gesamtzahl der Ausfälle = 4
MTBF = Gesamtbetriebszeit / Anzahl Ausfälle
MTBF = 100 / 4 = 25 Stunden

Welche Tools benötigen Sie, um die MTBF zu überwachen?

Mit den richtigen Tools können Sie die MTBF und andere Wartungskennzahlen verbessern. Zu diesen Tools gehören Tools zur Überwachung der Infrastruktur, zur Überwachung von Services, zur Visualisierung, zur Überwachung der Anwendungs-Performance, zur plattformübergreifenden Datenaggregation und zur Projektverwaltung.

All diese Tools erfordern jedoch schnellen Hochleistungs-Storage, der große Datenmengen bei maximaler Performance verarbeiten kann. Mit Pure Storage® FlashBlade® können Sie eine robuste, hochleistungsfähige Storage-Lösung schaffen, die die fortschrittlichen Überwachungs- und Beobachtungstools unterstützt, die Sie zum Verbessern Ihrer MTBF-Kennzahlen benötigen.

Was ist die nächste Kennzahl nach der MTBF?

MTBF und MTTF (Mean Time to Failure) werden beide verwendet, um Zeit zu messen mit dem Ziel, die Performance eines Systems oder einer Komponente zu bewerten; die Art und Weise, wie sie angewendet werden, ist jedoch unterschiedlich.

Mehr über die MTTF erfahren.