Wat is Mean Time to Restore (MTTR)?

Gemiddelde hersteltijd (mean time to restore) (soms ook wel mean time to recovery genoemd), of MTTR, beschrijft de gemiddelde tijd om te herstellen van een mislukte implementatie, incident of dienstuitval. Het meet de tijd vanaf de ontdekking van een incident of uitval totdat de volledige systeemfunctionaliteit is hersteld.

MTTR is een metriek op hoog niveau waarmee u de snelheid van uw herstelproces kunt meten en die aangeeft hoe snel uw systeem kan herstellen van een storing. In het algemeen heeft MTTR betrekking op ongeplande incidenten, en niet op serviceverzoeken.

Mean Time to Restore vs. Resolve: Wat is het verschil?

De gemiddelde hersteltijd verwijst naar de gemiddelde tijd die nodig is om te herstellen van een storing in een product of dienst, maar omvat niet de extra tijd die nodig is om ervoor te zorgen dat het incident zich niet opnieuw voordoet.

De gemiddelde oplostijd (mean time to resolve) daarentegen is de gemiddelde tijd die nodig is om een systeem volledig te herstellen, inclusief de tijd om het probleem te verhelpen en eventueel extra werk te verrichten om te voorkomen dat het probleem zich opnieuw voordoet. Dit kan het opsporen van storingen, diagnose, herstel en proactieve maatregelen omvatten om het systeem te beschermen tegen soortgelijke storingen in de toekomst.

De gemiddelde oplostijd geeft dus inzicht in de volledige reikwijdte die nodig is om het probleem op te lossen naast de feitelijke downtime, waardoor de verantwoordelijkheid van het team verder gaat dan alleen het oplossen van het probleem en de prestaties van het systeem op lange termijn worden verbeterd.

Hoe berekent u de gemiddelde hersteltijd?

De gemiddelde hersteltijd wordt berekend door de totale uitvaltijd gedurende een bepaalde periode op te tellen en te delen door het totale aantal incidenten binnen die periode.

MTTR = som van alle oplostijden / aantal incidenten

Stel bijvoorbeeld dat uw systeem binnen twee weken drie keer uitvalt. Als het eerste incident twee uur duurde om te herstellen, het tweede incident vier uur, en het derde incident zes uur, in totaal 12 uur, dan is de MTTR voor die periode van twee weken:

MTTR = 12 uur totale uitvaltijd / 3 incidenten

MTTR = 4 uur

Wat is een goede gemiddelde hersteltijd?

Systeemuitval en downtime hebben grote gevolgen voor de klantervaring, dus het is belangrijk dat de MTTR zo kort mogelijk is. Een hogere MTTR betekent dat de organisatie en haar klanten eerder te maken krijgen met aanzienlijke en frequente downtime, wat kan leiden tot klachten, annuleringen en niet-verlengingen.

Een goede MTTR houdt rechtstreeks verband met hoe snel u een probleem kunt opsporen en de hoofdoorzaak ervan kunt vaststellen (de mean time to detect, of MTTD). Hoe langer het duurt om een probleem te identificeren, hoe langer het duurt om het systeem weer volledig operationeel te maken.

Een lage MTTD is de sleutel tot verlaging van de MTTR en verbetering van andere betrouwbaarheidscijfers. Als u de tijd die nodig is om een probleem op te sporen verkort, verkort u ook de tijd tot het probleem is opgelost. Waarneembaarheid en continue monitoring spelen een belangrijke rol bij het waarschuwen van teams voor problemen en het snel verminderen van MTTD.

Naast monitoring zijn er nog enkele andere manieren om de MTTR te verminderen:

Ontwikkel een duidelijk gedocumenteerd incidentenbeheerplan dat de teams laat weten hoe ze een incident moeten beheren, vanaf de eerste waarschuwing tot het punt waarop het systeem weer volledig operationeel is.
Gebruik geautomatiseerde hulpmiddelen om verantwoordelijkheden toe te wijzen, documenten op te stellen, analyses vast te leggen en configuraties te beheren.
Definieer en wijs teamrollen en verantwoordelijkheden duidelijk toe, zodat iedereen weet wat hij moet doen als zich een incident voordoet.
Postmortems uitvoeren op incidenten uit het verleden om de bijzonderheden van elk probleem te onderzoeken en te documenteren, hoe het is gebeurd en hoe het in de toekomst kan worden voorkomen.

Hoe berekent u de gemiddelde oplostijd?

De gemiddelde oplostijd (MTTR) verschilt van de gemiddelde hersteltijd omdat het de extra tijd omvat die wordt besteed aan het voorkomen van soortgelijke problemen in de toekomst.

Om de MTTR te berekenen, telt u de totale tijd op die nodig is om het systeem te herstellen, inclusief extra tijd om ervoor te zorgen dat het probleem zich niet opnieuw voordoet, en deelt u dit getal door het totale aantal incidenten. Zie het als volgt:

MTTR = totale hersteltijd van het incident + extra tijd die nodig is om ervoor te zorgen dat het probleem zich niet herhaalt / aantal incidenten

Stel dat uw systeem binnen 48 uur twee keer uitvalt. Het eerste incident duurt een uur en het tweede twee uur. Vervolgens besteedt het team nog eens drie uur aan het harden van systemen om te voorkomen dat de problemen zich opnieuw voordoen, in totaal dus zes uur.

MTTR = (1 + 2 + 3) uur / 2 incidenten

MTTR = 3 uur

Wat is een goede gemiddelde oplostijd?

Aangezien een vermindering van de MTTD de gemiddelde hersteltijd vermindert, zullen dezelfde maatregelen ook de tijd tot volledige afwikkeling (gemiddelde oplostijd) beïnvloeden.

Er kan ook aandacht worden besteed aan het verbeteren van de snelheid waarmee het team preventieve maatregelen kan uitvoeren. De postmortem van het proces van de gemiddelde hersteltijd, bijvoorbeeld, zal hier bijzonder nuttig zijn, aangezien een diepgaande analyse van de kwestie nuttige inzichten aan het licht kan brengen die kunnen worden toegepast op vervolgactiviteiten.

Wie moet MTTR gebruiken en wanneer?

In het algemeen is MTTR een goede maatstaf voor het beoordelen van de snelheid van uw herstelproces op verschillende technologiegebieden. U moet MTTR gebruiken wanneer u de gemiddelde tijd wilt verbeteren die uw team nodig heeft om activa te repareren.

Hoe MTTR te gebruiken in cyberbeveiliging

MTTR in cybersecurity verwijst naar de tijd die het team nodig heeft om het systeem weer aan de praat te krijgen na een cybersecurity-inbreuk. Zo laat het zien hoe snel uw beveiligingsteam het systeem en de getroffen klanten weer normaal kan laten functioneren.

Bij cyberbeveiligingsteams begint de MTTR-klok doorgaans te lopen wanneer het team wordt gewaarschuwd voor een systeemstoring als gevolg van een cyberaanval.

Hier kan het herstelproces verschillende stappen omvatten, waaronder insluiting (om de verspreiding van de bedreiging te stoppen), de feitelijke verwijdering van de bedreiging en de sanering van de componenten en middelen die nodig zijn om het systeem weer normaal te maken. Zodra alle stappen zijn voltooid, wordt het systeem als volledig hersteld beschouwd.

Hoe MTTR te gebruiken bij Incident Response

MTTR is een belangrijke metriek bij incident response omdat het inzicht geeft in de ernst van een impact en organisaties helpt evalueren of downtime-incidenten snel genoeg worden opgelost.

Bij incident response is MTTR een gemiddelde van de tijd die verstrijkt tussen de gerapporteerde en de opgeloste tijd voor een probleem. Geautomatiseerde tools waarschuwen teams niet alleen voor incidenten, maar helpen hen ook gemakkelijker samen te werken en te communiceren, wat leidt tot een betere MTTR.

Service level objectives (SLO) en service level indicators (SLI) kunnen ook worden gebruikt om de betrouwbaarheid en beschikbaarheid van het systeem te meten en de tevredenheid van de klant over een product of dienst te benaderen. Wanneer een SLO wordt geschonden, is de gemiddelde tijd om de diensten te herstellen de totale tijd om het probleem op te sporen, te beperken en op te lossen tot het weer aan de SLO voldoet.

Hoe MTTR te gebruiken in DevOps

In DevOps kan MTTR staan voor de gemiddelde tijd die nodig is om een applicatie te herstellen na een productiestoring. Het meten van de MTTR helpt de teams om de veerkracht en stabiliteit van het systeem te waarborgen, en om te bepalen waar het reactieproces kan worden verbeterd.

Bij DevOps gaat het meten van MTTR vaak gepaard met het gebruik van monitoringsystemen om het begin van een incident te registreren en wanneer het is opgelost (bijvoorbeeld de tijd om een wijziging of release terug te draaien nadat deze de productie heeft bereikt).

MTTR kan ook de prestaties van het DevOps-team evalueren. Hoe lager de MTTR van een DevOps-team is, hoe beter. Het rapport Accelerate State of DevOps 2021 identificeert vier prestatiecategorieën voor DevOps-teams:

Elite: Minder dan één uur
Hoog: Minder dan 24 uur
Gemiddeld: Minder dan één week
Laag: Meer dan of gelijk aan één week

Een snellere MTTR resulteert in lagere storingspercentages, een snellere levering en een grotere gebruikerstevredenheid. Naarmate DevOps volwassener wordt, zou de MTTR steeds lager moeten worden.

Welke hulpmiddelen hebt u nodig om MTTR's te bewaken?

Om de MTTR te verbeteren, moet u systeemstoringen snel kunnen opsporen. Tools voor continue monitoring, zoals Prometheus en Grafana, en populaire tools voor het monitoren van de prestaties van applicaties, zoals Datadog, Splunk en Dynatrace, kunnen u helpen bij het verzamelen van MTTR-metriek.

Deze systemen gebruiken een grote hoeveelheid realtime en historische gegevens om u te helpen problemen sneller te diagnosticeren en te analyseren. Om hun complexe query's en realtime verwerking te ondersteunen, hebt u echter de ultrasnelle prestaties nodig die all-flash-opslag kan bieden.

Pure Storage biedt verschillende all-flash-dataopslagoplossingen die een enorme verwerkingscapaciteit en consistente prestaties bieden. FlashBlade® is een high-performance file- en objectstorageplatform dat de snelheid en prestaties levert die nodig zijn voor de applicatie- en monitoringtools die een snellere MTTD en MTTR ondersteunen.

Wat is de volgende metriek na MTTR?

Hoewel MTTR een krachtige indicator is van uw vermogen om snel op problemen te reageren, zijn er andere belangrijke betrouwbaarheidscijfers die u ook in de gaten moet houden. Meer informatie over een andere kritische berekening: MTBF (mean time before failure)..