Che cos'è il tempo medio di restore (MTTR, Mean Time to Restore)?

Il tempo medio di restore o tempo medio di recupero (MTTR, Mean Time To Restore o Mean Time To Recovery), indica il tempo medio necessario per eseguire un ripristino dopo un deployment non riuscito, un incidente o un'interruzione delle attività di servizio. Misura il tempo trascorso fra il rilevamento di un incidente o un'interruzione delle attività e il ripristino della piena funzionalità del sistema.

L’MTTR è una metrica ad alto livello che aiuta a misurare la velocità del processo di ripristino e indica la rapidità con cui il sistema è in grado di riprendere a funzionare in caso di guasto. Solitamente l’MTTR si riferisce agli incidenti imprevisti, piuttosto che alle richieste di assistenza.

Tempo medio di restore e tempo medio di risoluzione: qual è la differenza?

Il tempo medio di restore indica il tempo medio necessario per riprendersi da un problema con un prodotto o servizio, e non include il tempo necessario per assicurarsi che l'incidente non si ripeterà.

Il tempo medio di risoluzione, invece, indica il tempo medio necessario per ripristinare completamente un sistema, inclusi il tempo di risoluzione del problema e tutto il lavoro aggiuntivo necessario per evitare che si ripresenti. Può includere il rilevamento del problema, la diagnosi, il restore e le misure proattive adottate per rafforzare il sistema in modo da prevenire problemi analoghi in futuro.

Il tempo medio di risoluzione fornisce pertanto informazioni approfondite sulla portata complessiva del problema da risolvere, oltre al downtime effettivo, estendendo la responsabilità del team dalla semplice correzione dell'errore al miglioramento delle performance a lungo termine del sistema.

Come calcolare il tempo medio di restore

Il tempo medio di restore viene calcolato sommando le durate di tutti i downtime che si sono verificati in un determinato periodo di tempo e dividendo il risultato per il numero totale degli incidenti in quel periodo.

MTTR = Somma di tutti i tempi di risoluzione dei problemi / Numero di incidenti

Supponi ad esempio che il tuo sistema subisca tre downtime in due settimane. Il restore dopo il primo incidente richiede due ore, il secondo incidente richiede quattro ore e il terzo richiede sei ore, per un totale di 12 ore. In questo caso, l’MTTR per quel periodo di due settimane è:

MTTR = 12 ore di downtime in totale / 3 incidenti

MTTR = 4 ore

Quando un tempo medio di restore può essere considerato buono?

Poiché le interruzioni delle attività e i downtime di sistema influiscono pesantemente sull'esperienza del cliente, è importante che l’MTTR sia il più breve possibile. Un valore MTTR elevato indica che l'azienda e i suoi clienti subiscono frequenti downtime di lunga durata, e questo può dare origine a reclami, cancellazione degli ordini e contratti non rinnovati.

L’MTTR è direttamente correlato alla velocità con cui si riesce a rilevare e identificare la causa alla radice di un problema (tempo medio di rilevamento, o MTTD). Più tempo ci vuole per identificare il problema, maggiore è anche il tempo necessario per il restore della piena operatività del sistema.

Un MTTD basso è la chiave per ridurre l'MTTR e migliorare altre metriche di affidabilità. Riducendo il tempo necessario per il rilevamento di un problema, è possibile ridurre anche il tempo richiesto dalla sua risoluzione. L'osservabilità e il monitoraggio constante giocano un ruolo importante nella segnalazione dei problemi ai team e nella rapida riduzione dell’MTTD.

Oltre al monitoraggio, esistono anche altri metodi che possono contribuire a ridurre l’ MTTR, ovvero:

Sviluppare un piano di gestione degli incidenti chiaramente documentato, che indichi ai team come gestire un incidente dal primo avviso al ripristino della piena operatività del sistema.
Utilizzare strumenti automatizzati per assegnare le responsabilità, creare i documenti, acquisire gli analytics e gestire le configurazioni.
Definire chiaramente i ruoli e le responsabilità, quindi assegnarli ai vari membri del team di modo che ciascuno sappia esattamente cosa fare in caso di incidente.
Effettuare un'analisi a posteriori degli incidenti passati, per identificare e documentare le caratteristiche specifiche di ogni problema, come si è verificato e cosa fare per impedire che si ripeta in futuro.

Come calcolare il tempo medio di risoluzione

Il tempo medio di risoluzione (MTTR) è diverso dal tempo medio di restore, perché include anche il tempo aggiuntivo necessario per adottare le misure adeguate al fine di evitare problemi simili in futuro.

Per calcolare l’MTTR occorre sommare tutti i tempi di restore dei sistemi e aggiungere il tempo impiegato per evitare che il problema si ripresenti, quindi dividere il risultato per il numero totale di incidenti. La formula è la seguente:

MTTR = Tempo di restore di tutti gli incidenti + Tempo aggiuntivo impiegato per prevenire il problema / Numero di incidenti

Supponi che il tuo sistema subisca due downtime in 48 ore. Il primo incidente dura un'ora, il secondo due ore. Il team dedica quindi tre ore a potenziare il sistema per evitare che il problema si ripresenti in futuro, per un totale di sei ore.

MTTR = (1 + 2 + 3) ore / 2 incidenti

MTTR = 3 ore

Quando un tempo medio di risoluzione può essere considerato buono?

Poiché la diminuzione dell'MTTD implica la riduzione del tempo medio di restore, gli stessi interventi influiscono anche sul tempo necessario per completare la risoluzione (tempo medio di risoluzione).

Occorre prestare attenzione anche alla velocità con cui il team riesce a implementare le misure preventive. Ad esempio, in questo caso risulta particolarmente utile l'analisi a posteriori del tempo medio di restore, perché un esame dettagliato del problema può rivelare utili insight che possono essere applicati alle attività di follow-up.

Chi dovrebbe usare l’ MTTR e quando?

Nel complesso, l’MTTR fornisce un'ottima metrica per valutare la velocità del processo di ripristino in diverse aree dell'ambiente tecnologico. È consigliabile utilizzare l’MTTR quando si desidera migliorare il tempo medio che il vostro team impiega per riparare gli asset.

Come utilizzare l’MTTR nel contesto della sicurezza informatica

Nel contesto della sicurezza informatica, l’MTTR indica il tempo necessario al team per ripristinare l'operatività di un sistema dopo una violazione. Questa metrica mostra la velocità con cui il team di sicurezza riesce a riportare il sistema e i clienti colpiti in condizioni di funzionamento normale.

Per i team di sicurezza informatica, l’MTTR viene misurato a partire dal momento della segnalazione di un errore di sistema dovuto a un attacco informatico.

In questo caso, il processo di restore può richiedere diversi passaggi, incluso il contenimento (per evitare la diffusione della minaccia), la rimozione vera e propria della minaccia e la sanificazione dei componenti e delle risorse necessarie per riportare il sistema in condizioni di funzionamento normale. Al termine di tutti questi passaggi, il restore del sistema può essere considerato completo.

Come utilizzare l’MTTR nella risposta agli incidenti

L’MTTR è una metrica essenziale ai fini della risposta agli incidenti, poiché fornisce insight sulla gravità di un impatto e aiuta l'azienda a stabilire se gli incidenti associati ai downtime vengono risolti abbastanza rapidamente.

Nel caso della risposta agli incidenti, l’MTTR è il tempo medio che intercorre fra gli indicatori orari di segnalazione e di risoluzione di un problema. Gli strumenti automatizzati non si limitano a segnalare gli incidenti ai team, ma li aiutano anche a collaborare e comunicare più facilmente, contribuendo a migliorare l'MTTR.

Per misurare l'affidabilità e la disponibilità del sistema e la soddisfazione approssimativa del cliente per un prodotto o un servizio, è possibile utilizzare anche gli obiettivi per il livello di servizio (SLO, Service Level Objectives) e gli indicatori del livello di servizio (SLI, Service Level Indicators). In caso di violazione di uno SLO, il tempo medio di restore dei servizi è il tempo totale necessario per rilevare, mitigare e risolvere il problema, finché non viene ristabilita la conformità allo SLO.

Come usare l'MTTR ai fini della metodologia DevOps

In relazione alla metodologia DevOps, l'MTTR può rappresentare il tempo medio necessario per il restore di un'applicazione dopo un errore nell'ambiente di produzione. La misurazione dell'MTTR aiuta il team a garantire la resilienza e la stabilità del sistema, oltre che a stabilire se è possibile migliorare il processo di risposta.

Nel contesto della metodologia DevOps la misurazione dell'MTTR spesso richiede l'uso di sistemi di monitoraggio per la registrazione dell'incidente, dall'inizio fino alla risoluzione (ad esempio, il tempo necessario per eseguire il rollback di una modifica o di un rilascio dopo che ha raggiunto l'ambiente di produzione).

L'MTTR consente inoltre di valutare le performance del team DevOps. Più breve è l'MTTR di un team DevOps, meglio è. Nel report Accelerate State of DevOps 2021 vengono identificate quattro categorie di performance per i team DevOps:

Elite: meno di un'ora
High: meno di 24 ore
Medium: meno di una settimana
Low: una settimana o più

Un MTTR più rapido implica tassi di guasto inferiori, una delivery più veloce e livelli superiori di soddisfazione degli utenti. L'MTTR dovrebbe diminuire con l'aumentare della maturità dei team DevOps.

Quali strumenti occorrono per monitorare l'MTTR?

Per migliorare l'MTTR è necessario rilevare tempestivamente gli errori di sistema. Per raccogliere le metriche MTTR puoi utilizzare strumenti di monitoraggio continuo, come Prometheus e Grafana, oppure gli strumenti più diffusi per il monitoraggio delle performance applicative, come Datadog, Splunk e Dynatrace,

Questi sistemi sfruttano grandi quantità di dati storici e in tempo reale per aiutarti a diagnosticare e analizzare più rapidamente i problemi. Per supportare le query complesse e le attività di elaborazione in tempo reale eseguite da questi strumenti occorrono però performance velocissime che solo lo storage all-flash è in grado di offrire.

Pure Storage propone varie soluzioni di data storage all-flash in grado di fornire performance costanti e velocità di trasmissione elevatissime. FlashBlade® è una piattaforma di file storage e object storage a performance elevate, in grado di offrire i livelli di velocità e performance richiesti dagli strumenti applicativi e di monitoraggio utilizzati per accorciare i tempi di MTTD e MTTR.

Qual è il passo successivo, dopo la misurazione dell'MTTR?

Anche se MTTR fornisce un'indicazione efficace della capacità di reagire tempestivamente ai problemi, ci sono altre importanti metriche di affidabilità da monitorare. Scopri di più su un altro parametro cruciale: il tempo medio fra i guasti (MTBF, Mean Time Before Failure).