Che cos'è l'MTTF?

Il Mean Time To Failure (MTTF), o Tempo medio prima di un guasto, è il tempo medio che intercorre prima che un asset tecnologico, come un dispositivo, un sistema o un'applicazione, subisca un guasto non riparabile.

L'MTTF è utile per determinare la durata media di un prodotto, un sistema o un dispositivo, come una CPU, un disco rigido, un dispositivo IoT o uno switch di rete. Questa metrica può essere utilizzata anche per confrontare le performance di sistemi vecchi e nuovi, determinare la durata prevista dei sistemi e pianificare la manutenzione.

Per calcolare l'MTTF si registra un solo guasto critico per asset e si determina la media per più asset su un periodo di tempo prolungato. Aumentando il numero degli asset osservati, aumenta anche la precisione dell'MTTF.

MTBF o MTTF: quale metrica usare?

Le misure fornite dal Tempo medio prima di un guasto (MTTF) e dal Tempo medio fra i guasti (MTBF) consentono entrambe di valutare le performance di un asset, ma vengono applicate a tipi di asset diversi.

MTBF o MTTF: differenze sostanziali

L'MTTF indica il tempo medio impiegato da un asset per guastarsi irreparabilmente e si applica solo agli asset che devono essere sostituiti nell'eventualità di un guasto. In questo caso, la sostituzione dell'asset costituisce l'unica soluzione possibile al problema. Quando un asset raggiunge l'MTTF, significa che ha raggiunto il suo massimo numero di ore di funzionamento.

L'MTBF indica invece il tempo medio dopo il quale un nuovo asset subisce il primo guasto riparabile. Poiché il sistema è riparabile, può guastarsi nuovamente e l'MTBF rappresenta il tempo medio che intercorre fra un guasto e l'altro.

La principale differenza tra MTTF e MTBF è pertanto costituita dal fatto che, nel caso dell'MTTF, il problema può essere risolto unicamente sostituendo l'asset, mentre nel caso dell'MTBF, è sufficiente riparare l'asset.

Quando usare l'MTBF

I team operativi e quelli responsabili dell'affidabilità possono utilizzare l'MTBF per valutare le performance di apparecchiature e sistemi. Confrontando le performance di apparecchiature simili che operano in condizioni analoghe, è possibile valutare i guasti e definire i piani di manutenzione preventiva.

Inoltre, l'MTBF viene spesso utilizzato per monitorare i progressi dei programmi di affidabilità. Se l'MTBF aumenta, significa che i sistemi e le apparecchiature stanno diventando più affidabili.

Come calcolare l'MTTF: formula dettagliata

Per calcolare l'MTTF occorre sommare la durata di tutti i dispositivi da valutare e dividere il risultato per il numero dei dispositivi. La formula generale è la seguente:

MTTF = Somma totale delle durate dei dispositivi / Numero totale dei dispositivi

Occorre innanzitutto determinare il numero totale dei dispositivi, quindi stabilire la durata di ogni singolo dispositivo. Considera ad esempio tre dischi rigidi simili in una configurazione RAID e supponi che tali dispositivi abbiano una durata di tre, quattro e cinque anni, rispettivamente.

In questo caso:

Numero totale dei dispositivi = 3
Tempo totale di funzionamento = (3 + 4 + 5) = 12 anni
MTTF = 12 / 3 = 4 anni

Quali strumenti occorrono per monitorare l'MTTF?

Per misurare l'MTTF e le altre metriche di affidabilità vengono spesso utilizzati appositi strumenti software.

Queste applicazioni di monitoraggio, insieme alle metriche, ai log e agli strumenti di tracciamento (gli elementi chiave dell'osservabilità), aiutano i team a identificare i problemi che possono indurre sistemi e componenti a guastarsi più rapidamente. È possibile scegliere fra vari strumenti open source e commerciali, come Prometheus, Datadog, Splunk e OpenTelemetry.

Anche i workflow automatizzati possono aiutare i team a rilevare, gestire e risolvere i problemi più rapidamente. L'automazione consente di segnalare il problema al team competente, documentare il problema e il processo di mitigazione, quindi ordinare le parti di ricambio.

Quando un MTTF può essere considerato buono?

L'MTTF è particolarmente importante nel caso dei sistemi o dei componenti essenziali per le attività di business. Più l'MTTF è lungo, meglio è. Un MTTF breve indica che il sistema è ad alta probabilità errore o downtime, e questo può influire negativamente sulla delivery di applicazioni e servizi, sulla soddisfazione dei clienti e sui profitti.

Come incrementare l'MTTF per migliorare l'affidabilità

Una stima efficace dell'MTTF può contribuire ad aumentare notevolmente l'affidabilità di un sistema. Sapendo quando una risorsa rischia di guastarsi, è possibile sostituirla prima che succeda. Per aumentare l'MTTF al fine di migliorare l'affidabilità sono disponibili anche altri strumenti:

Manutenzione proattiva: tenendo sempre a disposizione le parti e le apparecchiature di ricambio, è possibile sostituire tempestivamente quelle che si guastano. Asset e apparecchiature devono essere sempre mantenuti in buone condizioni, attraverso un programma di sostituzioni pianificate, e revisionati regolarmente, per migliorare i processi di manutenzione preventiva.
Documentazione: quando si verifica un problema è necessario documentare la causa alla radice, le procedure di identificazione e tutte le misure correttive adottate per evitare che si ripresenti.
Ridondanza: al fine di ridurre le conseguenze di un guasto, è necessario ottimizzare la ridondanza dell'hardware, utilizzando RAID, switch ridondanti e altre tecnologie.

Esempi di calcolo dell'MTTF

Vediamo ora alcuni esempi di MTTF basso, medio ed elevato, per una serie di dispositivi diversi con una durata massima prevista di 20.000 ore.

MTTF elevato

Il Dispositivo 1 ha una durata di 15.000 ore, il Dispositivo 2 ha una durata di 19.000 ore, il Dispositivo 3 ha una durata di 18.000 ore e il Dispositivo 4 ha una durata di 20.000 ore.

Numero totale dei dispositivi = 4
Tempo totale di funzionamento = (15.000 + 19.000 + 18.000 + 20.000) = 72.000 ore
MTTF = 72.000 / 4 = 18.000 ore

MTTF medio

Il Dispositivo 1 ha una durata di 9.000 ore, il Dispositivo 2 ha una durata di 11.000 ore, il Dispositivo 3 ha una durata di 15.000 ore e il Dispositivo 4 ha una durata di 19.000 ore.

Numero totale dei dispositivi = 4
Tempo totale di funzionamento = (9.000 + 11.000 + 15.000 + 19.000) = 54.000 ore
MTTF = 54.000 / 4 = 13.500 ore

MTTF basso

Il Dispositivo 1 ha una durata di 10.000 ore, il Dispositivo 2 ha una durata di 11.000 ore, il Dispositivo 3 ha una durata di 8.000 ore e il Dispositivo 4 ha una durata di 9.000 ore.

Numero totale dei dispositivi = 4
Tempo totale di funzionamento = (10.000 + 11.000 + 8.000 + 9.000) = 38.000 ore
MTTF = 38.000 / 4 = 9.500 ore

Chi deve usare l'MTTF e quando?

L'MTTF è una metrica di affidabilità che risulta utile in diverse aree della tecnologia, come la sicurezza informatica, la risposta agli incidenti e DevOps.

Come utilizzare l'MTTF nel contesto della sicurezza informatica

Per evento di sicurezza informatica si intende qualsiasi cosa che si discosta dal normale comportamento del sistema, dai messaggi e-mail o ai download di software sospetti. Anche un evento innocuo può comportare comunque un rischio di compromissione del sistema. Nel caso della sicurezza informatica, l'MTTF indica che i meccanismi di sicurezza non sono riusciti a prevenire un attacco.

Come utilizzare l'MTTF nella risposta agli incidenti

La risposta agli incidenti è costituita dalle misure adottate dai professionisti IT per rispondere agli incidenti di sicurezza, come un attacco informatico riuscito.

Nel caso della risposta agli incidenti, l'MTTF indica il tempo per cui un sistema infetto può continuare a funzionare prima di arrestarsi. Questo consente al team di determinare il tempo disponibile per eseguire il failover o adottare le misure di sicurezza aggiuntive necessarie al fine di prevenire ulteriori danni o perdite.

Come usare l'MTTF ai fini della metodologia DevOps

Ai fini della metodologia DevOps, il monitoraggio dell'MTTF può aiutare i team a determinare l'affidabilità del deployment di un determinato sistema o applicazione. L'MTTF può indicare ad esempio il tempo medio fra il rilevamento di un difetto in un sistema o in un'applicazione e il momento in cui diventa inutilizzabile, aiutando i team DevOps a prepararsi per gli errori di sistema critici.

Per calcolare l'MTTF e le altre metriche di affidabilità ai fini della sicurezza informatica, della risposta agli incidenti e delle metodologie DevOps, sono necessarie enormi quantità di dati storici e in tempo reale. Gli strumenti di osservabilità e monitoraggio hanno bisogno di un rapidissimo storage a performance elevate per supportare le query complesse e l'elaborazione dei dati in tempo reale.

Pure Storage® FlashBlade® è la soluzione di storage all-flash più avanzata del settore per l'elaborazione rapida dei dati di file e oggetti. FlashBlade fornisce i livelli di velocità e performance necessari per raccogliere metriche MTTF di alta qualità.