Che cos'è l'MTBF e come si calcola?

Il tempo medio fra i guasti, o MTBF (Mean Time Between Failure), è il tempo medio che intercorre fra due guasti riparabili di un prodotto o sistema. Questa metrica è essenziale per determinare la frequenza dei guasti del sistema e fornire una panoramica della sua affidabilità.

Puoi utilizzare l'MTBF per determinare l'efficacia con cui il tuo team riesce a prevenire o a ridurre i potenziali incidenti. Maggiore è il tempo che intercorre fra i guasti, maggiore è l'affidabilità del sistema.

L'MTBF misura l'affidabilità o la disponibilità?

L'MTBF è un parametro essenziale per monitorare l'affidabilità e la disponibilità di un componente o di un sistema.

L'affidabilità è la probabilità che un sistema o componente funzioni come previsto e senza problemi per un determinato periodo di tempo. L'MTBF è una metrica di base per misurare l'affidabilità di un sistema. Maggiore è il valore dell'MTBF, maggiore è l'affidabilità del prodotto. L'utilizzo dell'MTBF insieme ad altre metriche di guasto e strategie di manutenzione semplifica la previsione dei guasti, permettendo ai team di stabilire con più efficacia come e quando implementare le misure preventive per evitare che si verifichi un determinato guasto.

La disponibilità è la capacità di un sistema o di un componente di funzionare come previsto quando necessario. Utilizzando l'MTBF insieme al tempo medio di restore (MTTR, Mean Time To Restore), è possibile determinare la probabilità che un sistema si guasti in un determinato intervallo di tempo. La disponibilità di un sistema può essere calcolata dividendo l'MTBF per la somma di MTTR ed MTBF.

Disponibilità = MTBF / (MTBF + MTTR)

Come calcolare l'MTBF: formula dettagliata

Per calcolare l'MTBF occorre dividere il tempo di funzionamento totale durante un periodo di tempo specifico per il numero dei guasti che si verificano in quello stesso periodo. La procedura di calcolo è la seguente:

Per determinare il tempo di funzionamento totale di un sistema è necessario monitorare il sistema per un dato periodo di tempo.

Il tempo di funzionamento totale è il tempo totale per cui il sistema rimane in funzione senza errori.
Il numero totale di guasti è il numero degli errori di sistema che si sono verificati durante il periodo specificato.

Supponiamo ad esempio che in un intervallo di 24 ore un sistema subisca tre ore di downtime a causa di tre incidenti separati.

Tempo di attività totale = (24 - 3) = 21 ore
Numero totale di incidenti = 3
MTBF = Tempo di attività totale / Numero di incidenti
MTBF = 21/3 = 7 ore

Come calcolare l'MTBF a partire dal tasso di guasto

Come abbiamo già visto, l'MTBF può essere calcolato dividendo il tempo di attività totale per il numero dei guasti registrati. Il tasso di guasto è l'opposto dell'MTBF, e viene calcolato dividendo il numero dei guasti per il tempo di attività totale.

Per calcolare l'MTBF a partire dal tasso di guasto, si utilizza la formula seguente: MTBF = 1 / Tasso di guasto

Ad esempio:

Tasso di guasto = 25 guasti / 1.000 ore di tempo di attività
Tasso di guasto = 0,025
MTBF = 1 / 0,025
MTBF = 40

Quando l'MTBF può essere considerato buono?

Poiché il tempo fra i guasti di un sistema o componente dipende da fattori come la configurazione, le condizioni operative, l'età e altre variabili esterne, non esiste una metrica MTBF "buona". Occorre piuttosto calcolare l'MTBF dei propri asset specifici, che diventerà sempre più preciso a mano a mano che aumentano i dati raccolti.

Cosa significa un valore MTBF elevato?

Anche se non esiste un MTBF target universalmente accettato, appare evidente che più l'MTBF è elevato, meglio è. Un MTBF elevato indica che il sistema o componente è altamente affidabile e presenterà un minor numero di problemi durante il suo ciclo di vita; analogamente, un minor numero di incidenti equivale in genere a downtime più brevi e costi inferiori.

Cosa significa un valore MTBF basso?

Un valore MTBF basso indica che il sistema tenderà probabilmente a guastarsi più spesso, quindi è necessario verificarne l'affidabilità. Per migliorare l'affidabilità di un sistema occorre disporre di un piano di manutenzione preventiva efficace, oltre a strumenti per monitorare l'MTBF e le altre metriche di guasto.

Esempi di calcolo dell'MTBF

Vediamo quindi alcuni esempi di MTBF basso, medio ed elevato in relazione al funzionamento di un sistema di produzione su un periodo di 30 giorni.

MTBF basso

Supponiamo che in 30 giorni (720 ore) il sistema subisca sei downtime di quattro ore ciascuno, per un tempo di interruzione totale di 24 ore.

Tempo di attività totale = (720 -24) = 696 ore
Numero totale di incidenti = 6
MTBF = Tempo di attività totale / Numero di incidenti
MTBF = 696 / 6 = 116 ore (circa 5 giorni)

Un'interruzione delle attività ogni cinque giorni indica un sistema estremamente inaffidabile, che interferisce spesso con le operazioni di business e le attività dei clienti.

MTBF medio

Supponiamo ora che, nello stesso periodo di 30 giorni (720 ore), il sistema subisca solo due downtime di due ore ciascuno, pari a un tempo di interruzione complessivo di quattro ore.

Tempo di attività totale = (720 -4) = 716 ore
Numero totale di incidenti = 2
MTBF = Tempo di attività totale / Numero di incidenti
MTBF = 716 / 2 = 358 ore (circa 15 giorni)

Anche se non si tratta di un MTBF particolarmente elevato, un guasto ogni 15 giorni può essere considerato accettabile per alcuni scenari di utilizzo aziendali.

MTBF elevato

Consideriamo infine un sistema che subisce solo un downtime di due ore in 30 giorni (720 ore).

Tempo di attività totale = (720 -2) = 718 ore
Numero totale di incidenti = 1
MTBF = Tempo di attività totale / Numero di incidenti
MTBF = 718 / 1 = 718 ore (circa 30 giorni)

Rispetto agli altri scenari, un guasto ogni 30 giorni può essere considerato un MTBF elevato, che indica un sistema estremamente affidabile.

Come calcolare l'MTBF: Tre scenari

L'MTBF è una metrica di affidabilità utile in vari campi della tecnologia. Consideriamo alcuni scenari di sicurezza informatica, risposta agli incidenti e DevOps.

Calcolo dell'MTBF in un contesto di sicurezza informatica

Ai fini della sicurezza informatica, l'MTBF può indicare se un sistema si sta avvicinando alla fine della sua vita utile, e questo aumenta il rischio di un'interruzione delle attività critiche.

Supponiamo ad esempio di osservare un sistema di sicurezza informatica per un periodo di 48 ore. Durante quel periodo, il sistema si guasta cinque volte causando un downtime complessivo di otto ore, pari a un tempo di funzionamento totale di 40 ore.

MTBF = 40 / 5 = 8 ore

Il sistema viene nuovamente osservato per 48 ore anche il mese successivo. Questa volta si verificano otto guasti per un downtime complessivo di 12 ore, pari a un tempo di funzionamento totale di 36 ore. Ora l'MTBF del sistema è di 4,5 ore.

MTBF = 36 / 8 = 4,5 ore

Se l'MTBF continua a diminuire anche durante le osservazioni successive, significa che probabilmente occorre sostituire o potenziare alcune aree del sistema, o addirittura l'intero sistema.

Calcolo dell'MTBF in relazione alla risposta agli incidenti

L'MTBF consente inoltre di determinare se il team di risposta agli incidenti riesce a minimizzare e a prevenire efficacemente gli incidenti. Se l'MTBF è troppo basso o tende a diminuire, il team dovrebbe analizzare i dati relativi agli incidenti per identificare le interruzioni ricorrenti delle attività e determinare i trend relativi.

Calcolo dell'MTBF in relazione alla metodologia DevOps

Nel contesto della metodologia DevOps, l'MTBF misura la frequenza degli errori di una funzione o di un singolo componente, permettendo al team di prevedere i livelli di affidabilità e disponibilità di un servizio. Questo consente di evidenziare le criticità nel progetto di un componente o nel processo di test e manutenzione.

Monitorando l'MTBF, il team DevOps può individuare ed eliminare le inefficienze e i colli di bottiglia che rischiano di causare un errore, migliorando i processi e l'infrastruttura di sistema. A mano a mano che il team introduce i miglioramenti, l'MTBF aumenta, indicando che il sistema è più affidabile.

Considera ad esempio una situazione in cui il lavoro complessivo per una pipeline di integrazione del codice richiede 100 ore nell'arco di cinque giorni. Durante la settimana si verificano quattro errori.

Tempo di funzionamento totale = 100 ore
Numero totale di errori = 4
MTBF = Tempo di funzionamento totale / Numero di errori
MTBF = 100 / 4 = 25 ore

Quali strumenti occorrono per monitorare l'MTBF?

Utilizzando gli strumenti appropriati, è possibile ottimizzare l'MTBF e le altre metriche di manutenzione. Tali strumenti includono quelli per il monitoraggio dei servizi e dell'infrastruttura, gli strumenti di visualizzazione, gli strumenti di monitoraggio delle performance applicative, gli strumenti di aggregazione dei dati e multipiattaforma, oltre agli strumenti di gestione dei progetti.

Tutti questi strumenti richiedono storage veloce a performance elevate, in grado di gestire enormi quantità di dati continuando a garantire le massime performance. Pure Storage® FlashBlade® ti consente di realizzare un'affidabile soluzione di storage a performance elevate per supportare gli avanzati strumenti di monitoraggio e osservabilità necessari per ottimizzare le metriche.

Qual è il passo successivo, dopo la misurazione dell'MTBF?

Le metriche MTBF e il tempo medio prima di un guasto (MTTF, Mean Time To Failure) forniscono entrambe misure di tempo necessarie per valutare le performance di un sistema o componente, anche se vengono applicate in modi diversi.

Scopri di più sull'MTTF.