Il Mean Time To Failure (MTTF), o Tempo medio prima di un guasto, è il tempo medio che intercorre prima che un asset tecnologico, come un dispositivo, un sistema o un'applicazione, subisca un guasto non riparabile.
L'MTTF è utile per determinare la durata media di un prodotto, un sistema o un dispositivo, come una CPU, un disco rigido, un dispositivo IoT o uno switch di rete. Questa metrica può essere utilizzata anche per confrontare le performance di sistemi vecchi e nuovi, determinare la durata prevista dei sistemi e pianificare la manutenzione.
Per calcolare l'MTTF si registra un solo guasto critico per asset e si determina la media per più asset su un periodo di tempo prolungato. Aumentando il numero degli asset osservati, aumenta anche la precisione dell'MTTF.
Le misure fornite dal Tempo medio prima di un guasto (MTTF) e dal Tempo medio fra i guasti (MTBF) consentono entrambe di valutare le performance di un asset, ma vengono applicate a tipi di asset diversi.
L'MTTF indica il tempo medio impiegato da un asset per guastarsi irreparabilmente e si applica solo agli asset che devono essere sostituiti nell'eventualità di un guasto. In questo caso, la sostituzione dell'asset costituisce l'unica soluzione possibile al problema. Quando un asset raggiunge l'MTTF, significa che ha raggiunto il suo massimo numero di ore di funzionamento.
L'MTBF indica invece il tempo medio dopo il quale un nuovo asset subisce il primo guasto riparabile. Poiché il sistema è riparabile, può guastarsi nuovamente e l'MTBF rappresenta il tempo medio che intercorre fra un guasto e l'altro.
La principale differenza tra MTTF e MTBF è pertanto costituita dal fatto che, nel caso dell'MTTF, il problema può essere risolto unicamente sostituendo l'asset, mentre nel caso dell'MTBF, è sufficiente riparare l'asset.
I team operativi e quelli responsabili dell'affidabilità possono utilizzare l'MTBF per valutare le performance di apparecchiature e sistemi. Confrontando le performance di apparecchiature simili che operano in condizioni analoghe, è possibile valutare i guasti e definire i piani di manutenzione preventiva.
Inoltre, l'MTBF viene spesso utilizzato per monitorare i progressi dei programmi di affidabilità. Se l'MTBF aumenta, significa che i sistemi e le apparecchiature stanno diventando più affidabili.
Per calcolare l'MTTF occorre sommare la durata di tutti i dispositivi da valutare e dividere il risultato per il numero dei dispositivi. La formula generale è la seguente:
MTTF = Somma totale delle durate dei dispositivi / Numero totale dei dispositivi
Occorre innanzitutto determinare il numero totale dei dispositivi, quindi stabilire la durata di ogni singolo dispositivo. Considera ad esempio tre dischi rigidi simili in una configurazione RAID e supponi che tali dispositivi abbiano una durata di tre, quattro e cinque anni, rispettivamente.
In questo caso:
Per misurare l'MTTF e le altre metriche di affidabilità vengono spesso utilizzati appositi strumenti software.
Queste applicazioni di monitoraggio, insieme alle metriche, ai log e agli strumenti di tracciamento (gli elementi chiave dell'osservabilità), aiutano i team a identificare i problemi che possono indurre sistemi e componenti a guastarsi più rapidamente. È possibile scegliere fra vari strumenti open source e commerciali, come Prometheus, Datadog, Splunk e OpenTelemetry.
Anche i workflow automatizzati possono aiutare i team a rilevare, gestire e risolvere i problemi più rapidamente. L'automazione consente di segnalare il problema al team competente, documentare il problema e il processo di mitigazione, quindi ordinare le parti di ricambio.
L'MTTF è particolarmente importante nel caso dei sistemi o dei componenti essenziali per le attività di business. Più l'MTTF è lungo, meglio è. Un MTTF breve indica che il sistema è ad alta probabilità errore o downtime, e questo può influire negativamente sulla delivery di applicazioni e servizi, sulla soddisfazione dei clienti e sui profitti.
Una stima efficace dell'MTTF può contribuire ad aumentare notevolmente l'affidabilità di un sistema. Sapendo quando una risorsa rischia di guastarsi, è possibile sostituirla prima che succeda. Per aumentare l'MTTF al fine di migliorare l'affidabilità sono disponibili anche altri strumenti:
Vediamo ora alcuni esempi di MTTF basso, medio ed elevato, per una serie di dispositivi diversi con una durata massima prevista di 20.000 ore.
Il Dispositivo 1 ha una durata di 15.000 ore, il Dispositivo 2 ha una durata di 19.000 ore, il Dispositivo 3 ha una durata di 18.000 ore e il Dispositivo 4 ha una durata di 20.000 ore.
Numero totale dei dispositivi = 4
Tempo totale di funzionamento = (15.000 + 19.000 + 18.000 + 20.000) = 72.000 ore
MTTF = 72.000 / 4 = 18.000 ore
Il Dispositivo 1 ha una durata di 9.000 ore, il Dispositivo 2 ha una durata di 11.000 ore, il Dispositivo 3 ha una durata di 15.000 ore e il Dispositivo 4 ha una durata di 19.000 ore.
Numero totale dei dispositivi = 4
Tempo totale di funzionamento = (9.000 + 11.000 + 15.000 + 19.000) = 54.000 ore
MTTF = 54.000 / 4 = 13.500 ore
Il Dispositivo 1 ha una durata di 10.000 ore, il Dispositivo 2 ha una durata di 11.000 ore, il Dispositivo 3 ha una durata di 8.000 ore e il Dispositivo 4 ha una durata di 9.000 ore.
Numero totale dei dispositivi = 4
Tempo totale di funzionamento = (10.000 + 11.000 + 8.000 + 9.000) = 38.000 ore
MTTF = 38.000 / 4 = 9.500 ore
L'MTTF è una metrica di affidabilità che risulta utile in diverse aree della tecnologia, come la sicurezza informatica, la risposta agli incidenti e DevOps.
Per evento di sicurezza informatica si intende qualsiasi cosa che si discosta dal normale comportamento del sistema, dai messaggi e-mail o ai download di software sospetti. Anche un evento innocuo può comportare comunque un rischio di compromissione del sistema. Nel caso della sicurezza informatica, l'MTTF indica che i meccanismi di sicurezza non sono riusciti a prevenire un attacco.
La risposta agli incidenti è costituita dalle misure adottate dai professionisti IT per rispondere agli incidenti di sicurezza, come un attacco informatico riuscito.
Nel caso della risposta agli incidenti, l'MTTF indica il tempo per cui un sistema infetto può continuare a funzionare prima di arrestarsi. Questo consente al team di determinare il tempo disponibile per eseguire il failover o adottare le misure di sicurezza aggiuntive necessarie al fine di prevenire ulteriori danni o perdite.
Ai fini della metodologia DevOps, il monitoraggio dell'MTTF può aiutare i team a determinare l'affidabilità del deployment di un determinato sistema o applicazione. L'MTTF può indicare ad esempio il tempo medio fra il rilevamento di un difetto in un sistema o in un'applicazione e il momento in cui diventa inutilizzabile, aiutando i team DevOps a prepararsi per gli errori di sistema critici.
Per calcolare l'MTTF e le altre metriche di affidabilità ai fini della sicurezza informatica, della risposta agli incidenti e delle metodologie DevOps, sono necessarie enormi quantità di dati storici e in tempo reale. Gli strumenti di osservabilità e monitoraggio hanno bisogno di un rapidissimo storage a performance elevate per supportare le query complesse e l'elaborazione dei dati in tempo reale.
Pure Storage® FlashBlade® è la soluzione di storage all-flash più avanzata del settore per l'elaborazione rapida dei dati di file e oggetti. FlashBlade fornisce i livelli di velocità e performance necessari per raccogliere metriche MTTF di alta qualità.
Hai domande o commenti sui prodotti o sulle certificazioni di Pure? Siamo qui per aiutarti.
Prenota una demo per vedere come puoi trasformare i tuoi dati in risultati concreti con Pure.
Telefono: +39 02 9475 9422
Media: pr@purestorage.com
Pure Storage Italia
Spaces c/o Bastioni di Porta Nuova, 21
Milano, 20121