¿Qué es el MTTF?

El tiempo medio hasta el fallo, o MTTF, es una métrica que mide el tiempo medio entre dos fallos no reparables de un activo tecnológico concreto, como un dispositivo, un sistema o una aplicación.

El MTTF puede ayudarle a conocer la vida útil media de un producto, un sistema o un dispositivo, incluidos las CPU, los discos duros, los dispositivos del IdC o los conmutadores de red. Esta métrica también se utiliza para comparar el rendimiento entre un sistema antiguo y uno nuevo, determinar la duración esperada de un sistema y programar el mantenimiento.

El MTTF solo registra un fallo por activo y mide la media durante un largo periodo de tiempo para muchos activos. Si aumenta el número de activos observados, se incrementará la precisión del MTTF.

El MTBF y el MTTF: ¿qué métrica utilizar?

Tanto el tiempo medio hasta el fallo como el tiempo medio para el fallo (MTBF) miden el tiempo para ayudarle a evaluar el rendimiento de un activo, pero se aplican a diferentes tipos de activos.

El MTBF y el MTTF: diferencias clave

El MTTF es el tiempo medio que un activo tarda en fallar por primera y única vez y solo se aplica a los activos que tienen que sustituirse cuando fallan. En este caso, la sustitución del activo es la única manera de resolver el problema; cuando el activo llega al MTTF, ha alcanzado su máximo de horas de funcionamiento.

El MTBF, por su parte, es el tiempo medio que un activo tarda en fallar por primera vez, lo que significa que es específico de activos que pueden repararse. Como el sistema es reparable, puede fallar de nuevo, con lo que el MTBF representa el tiempo medio entre cada fallo.

Por lo tanto, la diferencia clave entre el MTTF y el MTBF es que con el MTTF el problema solo puede solucionarse sustituyendo el activo. Con el MTBF, el problema puede resolverse reparando el activo.

Cuándo usar el MTBF

Los equipos encargados de las operaciones y la fiabilidad pueden usar el MTBF para evaluar el rendimiento de los equipos y los sistemas. Comparando el rendimiento de los equipos similares que funcionan en condiciones similares, pueden evaluar los fallos y diseñar planes de mantenimiento preventivos.

El MTBF también suele usarse para supervisar el progreso de los programas de fiabilidad. Un MTBF creciente es un indicador de que los sistemas y los equipos son cada vez más fiables.

Cómo calcular el MTTF: fórmula detallada paso a paso

El MTTF se calcula sumando la vida útil total de todos los dispositivos que está evaluando y dividiendo el resultado obtenido entre el número de dispositivos. Esta es la fórmula general:

MTTF = vida útil total de todos los dispositivos / número total de dispositivos

En primer lugar, tiene que determinar el número total de dispositivos y luego debe establecer la vida útil de cada dispositivo. Por ejemplo, pongamos que tiene tres discos duros similares en una configuración RAID y que la vida útil de cada uno de ellos es de tres, cuatro y cinco años, respectivamente.

En este caso:

Número total de dispositivos = 3
Horas totales de funcionamiento = (3 + 4 + 5) = 12 años
MTTF = 12 / 3 = 4 años

¿Qué herramientas necesita para supervisar el MTTF?

Con frecuencia se utilizan herramientas de software para medir el MTTF y otras métricas de la fiabilidad.

Estas aplicaciones de supervisión, junto con las métricas, los registros y el seguimiento —los pilares de la observabilidad— ayudan a los equipos a identificar los problemas de los sistemas y los componentes que pueden conducir más rápidamente a un fallo. Existen varias herramientas de código abierto y comerciales disponibles, entre otras, Prometheus, Datadog, Splunk y OpenTelemetry.

Los flujos de trabajo automatizados también pueden ayudar a los equipos a detectar, gestionar y resolver más rápidamente los problemas. La automatización puede usarse para avisar a los equipos adecuados de que se ha producido un problema, para documentar dicho problema y el proceso de mitigación y para pedir las piezas de repuesto.

¿Qué es un buen MTTF?

El MTTF es especialmente importante si un sistema o componente es esencial para el funcionamiento de su empresa. Cuanto más largo sea el MTTF, mejor. Un MTTF corto significa que su sistema es más propenso a los fallos y los tiempos de inactividad, lo que puede afectar a la puesta a disposición de las aplicaciones y a la prestación del servicio, a la satisfacción de los clientes y a los ingresos.

Cómo aumentar el MTTF para incrementar la fiabilidad

Una buena evaluación del MTTF puede ayudar a mejorar radicalmente la fiabilidad del sistema. Si sabe en qué momento es probable que falle un recurso, podrá sustituirlo antes de que se produzca el fallo. Estas son algunas otras maneras de aumentar el MTTF para incrementar la fiabilidad:

El mantenimiento proactivo: tenga piezas de repuesto y equipamiento disponibles, para que los equipos puedan realizar las sustituciones sin demoras. Mantenga los activos y el equipamiento en buen estado con un programa de reemplazo planificado y revise y mejore continuamente los procesos de mantenimiento preventivo.
La documentación: cuando se produzca un problema, documente su causa principal, las medidas de identificación y cualquier acción correctiva que se haya adoptado para evitar que el problema vuelva a presentarse.
La implementación de la redundancia: optimice la redundancia del hardware con el uso de conmutadores RAID redundantes y otras tecnologías para reducir el impacto de un fallo.

Ejemplos de cálculo del MTTF

Veamos unos ejemplos de MTTF bajo, medio y alto para distintos conjuntos de dispositivos, cada uno de ellos con una duración prevista de 20.000 horas o menos.

MTTF alto

El Dispositivo 1 tiene una vida útil de 15.000 horas, el Dispositivo 2 de 19.000 horas, el Dispositivo 3 de 18.000 horas y el Dispositivo 4 de 20.000 horas.

Número total de dispositivos = 4
Horas totales de funcionamiento = (15.000 + 19.000 + 18.000 + 20.000) = 72.000 horas
MTTF = 72.000 / 4 = 18.000 horas

MTTF medio

El Dispositivo 1 tiene una vida útil de 9.000 horas, el Dispositivo 2 de 11.000 horas, el Dispositivo 3 de 15.000 horas y el Dispositivo 4 de 19.000 horas.

Número total de dispositivos = 4
Horas totales de funcionamiento = (9.000 + 11.000 + 15.000 + 19.000) = 54.000 horas
MTTF = 54.000 / 4 = 13.500 horas

MTTF bajo

El Dispositivo 1 tiene una vida útil de 10.000 horas, el Dispositivo 2 de 11.000 horas, el Dispositivo 3 de 8.000 horas y el Dispositivo 4 de 9.000 horas.

Número total de dispositivos = 4
Horas totales de funcionamiento = (10.000 + 11.000 + 8.000 + 9.000) = 38.000 horas
MTTF = 38.000 / 4 = 9.500 horas

¿Quién debería usar el MTTF y cuándo?

El MTTF es una métrica de la fiabilidad que resulta útil en varios ámbitos tecnológicos, incluidos la ciberseguridad, la respuesta a incidentes y el DevOps.

Cómo usar el MTTF en la ciberseguridad

Un evento de ciberseguridad puede referirse a cualquier cosa que se aparte del comportamiento normal del sistema, como un email sospechoso o una descarga de software. El evento puede ser inofensivo, pero también puede poner en riesgo el sistema. En ciberseguridad, el MTTF mostraría que los mecanismos de seguridad han fallado y no han evitado un ataque.

Cómo usar el MTTF en la respuesta a incidentes

La respuesta a los incidentes es utilizada por los profesionales de TI para responder a los incidentes de seguridad, como un ciberataque que tiene éxito.

El MTTF en la respuesta a incidentes muestra el tiempo que puede funcionar el sistema infectado hasta que se apaga. Permite que el equipo sepa cuánto tiempo tiene para implementar las medidas de conmutación por error u otras medidas de seguridad adicionales con el fin de evitar unas mayores pérdidas o daños.

Cómo usar el MTTF en DevOps

El seguimiento del MTTF en DevOps puede ayudar a los equipos a comprender la fiabilidad de una implementación de sistema o de aplicación. Por ejemplo, el MTTF puede indicar el tiempo medio que transcurre entre la detección de un defecto en un sistema o una aplicación y su fallo completo, lo que puede ayudar a los equipos de DevOps a preparar los fallos del sistema.

El cálculo del MTTF y de otras métricas de fiabilidad para la ciberseguridad, la respuesta a incidentes y DevOps exige unas cantidades enormes de datos en tiempo real e históricos. Las herramientas de observabilidad y de supervisión necesitan un almacenamiento ultrarrápido y con un rendimiento alto, para soportar las consultas complejas y procesar los datos en tiempo real.

FlashBlade® de Pure Storage® es la solución de almacenamiento all-flash más avanzada del sector para consolidar los datos de los archivos y los objetos rápidos. FlashBlade proporciona los niveles de velocidad y rendimiento que necesita para recopilar unas métricas MTTF de calidad.