¿Qué es el MTBF y cómo se calcula?

El tiempo medio entre fallos, o MTBF, es el tiempo medio que transcurre entre dos fallos reparables de un producto o un sistema. Se trata de una métrica clave para determinar la frecuencia de los fallos del sistema y para proporcionar una visión global de la fiabilidad de dicho sistema.

El MTBF puede utilizarse para determinar cuál es el nivel de éxito de su equipo a la hora de evitar o de reducir los posibles incidentes. Cuanto mayor es el tiempo entre fallos, más fiable es el sistema.

¿Qué mide el MTBF? Fiabilidad versus disponibilidad

El MTBF es importante para hacer un seguimiento de la fiabilidad y de la disponibilidad de un componente o sistema.

La fiabilidad es la probabilidad de que un sistema o un componente funcionen tal como fueron diseñados durante un periodo concreto sin fallos. El MTBF es una medición básica de la fiabilidad de un sistema —cuanto más alto es el MTBF, mayor es la fiabilidad del producto—. El uso del MTBF junto con otras métricas y estrategias de mantenimiento facilita la predicción de los fallos de un activo, ya que los equipos pueden determinar mejor cómo y cuándo implementar medidas preventivas antes de que se produzca un fallo.

La disponibilidad es la capacidad de un sistema o un componente para operar según su diseño cuando es necesario. El MTBF combinado con el tiempo medio de restauración (MTTR) puede determinar la probabilidad de que un sistema falle dentro de un periodo de tiempo concreto. La disponibilidad de un sistema puede calcularse dividiendo el MTBF entre la suma del MTTR y el MTBF.

Disponibilidad = MTBF / (MTBF + MTTR)

Cómo calcular el MTBF: fórmula detallada paso a paso

El MTBF se calcula dividiendo el tiempo total de funcionamiento durante un periodo específico entre el número de fallos que se han producido en ese mismo periodo. Se calcula de la siguiente manera:

Para determinar el tiempo total de funcionamiento de un sistema, tendrá que monitorizar dicho sistema durante un periodo específico.

El tiempo total de funcionamiento es el tiempo que el sistema ha estado operando sin fallos.
El número total de fallos es el número de veces que el sistema ha fallado dentro de ese periodo específico.

A modo de ejemplo, pongamos que, durante un periodo de 24 horas, un sistema experimenta tres horas de inactividad repartidas en tres incidentes separados.

Tiempo total de actividad = (24 - 3) = 21 horas
Número total de incidentes = 3
MTBF = tiempo total de actividad / número de incidentes
MTBF = 21/3 = 7 horas

Cómo calcular el MTBF a partir de la tasa de fallos

Tal como se ha descrito más arriba, el MTBF puede calcularse dividiendo el tiempo total de actividad entre el número de fallos registrados. La tasa de fallos, por su parte, es lo contrario del MTBF y se calcula dividiendo el número de fallos entre el tiempo total de actividad.

El MTBF puede calcularse a partir de la tasa de fallos del modo siguiente: MTBF = 1 / tasa de fallos

Por ejemplo:

Tasa de fallos = 25 fallos / 1000 horas de actividad
Tasa de fallos = 0,025
MTBF = 1 / 0,025
MTBF = 40

¿Qué es un buen MTBF?

El tiempo entre fallos de un sistema o un componente puede depender de factores como las configuraciones, las condiciones de funcionamiento, la antigüedad y otros factores externos, por lo tanto, no hay una métrica de MTBF “buena”. En lugar de ello, debe calcular el MTBF para sus activos concretos y la precisión del MTBF aumentará a medida que recoja más datos de dichos activos.

¿Qué significa un MTBF alto?

Evidentemente, aunque no hay un objetivo de MTBF universalmente aceptado, es verdad que cuanto más alto sea el MTBF, mejor. Un MTBF alto muestra que su sistema o su componente es muy fiable y que tendrá menos problemas a lo largo de su vida útil —y el hecho de tener menos incidentes tiende a traducirse en unos tiempos de inactividad más bajos y unos costes menores—.

¿Qué significa un MTBF bajo?

Un MTBF bajo significa que su sistema es probable que falle con frecuencia y que hay que revisar su fiabilidad. Un buen plan de mantenimiento preventivo y la implementación de herramientas de monitorización del MTBF y de otras métricas de fallos pueden ayudarle a mejorar la fiabilidad del sistema.

Ejemplos de cálculo del MTBF

A continuación, le presentamos unos ejemplos de MTBF bajo, medio y alto referidos a un sistema de producción que ha estado en funcionamiento durante un periodo de 30 días.

MTBF bajo

Pongamos que el sistema se ha desactivado seis veces en 30 días (720 horas), cuatro horas cada vez, lo que hace un total de 24 horas de tiempo de interrupción.

Tiempo total de actividad = (720 - 24) = 696 horas
Número total de incidentes = 6
MTBF = tiempo total de actividad / número de incidentes
MTBF = 696 / 6 = 116 horas (aproximadamente 5 días)

Una interrupción cada cinco días nos indica que se trata de un sistema muy poco fiable, que afectará con frecuencia al funcionamiento de la empresa y a los clientes.

MTBF medio

Ahora, imaginemos que el sistema solo se desactiva dos veces en el mismo periodo de 30 días (720 horas), dos horas cada vez, lo que supone un tiempo de interrupción total de cuatro horas.

Tiempo total de actividad = (720 - 4) = 716 horas
Número total de incidentes = 2
MTBF = tiempo total de actividad / número de incidentes
MTBF = 716 / 2 = 358 horas (aproximadamente 15 días)

Si bien no se trata de un MTBF muy alto, un fallo cada 15 días puede ser aceptable para algunos casos de uso empresariales.

MTBF alto

Por último, pensemos en un sistema que solo deja de estar disponible una vez en 30 días (720 horas) durante dos horas.

Tiempo total de actividad = (720 - 2) = 718 horas
Número total de incidentes = 1
MTBF = tiempo total de actividad / número de incidentes
MTBF = 718 / 1 = 718 horas (aproximadamente 30 días)

Comparado con los dos otros escenarios descritos más arriba, un fallo cada 30 días puede considerarse un MTBF alto, lo que indica que estamos ante un sistema muy fiable.

Cómo calcular el MTBF: tres escenarios

El MTBF es una métrica de fiabilidad útil en varios ámbitos tecnológicos. Pensemos en algunos escenarios de ciberseguridad, respuesta a incidentes y DevOps.

El cálculo del MTBF en la ciberseguridad

En la ciberseguridad, el MTBF puede indicar que un sistema está llegando al final de su vida útil y que el riesgo de que se produzca una interrupción crítica está aumentando.

Por ejemplo, imagine que observamos un sistema de ciberseguridad durante un periodo de 48 horas. Durante ese tiempo, el sistema falla cinco veces, lo que supone un tiempo total de inactividad de ocho horas o un tiempo total de funcionamiento de 40 horas.

MTBF = 40 / 5 = 8 horas

El mes siguiente, observamos de nuevo el sistema durante 48 horas. Esta vez, hay ocho fallos y un tiempo total de inactividad de 12 horas o un tiempo total de funcionamiento de 36 horas. Ahora, el MTBF del sistema es de 4,5 horas.

MTBF = 36 / 8 = 4,5 horas

Si el MTBF continúa cayendo durante las observaciones posteriores, puede ser un indicador de que un área del sistema —o el sistema completo— tiene que cambiarse o reforzarse.

El cálculo del MTBF en la respuesta a incidentes

El MTBF también puede ayudar a determinar lo efectivo que es su equipo de respuesta a los incidentes a la hora de minimizar y evitar los incidentes. Si el MTBF es demasiado bajo o tiende a disminuir, el equipo debería analizar los datos de los incidentes para descubrir las interrupciones recurrentes y las tendencias preocupantes.

El cálculo del MTBF en DevOps

El MTBF en DevOps es una medida de la frecuencia de los fallos de una característica o de un componente concreto y permite que los equipos predigan los niveles de fiabilidad y disponibilidad de un servicio. Por lo tanto, puede poner de relieve los puntos débiles del diseño de un componente o del proceso de prueba y mantenimiento.

Con la supervisión del MTBF, los equipos de DevOps pueden descubrir y eliminar las ineficiencias y los cuellos de botella que podrían provocar un fallo, mejorando los procesos y la infraestructura del sistema. A medida que los equipos realizan mejoras, el MTBF aumenta, lo que indica que el sistema es más fiable.

Por ejemplo, supongamos que el trabajo total para un proceso de integración de código durante cinco días ha sido de 100 horas. Durante la semana, se producen cuatro fallos.

Tiempo total de funcionamiento = 100 horas
Número total de fallos = 4
MTBF = tiempo total de funcionamiento / número de fallos
MTBF = 100 / 4 = 25 horas

¿Qué herramientas necesita para supervisar el MTBF?

Con las herramientas adecuadas, puede dar un impulso al MTBF y a otras métricas de mantenimiento. Estas incluyen las herramientas de supervisión de la infraestructura, las de supervisión del servicio, las herramientas de visualización, las de supervisión del rendimiento de la aplicación, las herramientas multiplataforma y de agregación de datos y las herramientas de gestión de proyectos.

Sin embargo, todas estas herramientas necesitan un almacenamiento rápido y de alto rendimiento, que pueda manejar cantidades enormes de datos, manteniendo al mismo tiempo un rendimiento máximo. Con FlashBlade® de Pure Storage®, puede crear una solución de almacenamiento resistente y de alto rendimiento, para admitir las herramientas avanzadas de supervisión y observabilidad que necesita para ayudar a impulsar sus métricas de MTBF.

¿Cuál es la métrica siguiente después del MTBF?

Tanto el MTBF como el tiempo medio hasta un fallo (MTTF) se utilizan para medir el tiempo para evaluar el rendimiento de un sistema o un componente, aunque se aplican de un modo distinto.

Más información sobre el MTTF.