¿Qué es el tiempo medio de restauración (MTTR)?

El tiempo medio de restauración (a veces llamado tiempo medio de recuperación), o MTTR, describe el tiempo medio necesario para recuperarse de una implementación que haya dado error, de un incidente o de una interrupción del servicio. Mide el tiempo que pasa desde la detección de un incidente o una interrupción hasta que se restaura la plena funcionalidad del sistema.

El MTTR es una métrica de alto nivel que le ayuda a medir la velocidad de su proceso de recuperación y que le indica lo rápido que su sistema puede recuperarse de un fallo. En términos generales, el MTTR suele referirse a los incidentes imprevistos y no a las solicitudes de servicio.

Tiempo medio de restauración y tiempo medio de resolución: ¿cuál es la diferencia?

El tiempo medio de restauración se refiere al tiempo medio que se tarda en recuperarse de un fallo en un producto o servicio, pero no incluye el tiempo adicional necesario para garantizar que el incidente no se vuelva a producir.

El tiempo medio de resolución, por su parte, es el tiempo medio necesario para restaurar un sistema por completo, incluido el tiempo para solucionar el problema y para completar cualquier trabajo adicional que haya que realizar para evitar que dicho problema vuelva a producirse. Esto puede incluir la detección del fallo, el diagnóstico, la restauración y las medidas proactivas que se tomen para hacer que el sistema sea más resistente a fallos similares en el futuro.

Debido a ello, el tiempo medio de resolución proporciona información sobre el tiempo total necesario para resolver el problema, más allá de la propia interrupción, y amplía la responsabilidad del equipo, que pasa de la simple solución del problema a incluir también la mejora del rendimiento a largo plazo del sistema.

Cómo calcular el tiempo medio de restauración

El tiempo medio de restauración se calcula sumando el tiempo de inactividad total en un periodo específico y dividiéndolo por el número total de incidentes dentro de dicho periodo.

MTTR = suma de todos los periodos de tiempo de resolución / número de incidentes

Por ejemplo, imagine que su sistema se desactiva tres veces en dos semanas. Si el primer incidente ha tardado dos horas en restaurarse, el segundo ha tardado cuatro horas y el tercero ha tardado 6 horas, lo que da un total de 12 horas, el MTTR para ese periodo de dos semanas será:

MTTR = 12 horas de tiempo de inactividad total / 3 incidentes

MTTR = 4 horas

¿Qué es un buen tiempo medio de restauración?

Las interrupciones y los tiempos de inactividad del sistema afectan gravemente a la experiencia del cliente, así que es importante que el MTTR sea lo más corto posible. Un MTTR más alto significa que es más probable que la organización y sus clientes sufran periodos de inactividad importantes y frecuentes, lo que puede generar quejas, cancelaciones y no renovaciones.

Un buen MTTR está relacionado directamente con la rapidez para detectar e identificar la causa subyacente de un problema (el tiempo medio de detección o MTTD). Cuanto más tarde en identificar un problema, más tiempo le costará restaurar el sistema para que esté plenamente operativo.

Un MTTD bajo es la clave para reducir el MTTR y mejorar otras métricas de fiabilidad. Si reduce el tiempo necesario para detectar un problema, también disminuye el tiempo que transcurre hasta su resolución. La observabilidad y la supervisión continua desempeñan un papel importante para avisar a los equipos de los problemas y reducir rápidamente el MTTD.

Aparte de la supervisión, aquí tiene otras maneras de reducir el MTTR:

Desarrollar un plan de gestión de los incidentes claramente documentado, que permita que los equipos sepan cómo gestionar un incidente, desde la primera alerta hasta el momento en que el sistema recupera su pleno funcionamiento.
Usar herramientas automatizadas para asignar responsabilidades, crear documentos, capturar analíticas y administrar las configuraciones.
Definir y asignar claramente las funciones y las responsabilidades del equipo, para que todo el mundo sepa qué hacer cuando se produzca un incidente.
Realizar exámenes posteriores de los incidentes pasados para investigar y documentar los detalles de cada problema, el modo en que se ha producido y cómo se puede evitar en el futuro.

Cómo calcular el tiempo medio de resolución

El tiempo medio de resolución (MTTR) difiere del tiempo medio de restauración porque incluye cualquier tiempo adicional dedicado a evitar que en el futuro se produzcan otros problemas similares.

Para calcular el MTTR, hay que sumar todo el tiempo que se ha tardado en restaurar el sistema, incluyendo el tiempo adicional necesario para garantizar que el problema no vuelva a producirse, y dividir dicha cifra entre el número total de incidentes. La fórmula es la siguiente:

MTTR = tiempo total de restauración del incidente + tiempo adicional dedicado a garantizar que el problema no vuelva a producirse / número de incidentes

Imagine que su sistema se desactiva dos veces en un periodo de 48 horas. El primer incidente dura una hora y el segundo dos horas. Luego, el equipo dedica tres horas más a reforzar los sistemas para evitar que los problemas vuelvan a producirse, lo que da un total de seis horas.

MTTR = (1 + 2 + 3) horas / 2 incidentes

MTTR = 3 horas

¿Qué es un buen tiempo medio de resolución?

Como la disminución del MTTD reduce el tiempo medio de restauración, las mismas acciones también afectarán al tiempo necesario para completar la resolución (el tiempo medio de resolución).

También es posible centrarse en mejorar la rapidez de implementación de las medidas preventivas por parte del equipo. El examen posterior del proceso del tiempo medio de restauración, por ejemplo, será especialmente útil en este caso, ya que un análisis en profundidad del problema puede proporcionar información importante que puede aplicarse a las actividades de seguimiento.

¿Quién debería usar el MTTR y cuándo?

En general, el MTTR es una buena métrica para evaluar la velocidad de su proceso de recuperación en varios ámbitos tecnológicos. Debería usar el MTTR cuando quiera mejorar el tiempo medio que su equipo tarda en reparar los recursos.

Cómo usar el MTTR en la ciberseguridad

El MTTR en la ciberseguridad se refiere al tiempo que un equipo tarda en lograr que un sistema esté de nuevo activo y en funcionamiento después de una vulneración de la ciberseguridad. Es decir, le indica la rapidez con que su equipo de seguridad puede hacer que el sistema y los clientes afectados estén de nuevo operando normalmente.

Para los equipos de ciberseguridad, el reloj del MTTR suele ponerse en marcha cuando el equipo recibe el aviso de que se ha producido un fallo en el sistema debido a un ciberataque.

En este caso, el proceso de restauración puede comprender varios pasos, incluidos la contención (para detener la expansión de la amenaza), la eliminación efectiva de la amenaza y el saneamiento de los componentes y recursos necesarios para devolver el sistema a su estado normal. Una vez completados todos los pasos, se considera que el sistema está totalmente restaurado.

Cómo usar el MTTR en la respuesta a incidentes

El MTTR es una métrica clave para la respuesta a los incidentes, porque proporciona información sobre la gravedad del impacto y ayuda a las organizaciones a evaluar si los incidentes que causan un tiempo de inactividad se resuelven lo bastante deprisa.

En la respuesta a los incidentes, el MTTR es un promedio del tiempo que transcurre entre la hora de registro del aviso y la de resolución del problema. Las herramientas automatizadas no solo avisan a los equipos de los incidentes, sino que también les ayudan a colaborar y a comunicarse más fácilmente, lo que permite una mejora del MTTR.

Los objetivos de nivel de servicio (SLO por sus siglas en inglés) y los indicadores de nivel de servicio (SLI por sus siglas en inglés) también pueden utilizarse para medir la fiabilidad y la disponibilidad de un sistema y la satisfacción aproximada del cliente con un producto o servicio. Cuando se infringe un SLO, el tiempo medio de restauración de los servicios es el tiempo total necesario para detectar, mitigar y resolver el problema hasta que se cumple de nuevo el SLO.

Cómo usar el MTTR en el DevOps

En el DevOps, el MTTR puede representar el tiempo medio necesario para restaurar una aplicación tras un fallo de producción. La medición del MTTR ayuda a los equipos a garantizar que el sistema es resiliente y estable y además permite determinar dónde puede mejorarse el proceso de respuesta.

En el DevOps, para medir el MTTR, con frecuencia hay que usar sistemas de monitorización para registrar el inicio de un incidente y el momento de su resolución (por ejemplo, la hora de reversión de un cambio o de lanzamiento una vez que ha llegado a producción).

El MTTR también puede evaluar el rendimiento del equipo de DevOps. Cuanto menor sea el MTTR de un equipo de DevOps, mejor será el equipo. El informe Accelerate State of DevOps 2021 identifica cuatro categorías de rendimiento para los equipos de DevOps:

Élite: menos de una hora
Alto: menos de 24 horas
Medio: menos de una semana
Bajo: más de o igual a una semana

Un MTTR más rápido supone un menor índice de fallos, unos plazos de entrega más rápidos y una mejora de la satisfacción del usuario. A medida que aumenta el nivel de madurez del DevOps, el MTTR tiene que ir cayendo.

¿Qué herramientas necesita para supervisar los MTTR?

Para mejorar el MTTR tiene que ser capaz de detectar los fallos del sistema rápidamente. Las herramientas de supervisión continua, como Prometheus y Grafana, así como las herramientas populares de monitorización del rendimiento de las aplicaciones, como Datalog, Splunk y Dynatrace, pueden ayudarle a recopilar las métricas del MTTR.

Estos sistemas utilizan una gran cantidad de datos en tiempo real e históricos, para ayudarle a diagnosticar y analizar los problemas más rápidamente. Sin embargo, para soportar sus consultas complejas y su procesamiento en tiempo real, necesitará unas velocidades de rendimiento ultrarrápidas, que solo el almacenamiento totalmente flash puede proporcionar.

Pure Storage le ofrece varias soluciones de almacenamiento de datos totalmente flash que proporcionan un caudal enorme y un rendimiento constante y adecuado. FlashBlade® es una plataforma de almacenamiento de archivos y objetos de alto rendimiento, que proporciona la velocidad y el rendimiento que necesitan las herramientas de las aplicaciones y de supervisión que le permitirán lograr un MTTD y un MTTR más rápidos.

¿Cuál es la métrica siguiente después del MTTR?

El MTTR es un indicador potente de su capacidad para reaccionar a los problemas con rapidez, pero existen otras métricas importantes de la fiabilidad que también debería controlar. Obtenga más información sobre otro cálculo crítico: el tiempo medio para un fallo (MTBF).