¿Cuál es el tiempo medio de restauración (MTTR)?

El tiempo medio de restauración (a veces llamado tiempo medio de recuperación), o MTTR, describe el tiempo promedio de recuperación de una implementación fallida, incidente o interrupción del servicio. Mide el tiempo desde la detección de un incidente o una interrupción hasta que se restaura toda la funcionalidad del sistema.

MTTR es una métrica de alto nivel que lo ayuda a medir la velocidad de su proceso de recuperación e indica la rapidez con la que su sistema puede recuperarse de una falla. En términos generales, MTTR generalmente se relaciona con incidentes no planificados, en lugar de solicitudes de servicio.

Tiempo medio de restauración frente a resolución: ¿Cuál es la diferencia?

El tiempo medio de restauración se refiere al tiempo promedio que lleva recuperarse de una falla de un producto o servicio, pero no incluye el tiempo adicional que lleva garantizar que el incidente no vuelva a ocurrir.

Por otro lado, el tiempo promedio para resolverlo es el tiempo promedio necesario para restaurar un sistema por completo, incluido el tiempo para solucionar el problema y completar cualquier trabajo adicional necesario para evitar que el problema vuelva a ocurrir. Esto puede incluir la detección de fallas, el diagnóstico, la restauración y las medidas proactivas adoptadas para fortalecer el sistema contra fallas similares en el futuro.

Como resultado, el tiempo medio de resolución proporciona información sobre el alcance completo necesario para resolver el problema más allá del tiempo de inactividad real, lo que extiende la responsabilidad del equipo más allá de simplemente solucionar el problema para mejorar el rendimiento a largo plazo del sistema.

Cómo calcular el tiempo medio de restauración

El tiempo medio de restauración se calcula sumando el tiempo de inactividad total durante un período de tiempo específico y dividiéndolo por el número total de incidentes dentro de ese período de tiempo.

MTTR = suma de todo el tiempo para resolver períodos/cantidad de incidentes

Por ejemplo, imagine que su sistema falla tres veces en dos semanas. Si el primer incidente tomara dos horas en restaurarse, el segundo incidente tomara cuatro horas y el tercer incidente tomara seis horas para un total de 12 horas, el MTTR para ese período de dos semanas sería:

MTTR = 12 horas de tiempo de inactividad total/3 incidentes

MTTR = 4 horas

¿Cuál es un buen momento para restaurar?

Las interrupciones del sistema y el tiempo de inactividad afectan en gran medida la experiencia del cliente, por lo que es importante que MTTR sea lo más breve posible. Un MTTR más alto significa que la organización y sus clientes tienen más probabilidades de experimentar un tiempo de inactividad significativo y frecuente, lo que puede provocar quejas, cancelaciones y no renovaciones.

Un buen MTTR está directamente relacionado con la rapidez con la que puede detectar e identificar la causa raíz de un problema (el tiempo medio de detección o MTTD). Cuanto más tarde en identificar un problema, más tiempo le llevará restaurar el sistema a su funcionamiento completo.

Una MTTD baja es la clave para reducir el MTTR y mejorar otras métricas de confiabilidad. Si disminuye el tiempo necesario para detectar un problema, también disminuye el tiempo hasta su resolución. La observabilidad y el monitoreo continuo desempeñan un papel importante en la alerta a los equipos sobre problemas y la reducción rápida de MTTD.

Además del monitoreo, estas son otras formas de reducir el MTTR:

Desarrolle un plan de gestión de incidentes claramente documentado que permita a los equipos saber cómo gestionar un incidente, desde la primera alerta hasta el momento en que el sistema reanude el funcionamiento completo.
Use herramientas automatizadas para asignar responsabilidades, crear documentos, capturar análisis y administrar configuraciones.
Defina y asigne claramente las funciones y responsabilidades del equipo para que todos sepan qué hacer cuando ocurre un incidente.
Realice informes post mortem sobre incidentes pasados para investigar y documentar los detalles específicos de cada problema, cómo sucedió y cómo evitarlo en el futuro.

Cómo calcular el tiempo medio de resolución

El tiempo medio de resolución (MTTR) difiere del tiempo medio de restauración porque incluye cualquier tiempo adicional dedicado a evitar que ocurran problemas similares en el futuro.

Para calcular el MTTR, agregue el tiempo total que lleva restaurar el sistema, incluido el tiempo adicional para asegurarse de que el problema no vuelva a ocurrir, y divida este número por el número total de incidentes. Piense de esta manera:

MTTR = tiempo total de restauración de incidentes + tiempo adicional dedicado a garantizar que el problema no vuelva a ocurrir/cantidad de incidentes

Imagine que su sistema falla dos veces en un período de 48 horas. El primer incidente dura una hora y el segundo dura dos horas. Luego, el equipo pasa tres horas adicionales fortaleciendo los sistemas para evitar que los problemas vuelvan a ocurrir, lo que da como resultado un total de seis horas.

MTTR = (1 + 2 + 3) horas/2 incidentes

MTTR = 3 horas

¿Cuál es un buen momento para resolver?

Dado que la reducción de la MTTD reduce el tiempo medio de restauración, las mismas acciones también afectarán el tiempo de resolución completa (tiempo medio de resolución).

También se puede enfocar en mejorar la rapidez con la que el equipo puede implementar medidas preventivas. El post mortem del tiempo medio para restaurar el proceso, por ejemplo, será especialmente útil aquí, ya que un análisis profundo del problema puede revelar resultados útiles que se pueden aplicar a las actividades de seguimiento.

¿Quién debe usar MTTR y cuándo?

En general, MTTR es una buena métrica para evaluar la velocidad de su proceso de recuperación en varias áreas de la tecnología. Debe usar MTTR cuando desee mejorar el tiempo promedio que su equipo tarda en reparar los activos.

Cómo usar MTTR en ciberseguridad

El MTTR en ciberseguridad se refiere al tiempo que le lleva al equipo volver a poner en funcionamiento el sistema después de una violación de la ciberseguridad. De esta manera, muestra la rapidez con la que su equipo de seguridad puede devolver el sistema y los clientes afectados a sus operaciones normales.

En los equipos de ciberseguridad, el reloj MTTR generalmente comienza cuando se alerta al equipo sobre una falla del sistema debido a un ciberataque.

Aquí, el proceso de restauración puede implicar varios pasos, incluida la contención (para detener la propagación de la amenaza), la eliminación real de la amenaza y la desinfección de los componentes y recursos necesarios para restaurar el sistema a la normalidad. Una vez completados todos los pasos, el sistema se considera completamente restaurado.

Cómo usar MTTR en la respuesta a incidentes

El MTTR es una métrica clave en la respuesta a incidentes porque proporciona información sobre la gravedad de un impacto y ayuda a las organizaciones a evaluar si los incidentes de tiempo de inactividad se resuelven lo suficientemente rápido.

En respuesta a incidentes, MTTR es un promedio del tiempo que transcurre entre las marcas de tiempo informadas y resueltas para un problema. Las herramientas automatizadas no solo alertan a los equipos sobre incidentes, sino que también los ayudan a colaborar y comunicarse con mayor facilidad, lo que lleva a un mejor MTTR.

Los objetivos de nivel de servicio (SLO) y los indicadores de nivel de servicio (SLI) también se pueden usar para medir la confiabilidad y disponibilidad del sistema y la satisfacción aproximada del cliente con un producto o servicio. Cuando se viola una SLO, el tiempo medio para restaurar los servicios es el tiempo total para detectar, mitigar y resolver el problema hasta que vuelva a cumplir con la SLO.

Cómo usar MTTR en DevOps

En DevOps , MTTR puede representar el tiempo promedio necesario para restaurar una aplicación después de una falla de producción. La medición de MTTR ayuda a los equipos a garantizar la resistencia y estabilidad del sistema, además de determinar dónde se puede mejorar el proceso de respuesta.

En DevOps , la medición de MTTR a menudo implica el uso de sistemas de monitoreo para registrar el inicio de un incidente y cuándo se resolvió (por ejemplo, el tiempo para revertir un cambio o lanzamiento después de que haya llegado a la producción).

MTTR también puede evaluar el rendimiento del equipo de DevOps. Cuanto más bajo sea el MTTR de un equipo de DevOps, mejor. El informe Accelerate State of DevOps 2021 identifica cuatro categorías de rendimiento para los equipos de DevOps:

Elite: Menos de una hora
Alto: Menos de 24 horas
Medio: Menos de una semana
Bajo: Una semana o más

Un MTTR más rápido produce tasas de falla más bajas, entrega más rápida y una mayor satisfacción del usuario. A medida que crece la madurez de DevOps, el MTTR debería disminuir cada vez más.

¿Qué herramientas necesita para monitorear los MTTR?

Para mejorar el MTTR, debe poder detectar rápidamente las fallas del sistema. Las herramientas de monitoreo continuo, como Prometheus y Grafana, así como las herramientas populares de monitoreo del rendimiento de las aplicaciones, como Datadog , Splunk y Dynatrace, pueden ayudarlo a recopilar métricas de MTTR.

Estos sistemas utilizan una gran cantidad de datos históricos y en tiempo real para ayudarlo a diagnosticar y analizar problemas más rápidamente. Sin embargo, para respaldar sus consultas complejas y el procesamiento en tiempo real, necesitará las velocidades de rendimiento ultrarrápidas que puede proporcionar el almacenamiento basado íntegramente en tecnología flash.

Pure Storage ofrece varias soluciones de almacenamiento de datos basadas íntegramente en tecnología flash que proporcionan un rendimiento masivo y un rendimiento consistente. FlashBlade ® es una plataforma de almacenamiento de objetos y archivos de alto rendimiento que ofrece la velocidad y el rendimiento necesarios para la aplicación y las herramientas de monitoreo que admiten MTTD y MTTR más rápidos.

¿Cuál es la siguiente métrica después de MTTR?

Si bien el MTTR es un poderoso indicador de su capacidad para reaccionar rápidamente a los problemas, existen otras métricas de confiabilidad importantes que también debe monitorear. Obtenga más información sobre otro cálculo crítico: tiempo medio antes de la falla (MTBF).