Qual é o tempo médio para restauração (MTTR)?

O tempo médio para restauração (às vezes chamado de tempo médio para recuperação), ou MTTR, descreve o tempo médio para recuperação de uma implantação, incidente ou interrupção de serviço com falha. Ele mede o tempo desde a detecção de um incidente ou interrupção até que a funcionalidade completa do sistema seja restaurada.

O MTTR é uma métrica de alto nível que ajuda a medir a velocidade do processo de recuperação e indica a rapidez com que o sistema pode se recuperar de falhas. De modo geral, o MTTR normalmente se relaciona a incidentes não planejados, em vez de solicitações de serviço.

Tempo médio para restauração x solução: qual é a diferença?

Tempo médio para restauração refere-se ao tempo médio que leva para se recuperar de uma falha de produto ou serviço, mas não inclui tempo adicional para garantir que o incidente não aconteça novamente.

O tempo médio para resolver, por outro lado, é o tempo médio necessário para restaurar um sistema completamente, incluindo o tempo para corrigir o problema e concluir qualquer trabalho adicional necessário para evitar que o problema seja recorrente. Isso pode incluir detecção de falhas, diagnóstico, restauração e etapas proativas tomadas para fortalecer o sistema contra falhas semelhantes no futuro.

Como resultado, o tempo médio para resolver fornece insights sobre o escopo completo necessário para resolver o problema além do tempo de inatividade real, ampliando a responsabilidade da equipe além de apenas corrigir o problema para melhorar o desempenho de longo prazo do sistema.

Como calcular o tempo médio para restauração

O tempo médio para restauração é calculado adicionando o tempo de inatividade total em um período específico e dividindo-o pelo número total de incidentes dentro desse período.

MTTR = soma de todo o tempo para resolver períodos/número de incidentes

Por exemplo, imagine que seu sistema cai três vezes em duas semanas. Se o primeiro incidente levasse duas horas para ser restaurado, o segundo incidente levasse quatro horas e o terceiro incidente levasse seis horas para um total de 12 horas, o MTTR para esse período de duas semanas seria:

MTTR = 12 horas de tempo de inatividade total/3 incidentes

MTTR = 4 horas

Qual é um bom momento para restaurar?

As interrupções e o tempo de inatividade do sistema afetam fortemente a experiência do cliente, por isso é importante que o MTTR seja o mais curto possível. Um MTTR mais alto significa que a organização e seus clientes estão mais propensos a experimentar tempo de inatividade significativo e frequente, o que pode levar a reclamações, cancelamentos e não renovações.

Um bom MTTR está diretamente relacionado à rapidez com que você pode detectar e identificar a causa raiz de um problema (o tempo médio para detectar, ou MTTD). Quanto mais tempo leva para identificar um problema, mais tempo leva para restaurar o sistema para a operação completa.

Um baixo MTTD é a chave para reduzir o MTTR e melhorar outras métricas de confiabilidade. Se você diminuir o tempo necessário para detectar um problema, também diminuirá o tempo até a resolução. Observabilidade e monitoramento contínuo desempenham um papel importante ao alertar as equipes sobre problemas e reduzir rapidamente a TTM.

Além do monitoramento, aqui estão algumas outras maneiras de reduzir o MTTR:

Desenvolva um plano de gerenciamento de incidentes claramente documentado que permita que as equipes saibam como gerenciar um incidente, desde o primeiro alerta até o momento em que o sistema retomar a operação completa.
Use ferramentas automatizadas para atribuir responsabilidades, criar documentos, capturar análises e gerenciar configurações.
Defina claramente e atribua funções e responsabilidades à equipe para que todos saibam o que fazer quando ocorrer um incidente.
Realize post-mortems sobre incidentes passados para investigar e documentar as especificidades de cada problema, como aconteceu e como evitá-lo no futuro.

Como calcular o tempo médio para resolver

O tempo médio para resolução (MTTR, Mean Time to Resolve) difere do tempo médio para restauração, pois inclui qualquer tempo adicional gasto na prevenção de problemas semelhantes no futuro.

Para calcular o MTTR, adicione o tempo total necessário para restaurar o sistema, incluindo tempo adicional para garantir que o problema não aconteça novamente e divida esse número pelo número total de incidentes. Pense assim:

MTTR = tempo total de restauração de incidentes + tempo adicional gasto para garantir que o problema não volte a ocorrer/número de incidentes

Imagine que seu sistema cai duas vezes em um período de 48 horas. O primeiro incidente dura uma hora e o segundo, duas horas. Em seguida, a equipe passa mais três horas endurecendo os sistemas para evitar que os problemas ocorram novamente, resultando em um total de seis horas.

MTTR = (1 + 2 + 3) horas/2 incidentes

MTTR = 3 horas

Qual é o bom momento para resolver?

Como a redução de MTTD reduz o tempo médio para restauração, as mesmas ações também afetarão o tempo para resolução completa (tempo médio para resolução).

Também é possível se concentrar em melhorar a rapidez com que a equipe pode implementar medidas preventivas. O post-mortem do tempo médio para restaurar o processo, por exemplo, será especialmente útil aqui, pois uma análise detalhada do problema pode revelar insights úteis que podem ser aplicados às atividades de acompanhamento.

Quem deve usar o MTTR e quando?

No geral, o MTTR é uma boa métrica para avaliar a velocidade do seu processo de recuperação em várias áreas da tecnologia. Você deve usar o MTTR quando quiser melhorar o tempo médio que sua equipe leva para reparar ativos.

Como usar o MTTR em cibersegurança

O MTTR em cibersegurança se refere ao tempo que a equipe leva para colocar o sistema de volta em funcionamento após uma violação de cibersegurança. Dessa forma, mostra a velocidade com que sua equipe de segurança pode retornar o sistema e os clientes afetados às operações normais.

Nas equipes de cibersegurança, o relógio MTTR normalmente começa quando a equipe é alertada sobre uma falha do sistema devido a um ataque cibernético.

Aqui, o processo de restauração pode envolver várias etapas, incluindo contenção (para impedir a disseminação da ameaça), a remoção real da ameaça e a sanitização de componentes e recursos necessários para restaurar o sistema ao normal. Depois que todas as etapas forem concluídas, o sistema será considerado totalmente restaurado.

Como usar o MTTR na resposta a incidentes

O MTTR é uma métrica essencial na resposta a incidentes porque fornece insights sobre a gravidade de um impacto e ajuda as organizações a avaliar se os incidentes de tempo de inatividade são resolvidos com rapidez suficiente.

Na resposta a incidentes, o MTTR é uma média do tempo transcorrido entre os carimbos de data/hora relatados e resolvidos para um problema. As ferramentas automatizadas não apenas alertam as equipes sobre incidentes, mas também as ajudam a colaborar e se comunicar com mais facilidade, levando a um melhor MTTR.

Os objetivos de nível de serviço (SLO, Service Level Objectives) e os indicadores de nível de serviço (SLI, Service Level Indicators) também podem ser usados para medir a confiabilidade e disponibilidade do sistema e aproximar a satisfação do cliente com um produto ou serviço. Quando um SLO é violado, o tempo médio para restaurar os serviços é o tempo total para detectar, mitigar e resolver o problema até que ele esteja novamente em conformidade com o SLO.

Como usar o MTTR em DevOps

No DevOps , o MTTR pode representar o tempo médio necessário para restaurar um aplicativo após uma falha de produção. A medição do MTTR ajuda as equipes a garantir resiliência e estabilidade do sistema, além de determinar onde o processo de resposta pode ser melhorado.

Em DevOps, medir o MTTR frequentemente envolve o uso de sistemas de monitoramento para registrar o início de um incidente e quando ele foi resolvido (por exemplo, o tempo para reverter uma alteração ou liberação depois de ter atingido a produção).

O MTTR também pode avaliar o desempenho da equipe de DevOps. Quanto menor o MTTR de uma equipe de DevOps, melhor. O relatório Accelerate State of DevOps 2021 identifica quatro categorias de desempenho para equipes de DevOps:

Elite: Menos de uma hora
Alta: Menos de 24 horas
Médio: Menos de uma semana
Baixo: Mais ou igual a uma semana

Um MTTR mais rápido resulta em menores taxas de falha, entrega mais rápida e maior satisfação do usuário. À medida que a maturidade do DevOps cresce, o MTTR deve diminuir cada vez mais.

Quais ferramentas você precisa para monitorar MTTRs?

Para melhorar o MTTR, você precisa ser capaz de detectar falhas do sistema rapidamente. Ferramentas de monitoramento contínuo, como Prometheus e Grafana, bem como ferramentas populares de monitoramento de desempenho de aplicativos, como Datadog, Splunk e Dynatrace, podem ajudar a coletar métricas de MTTR.

Esses sistemas usam uma grande quantidade de dados históricos e em tempo real para ajudar a diagnosticar e analisar problemas mais rapidamente. No entanto, para dar suporte a consultas complexas e ao processamento em tempo real, você precisará das velocidades de desempenho ultrarrápidas que o armazenamento totalmente flash pode oferecer.

A Pure Storage oferece várias soluções de armazenamento de dados totalmente flash que oferecem taxa de transferência massiva e desempenho uniforme. O FlashBlade ® é uma plataforma de armazenamento de arquivos e objetos de alto desempenho que oferece a velocidade e o desempenho necessários para as ferramentas de aplicativos e monitoramento que suportam MTTD e MTTR mais rápidos.

Qual é a próxima métrica depois do MTTR?

Embora o MTTR seja um indicador poderoso da sua capacidade de reagir aos problemas rapidamente, há outras métricas importantes de confiabilidade que você também deve monitorar. Saiba mais sobre outro cálculo crítico: tempo médio antes da falha (MTBF, mean time before failure).