Unificado, automatizado e pronto para transformar dados em inteligência.
Ontdek hoe u de ware waarde van uw gegevens kunt ontsluiten.
O tempo médio entre falhas, ou MTBF, é o tempo médio entre falhas reparáveis de um produto ou sistema. É uma métrica essencial para determinar a frequência de falhas do sistema e fornecer uma visão geral da confiabilidade do sistema.
O MTBF pode ser usado para determinar o sucesso da sua equipe na prevenção ou redução de possíveis incidentes. Quanto maior o tempo entre falhas, mais confiável é o sistema.
O MTBF desempenha um papel no acompanhamento da confiabilidade e disponibilidade de um componente ou sistema.
Confiabilidade é a probabilidade de um sistema ou componente funcionar conforme projetado durante um período específico sem falha. O MTBF é uma medida básica da confiabilidade de um sistema. Quanto maior o MTBF, maior a confiabilidade do produto. Usar o MTBF com outras métricas de falha e estratégias de manutenção facilita a previsão de falhas de ativos, pois as equipes podem determinar melhor como e quando implementar medidas preventivas antes que ocorra uma falha.
Disponibilidade é a capacidade de um sistema ou componente operar conforme projetado quando necessário. O MTBF combinado com o tempo médio de restauração (MTTR, mean time to restore) pode determinar a probabilidade de um sistema falhar dentro de um determinado período. A disponibilidade de um sistema pode ser calculada dividindo o MTBF pela soma do MTTR e do MTBF.
Disponibilidade = MTBF / (MTBF + MTTR)
O MTBF é calculado dividindo o tempo operacional total para um período específico pelo número de falhas durante o mesmo período. Veja como ele é calculado:
Para determinar o tempo operacional total de um sistema, você precisará monitorá-lo por um período específico.
Como exemplo, digamos que durante um período de 24 horas, um sistema experimenta três horas de tempo de inatividade que ocorrem durante três incidentes separados.
Conforme descrito acima, o MTBF pode ser calculado dividindo o tempo de atividade total pelo número de falhas registradas. A taxa de falha, por outro lado, é o inverso do MTBF e é calculada dividindo o número de falhas pelo tempo de atividade total.
O MTBF pode ser calculado a partir da taxa de falha da seguinte forma: MTBF = 1/taxa de falha
Por exemplo:
Como o tempo entre falhas de um sistema ou componente pode depender de fatores como configurações, condições de operação, idade e outros fatores externos, não há uma métrica de MTBF “boa”. Em vez disso, o MTBF deve ser calculado para seus ativos específicos e se tornará mais preciso à medida que você coletar mais dados sobre eles.
É claro que, embora possa não haver um MTBF alvo universalmente aceito, quanto maior o MTBF, melhor. Um MTBF alto mostra que seu sistema ou componente é altamente confiável e terá menos problemas ao longo de sua vida útil, e ter menos incidentes tende a se traduzir em tempo de inatividade reduzido e custos menores.
Um MTBF baixo significa que seu sistema provavelmente falhará com mais frequência e a confiabilidade do sistema precisa ser revisada. Um bom plano de manutenção preventiva e a implementação de ferramentas para monitorar o MTBF e outras métricas de falha podem ajudar a melhorar a confiabilidade do sistema.
Em seguida, vamos considerar alguns exemplos de MTBF baixo, médio e alto relacionados a um sistema de produção operando ao longo de 30 dias.
Digamos que o sistema caia seis vezes em 30 dias (720 horas) por quatro horas cada vez, por um tempo total de interrupção de 24 horas.
Uma interrupção a cada cinco dias indica um sistema extremamente não confiável que frequentemente afetará as operações comerciais e os clientes.
Agora, imagine que o sistema só cai duas vezes dentro dos mesmos 30 dias (720 horas) por duas horas cada vez, por um tempo total de interrupção de quatro horas.
Embora isso possa não ser um MTBF extremamente alto, uma falha a cada 15 dias pode ser aceitável para alguns casos de uso comercial.
Por fim, considere um sistema que só cai uma vez dentro de 30 dias (720 horas) por duas horas.
Em comparação com os outros cenários descritos aqui, uma falha a cada 30 dias pode ser considerada um MTBF alto, indicando que o sistema é altamente confiável.
O MTBF é uma métrica de confiabilidade útil em várias áreas da tecnologia. Vamos considerar alguns cenários para cibersegurança, resposta a incidentes e DevOps.
Na cibersegurança, o MTBF pode indicar que um sistema está se aproximando do fim de sua vida útil e que o risco de uma interrupção crítica está aumentando.
Por exemplo, imagine que um sistema de cibersegurança seja observado durante um período de 48 horas. Durante esse período, o sistema falha cinco vezes para um tempo de inatividade total de oito horas ou um tempo operacional total de 40 horas.
MTBF = 40/5 = 8 horas
No mês seguinte, o sistema é novamente observado durante 48 horas. Desta vez, há oito falhas para um tempo de inatividade total de 12 horas ou um tempo operacional total de 36 horas. O MTBF do sistema agora é de 4,5 horas.
MTBF = 36/8 = 4,5 horas
Se o MTBF continuar a cair durante as observações subsequentes, isso pode sugerir que uma área no sistema, ou em todo o sistema em si, precisa ser substituída ou endurecida.
O MTBF também pode ajudar a determinar a eficácia da sua equipe de resposta a incidentes em minimizar e prevenir incidentes. Se o MTBF for muito baixo ou estiver em tendência de queda, a equipe deve analisar os dados de incidentes para descobrir interrupções recorrentes e tendências preocupantes.
O MTBF em DevOps é uma medida da frequência de falhas para um recurso ou componente único, permitindo que as equipes prevejam os níveis de confiabilidade e disponibilidade de um serviço. Dessa forma, ele pode destacar os pontos fracos no design de um componente ou no processo de teste e manutenção.
Ao monitorar o MTBF, as equipes de DevOps podem descobrir e eliminar ineficiências e gargalos que podem levar a falhas melhorando os processos e a infraestrutura do sistema. À medida que as equipes fazem melhorias, o MTBF aumenta, indicando um sistema mais confiável.
Por exemplo, considere um exemplo em que o trabalho total para um fluxo de integração de código ao longo de cinco dias foi de 100 horas. Durante a semana, quatro falhas ocorrem.
Com as ferramentas certas, você pode aumentar o MTBF e outras métricas de manutenção. Essas ferramentas incluem ferramentas de monitoramento de infraestrutura, monitoramento de serviços, ferramentas de visualização, ferramentas de monitoramento de desempenho de aplicativos, ferramentas de agregação de dados e entre plataformas e ferramentas de gerenciamento de projetos.
No entanto, todas essas ferramentas exigem armazenamento rápido de alto desempenho que possa lidar com grandes quantidades de dados enquanto mantém o desempenho máximo. Com o FlashBlade ® da Pure Storage, você pode criar uma solução de armazenamento robusta e de alto desempenho para dar suporte às ferramentas avançadas de monitoramento e observabilidade necessárias para ajudar a aumentar suas métricas de MTBF. FlashBlade
O MTBF e o tempo médio até a falha (MTTF, mean time to failure) são usados para medir o tempo para avaliar o desempenho de um sistema ou componente, embora a maneira como eles são aplicados seja diferente.
Prepare-se para o evento mais valioso do ano.
Acesse vídeos e demonstrações sob demanda para ver do que a Everpure é capaz.
Charlie Giancarlo sobre o por que de gerenciar dados — e não o armazenamento — é o futuro. Descubra como uma abordagem unificada transforma as operações de TI corporativas.
Cargas de trabalho avançadas exigem velocidade, segurança e escala compatíveis com a IA. Sua pilha está pronta?