As métricas nos ajudam a entender o que está funcionando, o que não está e por quê. Assim como qualquer outra coisa, podemos medir o desempenho do aprendizado de máquina para medir a eficácia de nossos modelos de aprendizado de máquina.
Uma parte importante do MLOps, as métricas de desempenho de aprendizado de máquina são usadas para avaliar a precisão dos modelos de aprendizado de máquina para ajudar cientistas de dados e profissionais de aprendizado de máquina a entender o desempenho de seus modelos e se eles estão cumprindo os objetivos desejados.
Este artigo explica os tipos de métricas de desempenho de aprendizado de máquina e os principais conceitos de métricas de desempenho de aprendizado de máquina, como precisão, curva ROC e pontuação F1.
Por que as métricas de desempenho de aprendizado de máquina são importantes?
As métricas de desempenho do aprendizado de máquina ajudam em vários aspectos importantes do aprendizado de máquina, incluindo:
Seleção de modelos
As métricas de desempenho ajudam a comparar diferentes modelos e selecionar o melhor desempenho para uma tarefa ou conjunto de dados específico. Por exemplo, se um modelo precisa minimizar falsos positivos, a precisão se torna uma métrica essencial para avaliação.
Ajuste do modelo
As métricas orientam o processo de ajuste e otimização de hiperparâmetros para melhorar o desempenho do modelo. Ao analisar como as mudanças nos hiperparâmetros afetam métricas como precisão, exatidão ou recall, os profissionais podem ajustar os modelos para obter melhores resultados.
Impacto nos negócios
As métricas de desempenho estão diretamente ligadas aos objetivos de negócios que o modelo de aprendizado de máquina deve abordar. Por exemplo, em um aplicativo de assistência médica, um modelo com alta recordação (para minimizar falsos negativos) pode ser mais eficaz do que um com alta precisão.
Desvio do modelo
Após a implantação, o monitoramento das métricas de desempenho ajuda a detectar a degradação do modelo ou “desvio”. Isso é muito importante para manter a confiabilidade e a eficácia dos sistemas de aprendizado de máquina em aplicativos do mundo real.
Tipos de métricas de desempenho de aprendizado de máquina
Há vários tipos de métricas de desempenho de aprendizado de máquina, cada uma fornecendo um ângulo importante sobre o desempenho de um modelo de aprendizado de máquina.
Precisão
A precisão é a métrica mais simples. É a proporção de instâncias corretamente previstas em relação ao total de instâncias no conjunto de dados. A precisão é útil para conjuntos de dados equilibrados quando todas as classes são igualmente importantes.
Precisão
A precisão se concentra na fração de instâncias relevantes entre as instâncias recuperadas. É a capacidade do classificador de não rotular uma amostra que é negativa como positiva. A precisão é crucial quando o custo de falsos positivos é alto, como no diagnóstico médico ou na detecção de fraudes.
Recall (Sensibilidade)
O recall mede a capacidade do classificador de encontrar todos os casos relevantes em um conjunto de dados. É a capacidade do classificador de encontrar todas as amostras positivas. O recall é importante quando perder instâncias positivas (falsos negativos) é mais crítico do que ter falsos positivos. Por exemplo, na detecção de câncer, é essencial capturar todos os casos reais, mesmo que isso signifique alguns alarmes falsos.
Pontuação F1
A pontuação F1 é a média harmônica da precisão e do recall, fornecendo uma medida equilibrada que considera falsos positivos e falsos negativos. É especialmente útil ao lidar com conjuntos de dados desequilibrados. Use a pontuação F1 quando quiser equilibrar precisão e recordação e houver uma distribuição de classe desigual ou quando falsos positivos e falsos negativos tiverem pesos semelhantes.
Curva ROC e AUC
A curva da característica de operação do receptor (ROC, receiver operating characteristic) representa a taxa positiva verdadeira (recall) em relação à taxa de falsos positivos para diferentes limites. A área sob a curva ROC (AUC) fornece uma medida agregada do desempenho em todos os limites. As curvas ROC e a AUC são particularmente úteis em tarefas de classificação binária para entender as desvantagens entre verdadeiros positivos e falsos positivos em diferentes limites de decisão. A AUC é útil para seleção de limite e desequilíbrio.
Especificidade
A especificidade mede a proporção de casos negativos reais que são corretamente identificados como negativos pelo classificador. Ela complementa o recall (sensibilidade) concentrando-se em verdadeiros negativos. A especificidade é importante em cenários em que a identificação correta de casos negativos é crucial, como em testes de triagem de doenças em que alarmes falsos podem levar a tratamentos ou custos desnecessários.
Erro absoluto médio (MAE, Mean Absolute Error) e erro quadrático médio raiz (RMSE, Root Mean Squared Error)
Essas métricas são comumente usadas em tarefas de regressão para medir a magnitude média dos erros entre os valores previstos e reais. O MAE e o RMSE são adequados para problemas de regressão em que a magnitude absoluta dos erros é importante, como prever preços de habitação ou previsões de vendas.
Entender essas métricas e escolher as adequadas com base no domínio do problema específico e nos requisitos de negócios é crucial para desenvolver modelos de aprendizado de máquina eficazes e confiáveis. Cada métrica fornece insights exclusivos sobre diferentes aspectos do desempenho do modelo, permitindo que os profissionais tomem decisões informadas durante o desenvolvimento, a avaliação e a implantação do modelo.
Vamos nos aprofundar em cada métrica.
Precisão
A precisão é uma métrica de desempenho usada para avaliar a correção geral de um modelo de aprendizado de máquina. Ele mede a proporção de instâncias corretamente previstas para o número total de instâncias no conjunto de dados. Em outras palavras, a precisão quantifica com que frequência o modelo faz previsões corretas de todas as previsões feitas.
Matematicamente, a precisão é calculada como:
Precisão = número de previsões corretas/número total de previsões ×100%
Veja um exemplo para ilustrar como a precisão funciona:
Digamos que temos um problema de classificação binária em que queremos prever se um e-mail é spam ou não spam. Temos um conjunto de dados de 100 e-mails, dos quais 80 não são spam e 20 são spam. Depois de treinar nosso modelo de aprendizado de máquina, ele classifica corretamente 70 dos 80 e-mails não relacionados a spam e 15 dos 20 e-mails de spam.
Precisão = 70+15/100 ×100% = 85%
Nesse caso, a precisão do nosso modelo é de 85%, indicando que ele classificou corretamente 85 de 100 e-mails.
A precisão é uma métrica apropriada para avaliar o desempenho do modelo em cenários em que todas as classes são igualmente importantes e não há desequilíbrio de classe no conjunto de dados.
Casos de uso
Os cenários em que a precisão é adequada incluem:
- Classificação de spam por e-mail: Determinar se um e-mail é spam ou não
- Análise de sentimento: Classificar as avaliações dos clientes como positivas, negativas ou neutras
- Classificação de imagens: Identificação de objetos em imagens como gatos, cães ou carros
- Diagnóstico da doença: Prever se um paciente tem uma determinada doença com base nos resultados de exames médicos
Limitações
A precisão tem algumas limitações e considerações quando usada como uma única métrica de desempenho, incluindo:
Desequilíbrio de classe: A precisão pode ser enganosa quando as classes estão desequilibradas, o que significa que uma classe é muito mais frequente do que outras. Por exemplo, em um conjunto de dados com 95% de exemplos negativos e 5% de exemplos positivos, um modelo que sempre prevê negativo alcançaria 95% de precisão, mas não seria útil para identificar casos positivos.
Custos desiguais: Em algumas aplicações, classificar incorretamente uma classe pode ter consequências mais graves do que classificar incorretamente outra. Por exemplo, no diagnóstico médico, um falso negativo (ausência de uma doença) pode ser mais crítico do que um falso positivo (diagnosticar uma doença incorretamente). A precisão não diferencia entre esses tipos de erros.
Não considera a confiança da previsão: A precisão trata todas as previsões igualmente, independentemente da confiança do modelo em suas previsões. Um modelo muito confiante em previsões corretas, mas menos confiante em previsões incorretas, ainda pode ter alta precisão, mesmo que não esteja funcionando bem no geral.
Não captura o desempenho do modelo em diferentes grupos: A precisão não revela o desempenho de um modelo em subgrupos ou classes específicos no conjunto de dados. Ele trata todas as classes igualmente, o que pode não refletir a importância real de diferentes classes.
Para lidar com essas limitações, é importante considerar métricas de desempenho adicionais, como precisão, recall, pontuação F1, área sob a curva de característica operacional do receptor (AUC-ROC, pela sigla em inglês) e análise da matriz de confusão com base nas características específicas do domínio do problema e nos requisitos de negócios. Essas métricas fornecem insights mais diferenciados sobre o desempenho de modelos de aprendizado de máquina além do que a precisão sozinha pode oferecer.
Precisão e recall
Precisão e recall são duas métricas de desempenho importantes usadas para avaliar a eficácia dos modelos de aprendizado de máquina, especialmente em tarefas de classificação binária.
A precisão mede a precisão das previsões positivas feitas pelo modelo. É a proporção de previsões positivas verdadeiras para o número total de previsões positivas feitas pelo modelo.
Precisão = verdadeiros positivos/verdadeiros positivos + falsos positivos
A precisão é importante porque nos diz quantas das instâncias previstas como positivas pelo modelo são realmente positivas. Uma alta precisão indica que o modelo tem menos falsos positivos, o que significa que é bom evitar alarmes falsos.
Recall = verdadeiros positivos/verdadeiros positivos + falsos negativos
O recall é importante porque nos diz quantas das instâncias positivas reais o modelo é capaz de capturar. Um recall alto indica que o modelo pode identificar com eficácia as instâncias mais positivas, minimizando falsos negativos.
Compensação entre precisão e recall
Normalmente, há uma desvantagem entre precisão e recall. Aumentar a precisão frequentemente leva a uma diminuição no recall e vice-versa. Essa desvantagem surge porque ajustar o limite de decisão de um modelo afeta o número de verdadeiros positivos e falsos positivos/negativos.
Alta precisão, baixa recuperação: O modelo é cauteloso e conservador em classificar as instâncias como positivas. É cuidadoso evitar falsos positivos, mas pode perder alguns positivos reais, levando a um recall baixo.
Alta recuperação, baixa precisão: O modelo é mais liberal na rotulagem de instâncias como positivas, capturando a maioria dos positivos reais, mas também gerando mais falsos positivos, resultando em baixa precisão.
Casos de uso
Precisão e recall são métricas especialmente úteis em:
Diagnóstico médico: No diagnóstico médico, o recall (sensibilidade) costuma ser mais crítico do que a precisão. É essencial identificar corretamente todos os casos positivos (por exemplo, pacientes com uma doença), mesmo que isso signifique alguns falsos positivos (por exemplo, pacientes saudáveis sinalizados como portadores da doença). Perder um caso positivo pode ter consequências graves.
Detecção de fraude: Na detecção de fraudes, a precisão geralmente é mais importante porque alarmes falsos (falsos positivos) podem incomodar os usuários. É melhor ter alta precisão para minimizar alarmes falsos enquanto garante que casos reais de fraude sejam detectados (o que afeta o recall).
Recuperação de informações: Em mecanismos de pesquisa ou sistemas de recomendação, o recall é frequentemente priorizado para evitar a perda de resultados ou recomendações relevantes, mesmo que isso signifique incluir alguns itens irrelevantes (menor precisão).
Pontuação F1
A pontuação F1 é uma métrica de desempenho que combina precisão e recall em um único valor, fornecendo uma avaliação equilibrada da capacidade de um modelo de aprendizado de máquina de classificar corretamente as instâncias. É especialmente útil em cenários em que tanto a precisão quanto o recall são igualmente importantes e há a necessidade de encontrar um equilíbrio entre eles.
A pontuação F1 é calculada usando a média harmônica da precisão, como segue:
Pontuação F1 = 2 × precisão x recall/precisão + recall
A pontuação F1 varia de 0 a 1, sendo 1 a melhor pontuação possível. Ela atinge seu valor máximo quando a precisão e o recall estão em seus níveis mais altos, indicando um modelo bem equilibrado que minimiza falsos positivos e falsos negativos.
Vantagens da pontuação F1
As vantagens de usar a pontuação F1 incluem:
Avaliação equilibrada: A pontuação F1 considera precisão e recall, fornecendo uma avaliação equilibrada do desempenho de um modelo. Isso é especialmente benéfico em cenários em que os falsos positivos e falsos negativos são igualmente importantes, como no diagnóstico médico ou na detecção de anomalias.
Métrica única: Em vez de avaliar a precisão e o recall separadamente, a pontuação F1 combina-os em um único valor, facilitando a comparação de diferentes modelos ou parâmetros de ajuste.
Sensível a desequilíbrios: A pontuação F1 é sensível ao desequilíbrio de classe porque leva em conta os falsos positivos e os falsos negativos. Ela penaliza modelos que favorecem fortemente uma classe em detrimento da outra.
Interpretação da pontuação F1
Interpretar os resultados da pontuação F1 envolve entender a relação entre precisão e recall.
Veja alguns cenários e interpretações:
Pontuação alta de F1: Uma pontuação F1 alta indica que o modelo alcançou um bom equilíbrio entre precisão e recall. Isso significa que o modelo é eficaz para minimizar falsos positivos (alta precisão) e capturar as instâncias mais positivas (alta recuperação).
Baixa pontuação de F1: Uma pontuação baixa de F1 sugere um desequilíbrio entre precisão e recordação. Isso pode acontecer se o modelo for inclinado para uma classe, levando a muitos falsos positivos (baixa precisão) ou muitos falsos negativos (lembrança baixa).
Comparação de modelos: Ao comparar diferentes modelos ou ajustar hiperparâmetros, escolher o modelo com a pontuação F1 mais alta é benéfico, especialmente em cenários em que a precisão e o recall são igualmente importantes.
Exemplos
Vamos considerar um modelo de classificação de e-mail de spam.
Suponha que o modelo A tenha uma precisão de 0,85 e um recall de 0,80, resultando em uma pontuação F1 de 0,85
Por outro lado, o modelo B tem uma precisão de 0,75 e um recall de 0,90, resultando em uma pontuação F1 de 0,818.
Embora o modelo B tenha um recall mais alto, sua precisão mais baixa leva a uma pontuação F1 ligeiramente menor em comparação com o modelo A. Isso sugere que o modelo A pode ser mais equilibrado em termos de precisão e recall, dependendo dos requisitos específicos da aplicação.
Curva ROC e AUC
Conforme descrito anteriormente, a curva ROC e a AUC são usadas em problemas de classificação binária para avaliar o desempenho preditivo de modelos de aprendizado de máquina, especialmente em cenários em que a distribuição da classe é desequilibrada.
Curva ROC
A curva ROC é uma representação gráfica da troca entre a taxa positiva verdadeira (TPR, true positive rate), também conhecida como recall ou sensibilidade, e a taxa de falsos positivos (FPR, false positive rate) de um modelo de classificação em diferentes limites. O TPR mede a proporção de casos positivos reais corretamente identificados como positivos pelo modelo, enquanto o FPR mede a proporção de casos negativos reais classificados incorretamente como positivos.
A curva ROC é criada plotando o TPR (eixo y) em relação ao FPR (eixo x) em várias configurações de limite. Cada ponto na curva representa um limite diferente, e a curva mostra como o desempenho do modelo muda conforme o limite para alterações de classificação.
Visualização de troca
A curva ROC visualiza a desvantagem entre sensibilidade (recall) e especificidade (1 - FPR) conforme o limite de decisão do modelo varia. Um modelo com alta sensibilidade (TPR) tende a ter uma FPR mais alta e vice-versa. A curva mostra o desempenho do modelo em todos os valores limites possíveis, permitindo que os analistas escolham o limite que melhor se adapte às suas necessidades específicas com base na troca que estão dispostos a aceitar entre verdadeiros positivos e falsos positivos.
AUC
A AUC é um valor escalar que quantifica o desempenho geral de um modelo de classificação com base em sua curva ROC. Especificamente, ele mede a área sob a curva ROC, que representa a capacidade do modelo de distinguir entre classes positivas e negativas em todas as configurações de limite possíveis.
A AUC ajuda a avaliar o desempenho geral de um modelo de aprendizado de máquina por meio de:
Comparação de desempenho: Um valor de AUC mais alto indica melhor capacidade de discriminação do modelo, o que significa que ele pode distinguir com eficácia entre instâncias positivas e negativas em uma série de limites. Ele permite uma comparação fácil entre diferentes modelos, com valores de AUC mais altos indicando melhor desempenho geral.
Robustez para desequilíbrio de classe: A AUC é menos afetada pelo desequilíbrio da classe em comparação com métricas como precisão, exatidão e recall. Ele considera o desempenho do modelo em todos os limites possíveis, tornando-o adequado para conjuntos de dados desequilibrados onde a distribuição de classe é distorcida.
Avaliação agnóstica de limite: A AUC avalia o desempenho do modelo sem especificar um limite específico para classificação, fornecendo uma avaliação mais abrangente da capacidade discriminativa do modelo, independentemente do ponto de operação escolhido.
Conclusão
As métricas de desempenho de aprendizado de máquina ajudam a avaliar e comparar diferentes modelos de aprendizado de máquina, fornecendo medidas quantitativas de precisão, recall, pontuação F1 e curva ROC de um modelo, entre outros. Entender essas métricas é extremamente importante para cientistas de dados e profissionais de aprendizado de máquina enquanto eles lidam com as várias tarefas e desafios do desenvolvimento, otimização e implantação de modelos.
Em resumo, as métricas de desempenho de aprendizado de máquina fornecem insights mais profundos sobre os pontos fortes e fracos de um modelo, o que permite decisões informadas sobre seleção de modelos, ajuste de hiperparâmetros e monitoramento do desempenho do modelo ao longo do tempo. Seja lidando com tarefas de classificação em que precisão e recall são primordiais, problemas de regressão em que MAE e RMSE são importantes ou cenários de classificação binários que se beneficiam das curvas de ROC e AUC, o uso adequado de métricas de desempenho melhora a robustez e a confiabilidade das soluções de aprendizado de máquina, levando a melhores resultados e um impacto positivo nos negócios.
Dito isso, aproveitar ao máximo seus modelos de aprendizado de máquina significa preparar seu armazenamento de dados para o futuro com uma infraestrutura pronta para inteligência artificial. Saiba como a Pure Storage ajuda a acelerar o treinamento e a inferência de modelos, maximizar a eficiência operacional e gerar economia de custos.