Evaluación de modelos más allá del accuracy
Clase 13 de 15 • Curso de Redes Neuronales Convolucionales
Resumen
Evaluar correctamente el desempeño de un modelo de aprendizaje automático implica ir más allá del accuracy (precisión global). Para obtener una mejor visión sobre cómo nuestro modelo responde ante diferentes escenarios y errores, es fundamental usar métricas complementarias como la precisión, el recall y la curva ROC, que permiten entender su rendimiento más a fondo y detectar problemas potenciales como el sobreajuste.
¿Por qué no usar solo accuracy para evaluar tu modelo?
Aunque inicialmente podemos medir nuestro modelo con la métrica básica del accuracy, esta no siempre refleja situaciones críticas específicas:
- Un modelo puede tener buen accuracy y, sin embargo, fallar en identificar correctamente casos positivos o negativos.
- Es importante conocer las situaciones en las que el modelo se equivoca, evaluando falsos positivos y falsos negativos.
En el ámbito médico, por ejemplo, errores como identificar una neumonía como caso normal (falso negativo) o lo contrario (falso positivo) tienen implicaciones significativas.
¿Qué otras métricas te ayudan a entender tu modelo?
¿Qué mide la precisión?
La precisión se refiere a cuántas de las predicciones positivas hechas por el modelo realmente son correctas. Esto responde a la interrogante sobre qué tan confiables son los resultados cuando el modelo indica una clase positiva.
¿Por qué es importante el recall?
El recall mide la capacidad del modelo para detectar correctamente todos los casos positivos reales. Alto recall indica que el modelo reconoce correctamente un alto porcentaje de casos verdaderamente positivos.
¿Qué beneficio ofrece el F1 score?
El F1 score combina precisión y recall en una sola métrica, ofreciendo un equilibrio entre ambas. Es útil especialmente cuando las clases son desiguales o cuando se quiere medir el desempeño general del modelo sin perder detalle.
¿Cómo interpretar la matriz de confusión?
La matriz de confusión es una tabla de doble entrada que muestra claramente cuántas predicciones fueron correctas e incorrectas:
- Muestra en filas las etiquetas verdaderas y en columnas las predicciones del modelo.
- Facilita detectar en qué tipo de clasificación se cometieron más errores.
- Evalúa cuántas veces el modelo confundió una imagen con neumonía como normal o viceversa.
Por ejemplo, si el modelo clasificó erróneamente cuatro imágenes con neumonía como normales, esto sería visible directamente en esta matriz.
¿Qué información aporta la curva ROC y el área AUC?
La curva ROC (Receiver Operating Characteristic) proporciona una comparación gráfica entre verdaderos positivos y falsos positivos:
- Un área bajo la curva (AUC por sus siglas en inglés) cercana a 0.5 indica desempeño similar al azar.
- Valores cercanos a uno sugieren un desempeño mucho más confiable.
- Permite evaluar visualmente si existe sobreajuste, al comparar las curvas del conjunto de entrenamiento y validación.
En contextos médicos como la detección de neumonía, valores bajos de AUC pueden dar pie a decisiones incorrectas con consecuencias graves, destacando la importancia de obtener métricas sólidas.
Considerar estas métricas adicionales a accuracy no solo te permitirá evaluar de forma integral el modelo, sino que podrá ayudarte a mejorar tu trabajo de forma significativa.