Precisión, Recall y ROC en redes neuronales

Curso de Redes Neuronales Convolucionales

Contenido del curso

No sé dónde empezar

Fundamentos de las CNN y su aplicación biomédica

Construcción práctica con PyTorch

Entrenamiento y evaluación de modelos

Optimización y generalización

Tomar examen

Precisión, Recall y ROC en redes neuronales

Resumen

Cuando entrenas una red neuronal convolucional para clasificar imágenes médicas, el accuracy no basta. Necesitas métricas de evaluación como precisión, recall, F1 score y curva ROC para detectar falsos positivos, falsos negativos y posibles casos de overfitting antes de llevar el modelo a producción.

Esto importa especialmente cuando el costo de equivocarse es alto, como diagnosticar neumonía a partir de radiografías. Aquí te muestro cómo interpretar cada métrica y qué decisiones tomar con ellas.

¿Por qué el accuracy no es suficiente para evaluar un modelo?

El accuracy mide la cantidad de aciertos sobre el total, pero no distingue entre tipos de error. Y en un problema clínico, no es lo mismo decirle a una persona sana que tiene neumonía, que decirle a alguien enfermo que está bien.

Por eso, durante el entrenamiento conviene guardar los valores de las predicciones y sus probabilidades tanto en validación como en entrenamiento [02:00]. Ese registro te permite construir métricas más finas y armar un reporte completo después.

¿Qué es un falso positivo en clasificación de imágenes? Es cuando el modelo predice una clase positiva (por ejemplo, neumonía) en un caso que en realidad pertenece a la clase negativa (paciente sano). En contextos médicos puede llevar a hospitalizar personas que no lo necesitan.

Una duda común al volver a entrenar el mismo modelo: ¿por qué cambia el accuracy? Esto ocurre porque la opción shuffle true asigna las imágenes de manera aleatoria al inicializar el notebook, así que cada corrida puede arrojar métricas ligeramente distintas [03:30].

¿Qué significan precisión, recall y F1 score?

Después de entrenar tu red, generas un reporte de clasificación que evalúa cada clase (en este caso, normal y neumonía) con tres métricas que se complementan entre sí.

Precisión: la proporción de predicciones correctas dentro de todas las que el modelo marcó como positivas.
Recall: la proporción de verdaderos positivos sobre el total de casos que realmente eran positivos.
F1 score: la relación entre precisión y recall, ideal para resumir el desempeño en un solo número.

En la práctica, cuando armes un reporte para mostrar qué tan bien funciona tu modelo, lo usual es incluir el accuracy, el F1 score y la curva ROC [05:00]. Con esos tres números cualquier persona técnica puede entender el comportamiento general.

¿Cuándo usar F1 score en lugar de accuracy? Úsalo cuando las clases estén desbalanceadas o cuando los falsos positivos y falsos negativos tengan costos distintos. El F1 equilibra precisión y recall en una sola cifra.

¿Cómo se lee una matriz de confusión?

La matriz de confusión cruza la etiqueta verdadera con la predicción del modelo. En las filas tienes lo real y en las columnas lo que predijo la red.

Por ejemplo, si la etiqueta era normal y el modelo también dijo normal, ese cuadrante muestra los aciertos para esa clase: en la corrida del notebook fueron 47 casos [05:50]. En cambio, cuando la imagen real era de neumonía, el modelo se equivocó cuatro veces diciendo que era normal. Cada cuadrante te dice exactamente dónde acierta y dónde falla tu red.

¿Cómo interpretar la curva ROC y el AUC?

La curva ROC representa la relación entre verdaderos positivos y falsos positivos, y es una herramienta visual potente para detectar overfitting.

El overfitting o sobreajuste ocurre cuando el modelo se aprende de memoria los datos de entrenamiento y, al evaluarlo en datos nuevos como los de validación, sus métricas caen [06:40]. Es la diferencia entre memorizar y entender.

Dentro de la curva, el valor que importa es el AUC (area under curve), el área bajo la curva. Algunas referencias para leerlo:

0.5: el modelo está adivinando, alterna entre clases sin criterio.
Cercano a 1: desempeño excelente.
Mayor a 0.7: el umbral que suele buscarse en la industria.

Además del valor absoluto, te interesa que la curva de entrenamiento y la de validación se parezcan entre sí. Si la diferencia es pequeña, el modelo está generalizando bien.

En la corrida del notebook ocurrió algo curioso: la validación quedó por encima del entrenamiento [08:00]. Cuando tú ejecutes el mismo código probablemente veas lo contrario. Que la validación supere al entrenamiento significa que el modelo funcionó muy bien con casos que nunca había visto, algo poco común pero positivo.

¿Está listo este modelo para salir al mercado?

Con valores bajos de accuracy y AUC, un clasificador de neumonía puede equivocarse en ambas direcciones: mandar a una persona sana al hospital o, peor todavía, decirle a alguien con neumonía que está bien. Ese segundo error es el más peligroso clínicamente.

Por eso evaluar con varias métricas no es opcional. El siguiente paso natural es optimizar el modelo para mejorar precisión, recall, F1 y AUC antes de pensar en producción.

¿Qué métrica priorizarías tú en un caso médico, recall o precisión? Cuéntame tu razonamiento en los comentarios.

Bryan Castano

Estudiante

La matriz de confusión es una herramienta esencial para evaluar el rendimiento de algoritmos de aprendizaje supervisado, específicamente en tareas de clasificación. Permite visualizar qué tan bien un modelo distingue entre diferentes categorías al comparar los valores reales con las predicciones del sistema.

Componentes de la Matriz (Clasificación Binaria)

Se organiza en una tabla donde las filas suelen representar los valores reales y las columnas las predicciones:

Verdaderos Positivos (VP): El modelo predijo "positivo" y el valor real era "positivo".
Verdaderos Negativos (VN): El modelo predijo "negativo" y el valor real era "negativo".
Falsos Positivos (FP) - Error Tipo I: El modelo predijo "positivo" pero era "negativo".
Falsos Negativos (FN) - Error Tipo II: El modelo predijo "negativo" pero era "positivo".

Métricas Derivadas

A partir de los datos de la matriz, se calculan indicadores clave de rendimiento:

Exactitud (Accuracy): Porcentaje total de predicciones correctas sobre el total de casos.
Precisión (Precision): De todas las predicciones positivas, cuántas fueron realmente correctas.
Sensibilidad (Recall/Exhaustividad): De todos los casos positivos reales, cuántos logró identificar el modelo.
F1-Score: Una media equilibrada entre la precisión y la sensibilidad, útil cuando las clases están desbalanceadas.

Para evaluar redes neuronales en clasificación binaria, se utilizan diversas métricas que analizan diferentes aspectos del rendimiento del modelo, especialmente cuando los datos están desbalanceados

1. Métricas de Punto Fijo (Basadas en un umbral)

Estas métricas se calculan a partir de la matriz de confusión tras definir un umbral de decisión (comúnmente 0.5):

Exactitud (Accuracy): Es la proporción de predicciones correctas (tanto positivas como negativas) entre el total de casos. Solo es confiable si las clases están equilibradas.
Precisión (Precision): Mide la calidad de las predicciones positivas. Responde a: de todas las veces que el modelo predijo "positivo", ¿cuántas veces acertó?. Es clave cuando el costo de un falso positivo es alto (ej. clasificar un correo legítimo como spam).
Sensibilidad (Recall / Exhaustividad): Mide la capacidad del modelo para encontrar todos los casos positivos. Responde a: de todos los positivos reales que existen, ¿cuántos logró identificar el modelo?. Es vital cuando un falso negativo es crítico (ej. no detectar una enfermedad grave).
Puntuación F1 (F1-Score): Es la media armónica entre la precisión y el recall. Proporciona un equilibrio entre ambas y es la métrica preferida cuando existe un desbalance de clases significativo.

2. Curva ROC y AUC: Evaluación Global

A diferencia de las anteriores, estas no dependen de un único umbral, sino que evalúan el modelo en todos sus niveles de confianza posibles.

Curva ROC (Receiver Operating Characteristic): Es un gráfico que muestra el rendimiento del modelo trazando la Tasa de Verdaderos Positivos (Sensibilidad) frente a la Tasa de Falsos Positivos (1 - Especificidad) a diferentes umbrales.

AUC (Área bajo la curva): Resume la curva ROC en un solo valor numérico entre 0 y 1.

1.0: Modelo perfecto.
0.7 - 0.8: Rendimiento aceptable.
0.5: El modelo no es mejor que el azar (predicción aleatorotio==?)

** Caracteristicas:

Independencia del umbral: El AUC permite comparar modelos sin tener que elegir un umbral específico de antemano.
Robustez ante desbalance: En redes neuronales, donde a menudo una clase es mucho más frecuente que otra, métricas como F1-Score y AUC evitan interpretaciones erróneas que la exactitud simple podría causar.
Capacidad de discriminación: El AUC mide qué tan bien la red neuronal puede "separar" o distinguir las clases; un AUC de 0.8 significa que hay un 80% de probabilidad de que el modelo clasifique un ejemplo positivo aleatorio por encima de uno negativo.

Estas metricas son muy importantes para modelos de clasificacion binaria como este en radiografias.

Precisión, Recall y ROC en redes neuronales

Fundamentos de las CNN y su aplicación biomédica

Redes convolucionales con PyTorch para imágenes médicas

Cómo las radiografías se convierten en números

Convoluciones en PyTorch con tensores

Stride y padding en convoluciones

ReLU, Sigmoide y Tanh en redes convolucionales

Max Pooling vs Average Pooling en CNNs

Qué hace flatten en redes neuronales

Construcción práctica con PyTorch

Carga de datasets de imágenes en Google Colab con GPU

Imágenes a tensores con PyTorch

Cómo construir tu primera CNN en código

Entrenamiento y evaluación de modelos

Entrenamiento de red neuronal para detectar neumonía

Predicciones reales con tu modelo PyTorch