Métricas de Evaluación en Modelos de Clasificación: Accuracy, Precision y Recall

Clase 25 de 26 • Curso de Algoritmos de Clasificación de Texto

Contenido del curso

Desambiguación y etiquetado de palabras

Modelos Markovianos Latentes (HMM)

Algoritmo de Viterbi

Modelos Markovianos de máxima entropía (MEMM)

Clasificación de texto con NLTK

Implementación de un modelo de clasificación de texto

Tomar examen

Resumen

Evaluar un modelo de machine learning va mucho más allá de verificar cuántas predicciones acertó. Un clasificador puede ser excelente detectando correos spam y, al mismo tiempo, fallar al reconocer los que no lo son. Para distinguir estos matices existen tres métricas fundamentales —accuracy, precision y recall— que, analizadas en conjunto, revelan con claridad las fortalezas y debilidades de cualquier algoritmo de clasificación.

¿Qué mide el accuracy y por qué no es suficiente?

El accuracy [0:52] es la métrica más básica en un problema de clasificación. Se calcula como la proporción entre el número de predicciones correctas y el total de predicciones realizadas. Su valor máximo es 1, lo que indicaría que el modelo acertó en cada caso.

En una matriz de confusión —la representación visual de los cuatro estados posibles en clasificación binaria— el accuracy corresponde a la suma de dos bloques:

Verdaderos positivos: correos que eran spam y fueron clasificados correctamente como spam.
Verdaderos negativos: correos que eran ham y fueron clasificados correctamente como ham.

Sin embargo, un accuracy alto puede esconder problemas serios. Si el dataset tiene 90 % de correos ham y solo 10 % de spam, un modelo que siempre prediga "ham" obtendría 90 % de accuracy sin identificar jamás un correo spam.

¿Cómo diferenciar precision de recall en clasificación?

¿Qué significa precision?

La precision [1:23] responde una pregunta concreta: de todos los correos que el modelo clasificó como spam, ¿cuántos realmente lo eran? En la matriz de confusión se calcula dividiendo los verdaderos positivos entre la suma de verdaderos positivos y falsos positivos (correos ham que fueron marcados erróneamente como spam).

En el ejercicio práctico [3:22], el modelo obtuvo precision de 0.82 para ham y 1.0 para spam. Esto significa que cada vez que el algoritmo etiquetó un correo como spam, acertó el 100 % de las veces.

¿Qué significa recall?

El recall [1:52] plantea la pregunta inversa: de todos los correos que realmente eran spam en el dataset, ¿qué fracción logró capturar el modelo? Se calcula dividiendo los verdaderos positivos entre la suma de verdaderos positivos y falsos negativos (spam que pasó desapercibido).

Los resultados del modelo [4:00] mostraron un recall de 1.0 para ham y 0.50 para spam. El algoritmo identificó la totalidad del ham real, pero solo logró capturar el 50 % del spam que existía en los datos.

¿Dónde está la diferencia fundamental?

Un modelo puede predecir pocos correos como spam y acertar en todos ellos, alcanzando precision perfecta. Pero eso no garantiza que haya encontrado todos los correos spam del dataset [4:48]. Ahí radica la distinción clave:

Precision: qué tan confiables son las predicciones positivas.
Recall: qué tan completa es la detección de los casos reales.

¿Cómo calcular estas métricas en Python con scikit-learn?

Desde el notebook en Google Colab [2:36], la implementación es directa. Se importan las tres funciones desde sklearn.metrics:

python from sklearn.metrics import accuracy_score, precision_score, recall_score

Para precision y recall se utilizan dos argumentos adicionales:

python precision_score(classes_test, classes_predict, average=None, zero_division=1) recall_score(classes_test, classes_predict, average=None, zero_division=1)

average=None devuelve el valor para cada clase por separado.
zero_division=1 reemplaza divisiones por cero con el valor uno.

El modelo entrenado con Naive Bayes mantuvo un accuracy superior al 85 % [2:58], lo cual combinado con las métricas de precision y recall ofrece un panorama completo del rendimiento.

La recomendación práctica es siempre calcular las tres métricas en conjunto [5:18]. Solo así se puede evaluar, desde todos los ángulos posibles, cómo se desempeña un clasificador. Un modelo con alto accuracy pero bajo recall en una categoría crítica podría generar consecuencias graves en producción.

Si estás construyendo tu propio clasificador, experimenta ajustando los datos de entrenamiento y observa cómo cambian estas tres métricas. ¿Tu modelo favorece la precision o el recall? Comparte tus resultados y reflexiones.

Comentarios

Francisco Garcia [C6]

student•

ok, si, creo que es necesario verlo de nuevo todo.

Eugenio Schiavoni

student•

Consejo para todos los que llegamos hasta acá y no entendimos mucho, mas allá de ver de nuevo el video recomiendo practicar mucho. Antes de volver a verlo. Elegir ejercicios simples que ya estén resueltos por otras personas, como clasificación de tweets, en kaggle hay varias de estos dataset, y practicar haciéndolos, revisando el código de otros, etc. Hacer esto muchas veces con el mismo problema nos ayuda a memorizar los pasos, comparar nuestros modelos con otros hechos por gente que esta en el tema hace muchos años. De esta forma nos familiarizamos con la terminología y la metodología. Particularmente cuando estudie machine learning con modelos de regresión polinómica y lineal me paso algo similar y practicando pude entender mejor los conceptos y al volver a ver los videos me di cuenta que entendía todo lo que antes me parecía chino.(Después de hacer unos 50 notebooks en kaggle). Ese es mi consejo a seguir estudiando pero sobre todo practicando, esto es 10% de conocimiento y 90% de practica, desde mi punto de vista la programación en general es así.

Cristhian Eduardo Ninanya Cerron

student•

Es correcto lo que comenta Eugenio. Practica haciendo proyectos personales, adquieres confianza y puedes armar tu portafolio para demostrar tus habilidades.

Como dijo Shio Sakaki: No todos están seguro de sus habilidades. Cuando eso suceda, ¡entrena más! Cuando tengas miedo, ¡entrena! Cuando algo no te sienta bien, ¡simplemente entrena! Cuando ya no creas en ti mismo, ¡simplemente entrena! Lo único que no te traicionará es tu entrenamiento.

johan Stever Rodriguez Molina

student•

en la formula mostrada para el accuracy, la función dentro de la suma(delta), es la llamada función delta de Kronecker. cuyo valor es 1 si las variables son iguales y 0 en cualquier otro caso.

Omar Larasa

student•

Creo que la matriz que muestra el profe es la matriz de confusión, aquí pongo como la he ploteado

# matriz de confusión - confusion matrix
from sklearn.metrics import confusion_matrix
import seaborn as sn # para plotear
import matplotlib.pyplot as plt
import pandas as pd # para organizar la matriz


labels = list(set(clases_train)) # clases unicas
clases_pred = classifier.predict(data_test) # predicciones
# sacamos la matriz
matrix = confusion_matrix(clases_test, clases_pred, labels=labels)

# hay que hacer un dataframe para plotear mejor
df = pd.DataFrame(matrix, index = ["Spam", "Ham"], columns = ["Spam", "Ham"])
# ploteamos
plt.figure(figsize = (10,7))
plt.title("Matriz de confusión")
sn.heatmap(df, annot=True)

José Salas Bolívar

student•

Gracias

Juan Baquero

student•

Consejo: No tienes que entender todo a la primera. Puedes volver cuando quieras al contenido, pero, OJO. Personalmente lo que a mi me sirve más que volver, es avanzar. Es decir, hacer ejercicios, practicar, ver nuevos contenidos. No te estanques. Yo tampoco he entendido todo en su totalidad, pero aquí sigo avanzando.

Jhon Freddy Tavera Blandon

student•

F1-Score

El F1-score es la media armónica entre la precisión y el recall. Es útil cuando necesitas un balance entre ambas métricas, especialmente si tienes un dataset desbalanceado.

F1=2×Precisioˊn×RecallPrecisioˊn+RecallF1 = 2 \times \frac{\text{Precisión} \times \text{Recall}}{\text{Precisión} + \text{Recall}}F1=2×Precisioˊn+RecallPrecisioˊn×Recall

Ventajas: Combina precisión y recall en una sola métrica. Es útil cuando hay un equilibrio entre la necesidad de reducir falsos positivos y falsos negativos.
Limitaciones: No distingue entre situaciones donde la precisión y el recall son desiguales.

Patricia Carolina Perez Felibert

student•

Esta clase estuvo genial!

Gabriel Obregón

student•

🧠✨MÉTRICAS DE CLASIFICACIÓN

🎯 PROPÓSITO

Entender cómo medir el rendimiento de un modelo de clasificación y qué significan las métricas más importantes: ➡️ Accuracy, Precisión y Recall.

⚙️ 1. ¿QUÉ SIGNIFICA “RENDIMIENTO”?

📌 Un solo número (entre 0 y 1) no basta para evaluar un modelo.

📌 Un modelo puede:

✅ Funcionar bien con ciertas clases.
❌ Fallar con otras.

👉 Por eso se usan métricas diversas para tener una visión completa del desempeño.

📊 2. ACCURACY — Exactitud Global

🔎 Qué mide:

La proporción de predicciones correctas respecto al total de predicciones.

🧮 Fórmula:

Accuracy = (Verdaderos positivos + Verdaderos negativos) / Total de predicciones

💬 Ejemplo:

“Correo spam” predicho correctamente → ✔️ “No spam” reconocido correctamente → ✔️ ✅ Interpretación:

Un accuracy del 100% = modelo perfecto (todas las predicciones correctas).

🎯 3. PRECISIÓN — Fiabilidad de las Predicciones Positivas

🔎 Qué mide:

De todas las instancias que el modelo clasificó como positivas, ¿cuántas lo son realmente?

🧮 Fórmula:

Precisión = Verdaderos positivos / (Verdaderos positivos + Falsos positivos)

💬 Ejemplo:

Si el modelo detecta 10 correos como spam y 8 realmente lo son: ➡️ Precisión = 8 / 10 = 0.8 (80%)

✅ Interpretación:

Alta precisión = pocos falsos positivos (buen filtro, pocas falsas alarmas).

🔍 4. RECALL — Capacidad de Detección

🔎 Qué mide:

Qué proporción de casos positivos reales el modelo logra identificar.

🧮 Fórmula:

Recall = Verdaderos positivos / (Verdaderos positivos + Falsos negativos)

💬 Ejemplo:

En diagnóstico médico 🏥:

Es mejor detectar todos los enfermos, incluso si algunos sanos son clasificados erróneamente como positivos.

✅ Interpretación:

Alto recall = pocos falsos negativos (mejor cobertura de los casos positivos).

Métricas de Evaluación en Modelos de Clasificación: Accuracy, Precision y Recall

Desambiguación y etiquetado de palabras

Clasificación de Texto con Machine Learning

Etiquetado de Palabras en Python con NLTK y Stanza

Uso de Stanza para Procesamiento de Lenguaje Natural en Español

Modelos Markovianos Latentes (HMM)

Modelos Marcovianos Latentes en PLN: Fundamentos y Aplicaciones

Matemáticas de Cadenas de Markov y su Aplicación en Modelos Latentes

Modelos Marcovianos Latentes: Etiquetado Gramatical Automático

Implementación de Modelos Marcovianos Latentes en Python con Google Colab

Entrenamiento de Modelos Marcobianos Latentes en Python

Algoritmo de Viterbi

Decodificación de Secuencias con el Algoritmo de Viterbi

Cálculo de Probabilidades en el Algoritmo de Viterbi

Implementación del Algoritmo de Viterbi en Python con NumPy

Implementación del Algoritmo Viterbi para Modelos Ocultos de Markov

Implementación de Modelos Ocultos de Markov en NLTK y Python

Modelos Markovianos de máxima entropía (MEMM)

Modelos Marcovianos de Máxima Entropía en Clasificación de Etiquetas

Algoritmo BiTerbi en Modelos de Máxima Entropía

Entrenamiento y Decodificación de Modelos Marcobianos en Bitterbi

Clasificación de texto con NLTK

Clasificación de Texto en Machine Learning: Teorías y Aplicaciones

Clasificación de Nombres por Género con NLTK en Python

Clasificación de Nombres con Naive Bayes en Python

Clasificación de correos: Filtrado de spam con Naive Bayes

Implementación de un modelo de clasificación de texto

Funcionamiento Matemático del Clasificador Naive Bayes

Preparación de Datos para Modelo Naive Bayes en Python

Implementación del Algoritmo Naive Bayes en Python con spaCy

Implementación del Método Predict en Naive Bayes Clasificador

Métricas de Evaluación en Modelos de Clasificación: Accuracy, Precision y Recall

Clasificación de Sentimientos con Reviews de Amazon