Análisis de sentimientos de fans con NLP

Curso de Fundamentos de Machine Learning

Contenido del curso

No sé dónde empezar

Fundamentos de Machine Learning y Contexto Deportivo

Preparación y Exploración de Datos

Ingeniería de Características

Modelado Predictivo Supervisado

Aprendizaje No Supervisado

Análisis de sentimientos de fans con NLP

Resumen

El análisis de datos en el fútbol va más allá de los goles y las estadísticas tácticas. Con NLP o procesamiento del lenguaje natural puedes leer la mente de la hinchada, detectar si los fans aplauden o critican, y convertir comentarios de redes en decisiones estratégicas para el club. Este recorrido es para ti si quieres dar tus primeros pasos con texto, machine learning y Python aplicado al deporte.

Y aquí viene lo interesante: las emociones también se miden. Vamos a ver cómo.

¿Qué es NLP y cómo se aplica al análisis deportivo?

El Natural Language Processing es la rama de la inteligencia artificial que permite a las máquinas leer, entender y analizar texto humano. Es la tecnología detrás de Siri, Google o ChatGPT cuando interpretan preguntas y comandos.

En el contexto deportivo, lo usas para tres frentes muy concretos:

Analizar comentarios de redes sociales sobre el equipo.
Detectar sentimientos en reportes de prensa.
Medir la moral de la hinchada después de un partido.

¿Para qué sirve NLP en el fútbol? Para transformar opiniones de fans en datos medibles. Si entiendes lo que la hinchada piensa, tomas decisiones más conectadas con la realidad emocional del club.

¿Cómo cargo y preparo los comentarios deportivos?

El primer paso es importar pandas y cargar el archivo CSV con los comentarios en un data frame llamado df_comentario [00:55]. Conviertes la columna comentario a tipo string para garantizar que esté en formato texto, incluso si hay valores numéricos o nulos, y usas .head() para inspeccionar las primeras cinco filas y verificar que la carga fue correcta.

Una vez confirmado el contenido, importas el módulo de expresiones regulares (re) para procesar texto. Aquí construyes una función limpiar_texto que recibe una cadena y aplica dos transformaciones clave:

Convertir todo a minúsculas con .lower().
Eliminar signos de puntuación y unificar espacios con expresiones regulares.

Luego aplicas la función a cada comentario y muestras 10 filas aleatorias comparando la columna original y la limpia. Así verificas que el preprocesamiento dejó los datos listos para el análisis [02:30].

¿Cómo construir una nube de palabras con WordCloud?

La nube de palabras te da una vista rápida de qué temas dominan la conversación de los fans. Para crearla importas la clase WordCloud y matplotlib para visualizar [03:40].

El flujo dentro del bloque es directo:

Eliminas filas donde el comentario limpio quedó vacío tras recortar espacios.
Concatenas todos los comentarios en una sola cadena con .join().
Compruebas con un if que haya texto disponible antes de generar la nube.
Usas WordCloud().generate() para crear la imagen y plt.figure() con un lienzo de 10 por 5 pulgadas para renderizarla.

Ocultas los ejes para enfocar la atención en las palabras y añades un título descriptivo. Si el texto está vacío, un else imprime una advertencia.

Al ejecutar el bloque, los términos que más resaltan en los comentarios son: equipo, defensa, partido, técnico, cometió errores. Ya con eso te haces una idea del tono de la hinchada.

¿Qué hace una nube de palabras? Muestra visualmente los términos más frecuentes en una colección de texto. Mientras más grande aparece una palabra, más veces se repite en los comentarios.

¿Cómo visualizo la distribución de sentimientos?

Para medir cuántos comentarios son positivos, negativos o neutrales importas seaborn y matplotlib [05:25]. Verificas con un if que exista la columna sentimiento en el data frame y luego usas sns.countplot() para dibujar un gráfico de barras con la frecuencia de cada categoría.

Añades título, etiquetas en los ejes X y Y, y muestras el gráfico con plt.show(). Si la columna no existe, un else imprime una alerta.

Los resultados al ejecutar muestran una distribución bastante pareja:

60 comentarios neutrales.
70 comentarios negativos.
70 comentarios positivos.

Esto te indica que la opinión de la hinchada está dividida, lo cual abre la puerta a un análisis cualitativo más fino.

¿Cómo explorar comentarios con widgets interactivos en Jupyter?

Para cerrar el análisis con interactividad usas ipywidgets y display, que permiten mostrar data frames de forma limpia en el ambiente de Jupyter [06:40].

La receta es la siguiente:

Creas un widgets.Dropdown con las categorías encontradas en la columna sentimiento.
Defines una función mostrar_comentarios que recibe la categoría seleccionada y filtra el data frame por esa categoría.
Usas .sample(5) para mostrar cinco comentarios aleatorios, en versión original y limpia.
Conectas el dropdown con la función usando widgets.interactive, generando la interfaz.

El resultado es un selector que te deja explorar ejemplos reales de comentarios neutrales, negativos y positivos sin escribir código adicional. Esta es la mejor forma de hacer una exploración cualitativa de la opinión de la hinchada.

¿Qué es ipywidgets? Es una librería que añade controles interactivos como dropdowns, sliders y botones a los notebooks de Jupyter, ideal para explorar datos sin reescribir celdas.

¿Qué sigue después de aprender NLP básico?

Ya diste los primeros pasos para convertir texto en datos útiles. Cargaste y limpiaste información con pandas, construiste pipelines, implementaste regresión para predecir goles, clasificación para distinguir roles de jugadores, clustering para descubrir patrones y feature engineering para crear variables nuevas.

Desde aquí puedes avanzar hacia:

Modelos de clasificación automática de sentimientos sin intervención humana.
BERT para análisis de texto avanzado.
Llevar tus modelos a producción con herramientas como Streamlit.
Practicar con datos de otros equipos y ligas.

Mezcla estadísticas y emoción en cada decisión. Cuéntame en los comentarios: ¿qué te parecieron los sentimientos detectados en los fans del equipo? ¿Crees que vamos por buen camino?

Mario Alexander Vargas Celis

Estudiante

El análisis de sentimientos con NLP (Procesamiento de Lenguaje Natural) es ideal para interpretar comentarios de fans, periodistas o redes sociales sobre eventos deportivos, jugadores o equipos.

🎯 ¿Qué es el análisis de sentimientos?

Es una técnica de NLP que detecta la opinión emocional detrás de un texto:

Positivo → elogios, entusiasmo, apoyo
Negativo → críticas, decepción
Neutral → información objetiva o sin carga emocional

🛠️ Herramientas comunes para hacerlo en Python

NLTK / TextBlob → fácil para empezar
Hugging Face Transformers (modelos preentrenados como BERT)
scikit-learn con TF-IDF y regresores
spaCy para tareas de NLP general + extensiones

✅ Pipeline típico de análisis de sentimientos deportivo

1. 🧾 Recolectar comentarios

Ejemplo:

comentarios = [ "¡Qué gran partido jugó Messi!", "Fue una vergüenza el arbitraje.", "El equipo no mostró nada hoy.", "Increíble atajada del arquero.", "Un empate justo, buen nivel de ambos." ]

2. 🧽 Preprocesamiento (con nltk o re)

import re

def limpiar(texto): texto = texto.lower() texto = re.sub(r'[^\w\s]', '', texto) # Eliminar signos return texto

comentarios_limpios = [limpiar(c) for c in comentarios]

3. 📦 Análisis rápido con TextBlob

from textblob import TextBlob

for c in comentarios_limpios: blob = TextBlob(c) print(f"Comentario: {c}") print(f"Polaridad: {blob.sentiment.polarity:.2f} → {'Positivo' if blob.sentiment.polarity > 0 else 'Negativo' if blob.sentiment.polarity < 0 else 'Neutral'}") print()

🧠 ¿Qué hace TextBlob?

polarity: valor entre -1 (negativo) y 1 (positivo)
subjectivity: qué tan subjetivo u objetivo es el texto (opcional para otras tareas)

📈 ¿Y si quiero usar un modelo más potente como BERT?

from transformers import pipeline

clasificador = pipeline("sentiment-analysis", model="nlptown/bert-base-multilingual-uncased-sentiment")

resultados = clasificador(comentarios) for comentario, res in zip(comentarios, resultados): print(f"{comentario} → {res['label']}, score: {res['score']:.2f}")

Este modelo entrega predicciones del 1 al 5 🌟.

🔍 Aplicaciones en deportes

🏟️ Monitorear reacciones en tiempo real durante partidos
👥 Evaluar percepción de fans sobre jugadores o decisiones tácticas
📊 Visualizar tendencias emocionales en redes o foros
📢 Segmentar audiencia por tono de opinión

Cesar Vargas Ochoa

Javier Emanuel González Andrade

Mauricio Escobar

•

Moises Bravo

David Saúl Martínez Sánchez

Juan Acevedo

Juan Osorio

Profesor

Leyder Sanchez

Gabriel Obregón

Fernando Lavao Orjuela

Percy Tejada

Jason Sepulveda

L. Iván Carrasquel Ballesteros

Amelia Esther Alter Pino

Santiago Franco Gaviria

Esteban Bastías B.

Victor Funez

Víctor Manuel Sánchez Cruz

kevin bustamante

Juan Manuel Hernández Ávila

Análisis de sentimientos de fans con NLP

Fundamentos de Machine Learning y Contexto Deportivo

Supervisado, no supervisado o refuerzo: cuál elegir

Modelos supervisados para predecir partidos

Clustering y PCA sin etiquetas en datos

Configuración de Python y Jupyter para análisis deportivo

Preparación y Exploración de Datos

Limpieza de datos CSV con Pandas

Estadística descriptiva para analizar partidos

MinMaxScaler y StandardScaler en Python

Ingeniería de Características

Feature engineering con pandas para fútbol

Selección de características con SelectKBest y árboles de decisión

Modelado Predictivo Supervisado

División de datos en machine learning con train_test_split

Regresión lineal para predecir goles en Python

Cómo saber si tu modelo de regresión funciona

Análisis de métricas R² en modelos de regresión deportiva

Árbol de decisión vs regresión lineal

Aprendizaje No Supervisado

Clustering de jugadores con K-Means

Interpretación de clusters de K-means para perfiles de jugadores

Visualización de perfiles de jugadores con análisis PCA

Pipeline y Proyecto Final

Pipeline ML que une predicción y scouting

Introducción al Deep Learning

Redes neuronales con PyTorch paso a paso

NLP en nuestro caso de uso

Análisis de sentimientos de fans con NLP

Resumen