Minería de texto y análisis de sentimiento

Cursos Empresas Blog Live Conf Precios

Contenido del curso

Fundamentos y Estrategía

Cultura y Gobernanza

Herramientas y Roles

Análisis de Negocio

Machine Learning y Operación

Tomar examen

Minería de texto y análisis de sentimiento

Resumen

No todo lo que importa en tu negocio vive en una tabla. El análisis cualitativo de datos te permite leer comentarios, reseñas, tickets y encuestas para entender el porqué detrás de los números, algo clave si trabajas en producto, soporte, marketing o estrategia.

Los dashboards te dicen qué pasa. Los comentarios te dicen por qué. Y cuando juntas ambos mundos, dejas de operar con un ojo cerrado.

¿Qué es el análisis cualitativo y en qué se diferencia del cuantitativo?

Es una forma de analizar información que no son números, pero que sigue siendo rigurosa. En vez de contar cuántas veces ocurre algo, buscas entender cómo hablan tus clientes, qué repiten, qué emociones transmiten y qué temas aparecen una y otra vez [00:32].

¿Qué es el análisis cualitativo de datos? Es el estudio de información no numérica, como texto o conversaciones, para detectar patrones, emociones y temas que las métricas no muestran por sí solas.

Lo cuantitativo te da volumen. Lo cualitativo te da contexto. Y cuando los unes, tus decisiones tienen otra profundidad.

¿Cómo funciona la minería de texto en un caso real?

La minería de texto es el conjunto de técnicas para analizar grandes volúmenes de comentarios sin tener que leerlos uno por uno [01:18]. Imagina que lideras soporte y recibes cientos de tickets cada semana. Las métricas se ven estables, pero algo no cuadra.

Al revisar los textos descubres tres señales:

Muchas quejas mencionan el mismo problema: la app se cierra sola.
El tono de los mensajes es cada vez más negativo.
Aparecen palabras nuevas como inestable, frustrante, cada vez peor.

Eso es minería de texto en acción: una alerta temprana antes de que se vayan los clientes [02:10].

¿Qué técnicas básicas se usan para minar texto?

La minería de texto se apoya en varias técnicas que puedes combinar según el caso:

Tokenización: dividir el texto en partes pequeñas, normalmente palabras [01:38].
Identificación de tópicos: detectar patrones y temas recurrentes.
Análisis de sentimiento: medir si el tono es positivo, negativo o neutro.
Limpieza con stop words: quitar palabras vacías como de, la, que, el que no aportan al análisis [05:48].

Con esas piezas ya puedes convertir miles de comentarios sueltos en insights accionables.

¿Qué necesitas para empezar a analizar texto no estructurado?

No necesitas un stack sofisticado. El proceso completo se reduce a tres pasos muy claros [02:40]:

Recolectar el texto desde reseñas, chats, tickets, encuestas o cualquier canal donde el cliente hable.
Prepararlo quitando palabras vacías, normalizando mayúsculas y separando por palabras clave.
Analizarlo con Excel o Google Sheets para filtros y frecuencias, o con herramientas más robustas como MonkeyLearn o RapidMiner.

Si quieres ir un paso más allá, también puedes correr un script en Python que automatiza todo el flujo.

¿Cómo se ejecuta el análisis paso a paso en Python?

En la demo se trabaja con un archivo CSV llamado Fakes 1000 que contiene 2.000 comentarios y dos columnas: clase y texto [03:50]. El flujo es el siguiente:

Importar las librerías necesarias y cargar el CSV.
Convertir la base en una lista y eliminar signos de puntuación, abreviaciones, porcentajes y cifras de dinero [04:40].
Aplicar un tokenizador para separar las palabras y pasar todo a minúsculas.
Usar una función flatten para unificar todo en una sola lista y limpiarla mejor [05:30].
Descargar las stop words en español y removerlas con un ciclo for.
Calcular las palabras más frecuentes con una variable llamada FW (frequent words).

Entre los primeros resultados aparecen años con 207 repeticiones, según con 193 y gobierno con 171 [06:50]. Las 50 palabras más comunes se guardan para visualizarlas en una nube de palabras.

¿Cómo medir el sentimiento de los comentarios?

Para el análisis de sentimiento se usa la librería VADER Lexicon y la función del analizador de intensidad de sentimiento [07:35]. Cada palabra recibe una puntuación positiva, negativa y neutra, y el resultado se entrega como un valor compuesto.

En la prueba con la frase I feel so tired, las puntuaciones fueron negativo 0.615, neutro 0.385, positivo 0 y un compuesto de -0.49, lo que indica un sentimiento general negativo [08:30].

¿Cómo se clasifica el sentimiento con VADER? Si el compound es mayor o igual a 0.05 se marca como positivo (1), si está entre -0.05 y 0.05 es neutro (0), y por debajo de -0.05 es negativo.

Con esa lógica se crea una columna llamada sentimiento en la tabla original y, al graficar las frecuencias con Matplotlib, se observa que la mayoría de noticias del dataset son neutras, seguidas por positivas y, en menor medida, negativas [09:30].

¿Cómo aplicar este análisis en tu trabajo diario?

Imagina que eres gerente de producto de una app móvil y recibes comentarios desde la tienda, encuestas NPS y tickets de soporte. El reto propuesto te invita a trabajar con una muestra de clientes que abandonaron el producto [10:40].

El ejercicio tiene cuatro pasos concretos:

Tokenizar los comentarios de forma manual a partir de la base entregada.
Agrupar temas principales revisando palabras frecuentes y asignando cada comentario a una categoría como soporte, entrega, precio o experiencia en la app.
Detectar el sentimiento clasificando cada comentario como positivo, negativo o neutro mediante el tono o una lista de palabras clave.
Responder tres preguntas: qué tema se repite más, qué emoción predomina y qué insight descubriste que no se ve solo con métricas numéricas.

¿Por qué combinar datos cuantitativos y cualitativos? Porque los números muestran qué está pasando y los textos explican por qué pasa. Juntos te permiten detectar churn, problemas de conversión o riesgos de reputación antes que la competencia.

Cuéntame en los comentarios qué fuente de texto vas a analizar primero en tu equipo y qué hipótesis quieres validar con ella.