Análisis de texto no estructurado para insights de clientes

Clase 18 de 21 • Curso de Ciencia de Datos para Análisis de Negocio

Contenido del curso

Fundamentos y Estrategía

Cultura y Gobernanza

Herramientas y Roles

Análisis de Negocio

Machine Learning y Operación

Tomar examen

Resumen

El texto no estructurado es oro para entender a los clientes. Con técnicas de minería de texto y análisis cualitativo, puedes transformar reseñas, correos y tickets en insights accionables que explican el porqué detrás de tus métricas. Aquí verás cómo tokenizar, limpiar, detectar tópicos y medir sentimiento para priorizar decisiones con claridad.

¿Qué es el análisis cualitativo y la minería de texto?

El análisis cualitativo trabaja con palabras, no con números, pero es igual de riguroso. Su objetivo: entender cómo hablan los clientes, qué repiten y qué emociones transmiten. La minería de texto es el conjunto de técnicas para procesar grandes volúmenes de texto sin leer uno por uno cada mensaje.

Tokenización: dividir el texto en partes pequeñas para su análisis.
Identificación de tópicos: detectar temas recurrentes.
Análisis de sentimiento: medir connotaciones positivas, negativas o neutras.
Insights accionables: conectar hallazgos con decisiones de negocio.

El proceso recomendado es simple: recolectar textos (reseñas, chats, NPS, tickets), preparar datos (quitar stop words, normalizar, limpiar signos) y analizar con Excel, Google Sheets, MonkeyLearn, RapidMiner o un script en Python. El valor aparece cuando unes lo cuantitativo con lo cualitativo: los dashboards dicen qué pasa; los comentarios explican por qué.

¿Cómo aplicar tokenización y análisis de sentimiento en la práctica?

Se trabajó con un CSV llamado “Fakes Mile” con 2,000 comentarios y dos columnas: clase y texto (noticias de España). La secuencia incluyó lectura del archivo, limpieza de signos y patrones (abreviaciones, porcentajes, cifras), uso de un tokenizador, conversión a minúsculas, un flatten para unificar en una lista, y eliminación de puntuación y stop words en español.

Palabras frecuentes: top 20 más comunes. Por ejemplo, “años” (207), “según” (193), “Gobierno” (171).
Visualización: creación de una nube de palabras con las 50 más frecuentes.

Para el análisis de sentimiento se usó la librería vader_lexicon y su analizador de intensidad. Asigna puntuaciones positivas, negativas y neutras por palabra, combinando en un compound. Ejemplo probado: I feel so tired → negativo 0.615, neutro 0.385, positivo 0; compuesto −0.49 (sentimiento negativo). Se definieron umbrales: compound ≥ 0.05 positivo (1), entre −0.05 y 0.05 neutro (0), y el resto negativo (−1). Luego se creó una columna “sentimiento” y se graficaron frecuencias con matplotlib. Resultado: mayoría de textos neutros, luego positivos y pocos negativos.

Caso de negocio típico: en soporte, cientos de tickets con métricas estables, pero baja satisfacción. La minería de texto revela patrones: la app “se cierra sola”, tono más negativo y keywords como “inestable”, “frustrante”, “cada vez peor”. Señal temprana para evitar churn y proteger reputación.

¿Qué reto practicar para convertir comentarios en decisiones?

Imagina que eres gerente de producto de una app móvil y analizas comentarios de usuarios que abandonaron.

Tokeniza una muestra de textos de la base de recursos.
Agrupa por temas: soporte, entrega, precio, experiencia en la app.
Revisa palabras más frecuentes y asigna cada comentario a un tema.
Detecta el sentimiento: positivo, negativo o neutro (por lectura o por lista de palabras clave).
Responde: ¿qué tema se repite más? ¿qué emoción predomina? ¿qué insight no verías solo con métricas numéricas?

Habilidades que ejercitas: limpieza y normalización de texto, eliminación de stop words, tokenización, extracción de frequent words, detección de tópicos, clasificación con compound y umbrales, y visualización con matplotlib. El objetivo es pensar con datos duros más contexto humano para tomar mejores decisiones, con y sin tecnología.

¿Te gustaría compartir qué temas y emociones emergieron en tu muestra y cómo impactarían tus próximas decisiones de producto?

Comentarios

Neyron Zapata

student•

Que increíble lo que acabo de ver!!

Juan Camilo Guerrero Martínez

student•

Me pareció excelente y muy interesante esta clase sobre análisis de texto. Creo que estas herramientas tienen un potencial enorme en estudios de mercado, especialmente al analizar encuestas abiertas. En lugar de solo ver números, podemos capturar el sentimiento real de los clientes y encontrar insights que los datos cuantitativos por sí solos no revelan. Imaginen poder detectar automáticamente qué temas generan más satisfacción o preocupación en miles de respuestas... ¡se vuelve súper valioso para la toma de decisiones! 😊

Alhena Landsman

student••

Buenas! Me encantan las clases, lo único que me parece que se debe añadir en esta en particular es la explicación de cómo usar colab.research.google antes y cómo se cargan y ejecutan los archivos.

Diego Olivos

student•

Totalmente de acuerdo.

Miguel Angel Ruiz Bolaños

student•

si o una encuesta en cada modelo o clase como en google academic para refrescar la info al menos

Gabriel Obregón

student•

🧠MINERÍA DE TEXTO Y ANÁLISIS CUALITATIVO

💬 1. El valor del texto no estructurado

📍 El texto no estructurado es oro para entender a los clientes. Ejemplos: reseñas, correos, tickets de soporte, chats.

🔧 Técnicas clave:

🧩 Tokenizar: dividir el texto en fragmentos.
🧹 Limpiar: eliminar ruido, signos o palabras vacías.
🎯 Detectar tópicos: identificar temas recurrentes.
💓 Medir sentimiento: clasificar emociones (positivas, neutras o negativas).

💡 Beneficio: decisiones más claras y basadas en evidencia.

🔍 2. Conceptos esenciales

🗣️ Análisis cualitativo

Trabaja con palabras, no números.
Busca entender cómo hablan los clientes y qué emociones comunican.

💻 Minería de texto

Aplica procesos automáticos sobre grandes volúmenes de texto.
Permite descubrir patrones sin leer cada mensaje manualmente.

⚙️ 3. Proceso general

1️⃣ Recolectar textos: reseñas, tickets, encuestas NPS, chats.

2️⃣ Preparar datos: quitar stop words, normalizar palabras y limpiar signos.

3️⃣ Analizar: con herramientas como

🧮 Excel, 📊 Google Sheets, 🧠 MonkeyLearn, ⚡ RapidMiner o 🐍 Python.

📈 Recuerda:

Los dashboards muestran qué pasa.
Los comentarios explican por qué pasa.

🧩 4. Ejemplo práctico: “Fakes Mile”

📂 Datos:

Archivo CSV con 2,000 comentarios.
Columnas: clase y texto (noticias de España).

🧭 Pasos realizados:

Leer archivo.
Limpiar signos, abreviaciones, porcentajes y cifras.
Tokenizar + convertir a minúsculas.
Unificar (flatten) tokens.
Eliminar puntuación y stop words (español).

📊 Hallazgos:

“años” (207)
“según” (193)
“Gobierno” (171)
Visualización: nube con las 50 palabras más frecuentes.

❤️ 5. Análisis de sentimiento

🧰 Librería usada: vader_lexicon

Evalúa cada palabra y asigna puntajes:

Positivo
Neutro
Negativo Luego calcula un valor compuesto (compound).

📍 Ejemplo: “I feel so tired” → Negativo: 0.615 | Neutro: 0.385 | Positivo: 0 | Compuesto: −0.49 → Sentimiento negativo

📏 Umbrales definidos:

≥ 0.05 → Positivo (1)
entre −0.05 y 0.05 → Neutro (0)
< −0.05 → Negativo (−1)

📈 Resultado: ✅ Mayoría neutra 🙂 Algunos positivos ☹️ Pocos negativos

💼 6. Caso de negocio típico

📊 Situación: Soporte con métricas estables, pero clientes insatisfechos.

🔎 Descubrimientos con minería de texto:

Frase repetida: “la app se cierra sola”.
Tono general negativo.
Palabras clave: inestable, frustrante, cada vez peor.

🚨 Insight: alerta temprana de churn y deterioro de reputación.

Jorge Antonio Medina Trujillo

student••

Listo, abierto en Google Colab:

1️⃣ ¿Cómo abrir un notebook de Jupyter (.ipynb) en Google Colab?:

Ve a 👉 Google Colab
Haz clic en "Upload / Subir".
Selecciona tu archivo .ipynb.
Se abrirá automáticamente en Colab y podrás ejecutar las celdas con ▶.
Al descargar el archivo de Excel, dice "Clase_18_fakes1000.csv", hay que cambiar el nombre a: "fakes1000.csv", pues si no se cambia, al ejecutar el código va a salir el error de que no se pudo encontrar el archivo (pues tiene otro nombre).

Esteban Bastías B.

student•

Esteban Bastías B.

student•

Jackssuriss Tatiana Herrera Florez

student•

Marco Antonio Zayas Oliva

student•

Esta clase estuvo estupenda , me aclaró muchas dudas , lo unico que lo que estoy encontrando en los materiales es el mismo ejemplo que explicas en el video y no lo que supuestamente es la tarea que indicas, a no ser que yo este buscando en "archivos de clase" y sea en otro apartado. Si alguien me ayuda a identificar donde encuentro el dataset para la tarea. Gracias

Jaime Lopez Hidalgo

student•

Jaime, la clase menciona que la librería Vader Lexicon asigna puntuaciones a palabras, incluso si no son explícitamente positivas, basándose en la frecuencia de su uso en contextos positivos. Esto implica que está diseñada para el inglés. Para español, necesitarías un léxico o modelo específico en ese idioma.

Edith Andrea

student••

Trabajè en una empresa justo en la parte de text mining, y efectivamente asi se hace, la diferencia es que en power bi haciamos los graficos, de acuerdo a la necesidad, pero tal cual, hay que manejar mucho màs el tema de Expresiones Regulares (o Regex), y crear modulos, funciones para reutilizaciòn de codigo, pero esta genial esta parte.

Lorena Alejandra Gonzalez

student•

1 hola! han agregado algun plugin para que al abrir el archivo ipynb se vea como lo ve la profesora? A mi simplemente me lo abre en un tab del navegador sin esas opciones.

ESTEBAN ZAPATA VELASQUEZ

student••

Hola, lo que la profesora utilizó se llama google colab, el archivo ipynb despues de descargarlo de los archivos de la calse lo puedes subir a google drive y abrirlo desde google colab eso ya te mostrara todas las opciones

Ivsumilih Yamilev Tineo Gutiérrez

student•

Super interesante!

Podrían compartir el código por escrito?

Frida Ruh

teacher•

Lo puedes encontrar en los archivos de la clase.

Es el archivo que se llama:

clase-17-noticias-espana.ipynb

José Eder Guzmán Mendoza

student•

La minería de texto y el análisis cualitativo permiten transformar datos no estructurados (reseñas, tickets, correos) en insights accionables que explican el “por qué” detrás de las métricas. Mientras los datos cuantitativos muestran qué ocurre, el análisis de texto revela percepciones, emociones y causas.

El proceso incluye varias etapas clave:

Tokenización: dividir el texto en palabras o unidades analizables.
Limpieza: eliminar signos, stop words y normalizar el contenido.
Identificación de tópicos: detectar temas recurrentes en los comentarios.
Análisis de sentimiento: clasificar textos como positivos, negativos o neutros.

Estas técnicas permiten analizar grandes volúmenes de información sin leer cada comentario manualmente, utilizando herramientas como Excel, Python o plataformas especializadas.

En la práctica, este enfoque ayuda a identificar patrones ocultos. Por ejemplo, en tickets de soporte, aunque las métricas operativas sean estables, el análisis de texto puede revelar palabras como “inestable” o “frustrante”, indicando problemas en la experiencia del usuario que podrían derivar en churn.

En síntesis, combinar minería de texto con análisis cuantitativo permite tomar decisiones más completas, priorizar mejoras y anticipar riesgos, integrando datos duros con el contexto humano de los clientes.

Angel Raul Garcia Jimenez

student•

diferencia entre mineria de texto vs mineria de datos vs analisis de sentimiento ?

Hola, Angel Raul. Es una excelente pregunta para distinguir cómo procesamos la información:

Minería de datos: Es el proceso general de extraer patrones, anomalías o correlaciones en grandes conjuntos de datos, usualmente estructurados (números, fechas, categorías en tablas). Es como buscar una aguja en un pajar de números.
Minería de texto: Es una rama específica que aplica técnicas similares pero a datos no estructurados (comentarios, correos, reseñas). Su objetivo es convertir el lenguaje humano en datos organizados mediante procesos como la tokenización y la limpieza de stop words.
Análisis de sentimiento: Es una técnica dentro de la minería de texto. Su función es asignar una carga emocional (positivo, negativo o neutro) a esos textos procesados para entender la actitud del cliente.

Te recomiendo revisar "Diferencias entre BI, Analytics y Big Data para empresas" y "Flujo de datos: de información cruda a decisiones de negocio".

Edgardo Cuello

student•

impresionante los ejercicios

Carlos Eduardo Cabello Rodriguez

student•

punto importante: el archivo se debe cargar al google drive con el nombre del video para llamarlo desde google colab y al exportar el .csv con el mismo nombre corto no con el nombre que se descarga

Julio cesar Nuñez amezcua

student•

para entender este curso a la perfección que clases debí entender antes siendo principiante

yina nuñez

student•

Ese es el insight profundo que los números por sí solos no pueden mostrar. El reporte de accidentes dice "corte en la mano", pero el análisis cualitativo revela la verdadera causa raíz: una cultura de liderazgo basada en el miedo

David Ricardo Ortigoza Micolta

student•

me encato esta clase, el como te abre los ojos para otros datos es de locos. Ya tengo un par de ideas para el entorno clínico en el cual trabajo

Análisis de texto no estructurado para insights de clientes

Fundamentos y Estrategía

Ciencia de datos para análisis de negocios sin programación

Diferencias entre Business Intelligence, Data Science y Machine Learning

Palancas de valor en análisis de datos para ventaja competitiva

Las cinco V del Big Data: volumen, velocidad, variedad, veracidad y valor

Flujo de datos: de información cruda a decisiones de negocio

Diferencias entre BI, Analytics y Big Data para empresas

Cultura y Gobernanza

Cómo construir una cultura orientada al dato en tu organización

Calidad y gobernanza de datos para decisiones confiables

Responsabilidad ética en el manejo de datos personales

Sesgos invisibles en datos y sistemas de inteligencia artificial

Herramientas y Roles

Roles y responsabilidades en equipos de datos con matriz RACI

SQL vs Python vs R: cuándo usar cada herramienta de datos

Cómo leer SQL para validar reportes de negocio

SQL para ventas: filtros, joins y decisiones de negocio

Análisis de Negocio

Storytelling con datos para convertir insights en decisiones

Formulación de hipótesis SMART para análisis de datos

Segmentación RFM de clientes con Excel paso a paso

Análisis de texto no estructurado para insights de clientes

Análisis integrado de quejas por ciudad, fecha y categoría

Machine Learning y Operación

Evaluación de modelos de machine learning para decisiones de negocio

Despliegue y operación de modelos en producción