Carga y exploración de datasets de reseñas en Google Colab

Contenido del curso

Introducción y Fundamentos del NLP

Técnicas Tradicionales de NLP para Documentos Empresariales

Introducción y Profundización en Transformers para Aplicaciones Empresariales

Proyecto Final y Estrategia Comercial B2B

Resumen

Una nube de palabras es una herramienta visual práctica para entender rápidamente cómo los clientes perciben un producto o servicio. Vamos a aprender cómo realizar esta tarea utilizando reseñas reales de Amazon en cinco pasos simples, ayudándonos con herramientas como Google Colab, Pandas, Matplotlib y Seaborn.

¿Qué necesitamos para crear una nube de palabras?

Para empezar con el análisis de reseñas en español directamente desde Amazon, necesitamos:

Un archivo comprimido (.rar) con reseñas en español.
Google Colab, una plataforma útil para aprovechar procesamiento gráfico cuando el proyecto lo requiera.
Librerías de Python fundamentales para análisis de datos:
- Pandas: para manipular y explorar datos.
- Matplotlib y Seaborn: para realizar visualizaciones atractivas y claras.

¿Cómo cargamos y exploramos las reseñas de Amazon?

Inicialmente debemos subir el archivo comprimido y descomprimirlo directamente en Google Colab:

!unrar archivo.rar

Luego cargamos el conjunto de datos en formato CSV utilizando Pandas:

import pandas as pd

data = pd.read_csv('ruta_al archivo.csv')
data.head(3)

Al explorar nuestro conjunto de datos, encontramos:

ID del usuario que dejó la reseña.
Producto asociado.
La calificación otorgada en estrellas (del 1 al 5).
Comentarios (cuerpo) y título de la reseña.
Categoría del producto.

Además, con data.tail(3), revisamos rápidamente las últimas filas, asegurándonos una visión amplia del dataset.

¿Cómo analizamos la distribución de reseñas por estrellas?

Un análisis visual nos permite identificar rápidamente la cantidad de reseñas según las estrellas otorgadas. Utilizando Matplotlib y Seaborn:

import matplotlib.pyplot as plt
import seaborn as sns

plt.figure(figsize=(8,4))
sns.countplot(x='stars', data=data)
plt.title('Distribución de puntuaciones')
plt.xlabel('Estrellas otorgadas')
plt.ylabel('Cantidad de reseñas')
plt.show()

Observamos que el dataset está equilibrado, facilitando inferencias y análisis posteriores.

¿Qué categorías predominan en las reseñas analizadas?

Explorar las categorías más frecuentes ayuda a enfocar mejor nuestros análisis:

categorias = data['categoria'].value_counts().head(9)
otros = data['categoria'].value_counts()[9:].sum()
categorias['Otros'] = otros

plt.figure(figsize=(8,4))
sns.barplot(x=categorias.index, y=categorias.values, palette='Blues_d')
plt.title('Distribución de productos: Top 9 más Otros')
plt.xlabel('Categorías')
plt.ylabel('Cantidad de productos')
plt.show()

Las principales categorías incluyen hogar, artículos inalámbricos y juguetes, siendo importante considerar la categoría "Otros" que reúne una significativa cantidad de productos.

Si tienes dudas sobre algún paso o quieres compartir tu experiencia visualizando reseñas con nubes de palabras, te invitamos a comentar.

Comentarios

Cristian Pisco Intriago

student•

Si quieren agregar el valor de cada barra sobre la misma, les dejo el código:

plt.figure(figsize=(8, 4))
ax = sns.countplot(x='stars', data=original_data)
for patch in ax.patches:
    height = patch.get_height()
    ax.annotate(f'{int(height)}', 
                (patch.get_x() + patch.get_width() / 2, height),
                ha='center', va='bottom')
plt.title('Distribución de Puntuaciones')
plt.show()
```plt.figure(figsize=(8, 4))ax = sns.countplot(x='stars', data=original\_data)for patch in ax.patches:    height = patch.get\_height()    ax.annotate(f'{int(height)}',                 (patch.get\_x() + patch.get\_width() / 2, height),                ha='center', va='bottom')plt.title('Distribución de Puntuaciones')plt.show()

Juan R. Vergara M.

student•

Una forma muy visual de ver las palabras mas relevantes!

Daniel Agustín Luis Garcia

student•

Los recursos los pueden encontrar en el Github de Platzi. Este es el repositorio:

johann emilio paez jimenez

student•

Gracias Daniel !!!

Javier Ramos

student•

Jamas pensé que crear una nube de palabras fuera tan sencillo

Nury Natalia Toro González

student•

Cordial saludo, donde está la sección de recursos? Gracias

Gilber Alzate

student•

johann emilio paez jimenez

student•

Ayuda, no veo los recursos del curso.

Daniel Agustín Luis Garcia

student•

Tuve que irme al Github de Platzi para encontrar los recursos:

Carga y exploración de datasets de reseñas en Google Colab

Introducción y Fundamentos del NLP

Automatización de clasificación de textos con Python y NLP