Clasificación de Sentimientos con Reviews de Amazon

Clase 26 de 26 • Curso de Algoritmos de Clasificación de Texto

Contenido del curso

Desambiguación y etiquetado de palabras

Modelos Markovianos Latentes (HMM)

Algoritmo de Viterbi

Modelos Markovianos de máxima entropía (MEMM)

Clasificación de texto con NLTK

Implementación de un modelo de clasificación de texto

Tomar examen

Resumen

Construir modelos de clasificación de texto desde cero es una habilidad que abre puertas en múltiples industrias. Cuando dominas los fundamentos de un algoritmo, puedes adaptarlo a cualquier problema: desde filtrar correos spam hasta analizar millones de opiniones de usuarios en redes sociales. Aquí se plantea un reto práctico que pone a prueba todo lo aprendido y se exploran las áreas profesionales donde estas técnicas tienen mayor demanda.

¿Qué implica construir modelos de clasificación customizables?

Dominar la clasificación de texto significa entender el algoritmo desde sus bases y ser capaz de escribir modelos desde cero [0:12]. Pero hay un matiz importante: la clasificación no se limita a dos etiquetas. El ejemplo clásico de spam versus no spam es solo el punto de partida. En la práctica, puedes trabajar con múltiples categorías y seleccionar los atributos del texto que mejor permitan al modelo predecir cada una de ellas [0:27].

Escoger los atributos adecuados es uno de los ingredientes esenciales. Esto implica decidir qué características lingüísticas —frecuencia de palabras, combinaciones, patrones— serán las más informativas para tu clasificador.

¿Cómo se plantea el reto de análisis de sentimiento con reviews de Amazon?

El reto propuesto consiste en construir un modelo de sentimiento utilizando el dataset de reviews de Amazon [2:05]. A diferencia de un clasificador binario (bueno o malo), aquí se trabaja con una escala de uno a cinco, lo que implica al menos cinco categorías de clasificación.

El dataset requiere un procesamiento original y particular por su estructura [2:22].
Tienes libertad total para elegir el modelo: puedes usar Naive Bayes, árboles de decisión o clasificadores de máxima entropía [2:50].
No existe una única forma correcta de resolver el problema [3:20].

Un punto de partida útil es la documentación de NLTK, que incluye una sección específica sobre clasificación de texto [1:08]. Allí encontrarás ejemplos que trabajan con un corpus de reviews de películas, construyen el corpus, aplican un shuffle y calculan las palabras más probables como atributos para el modelo [1:25]. Sin embargo, la invitación es ir más allá de ese código base.

¿Por qué explorar algoritmos más allá de Naive Bayes?

Las bases teóricas adquiridas permiten comprender otros algoritmos e integrarlos de inmediato en tu flujo de procesamiento [2:38]. Los árboles de decisión funcionan dividiendo los datos según atributos que maximizan la separación entre categorías. Por su parte, los clasificadores de máxima entropía buscan la distribución de probabilidad más uniforme que sea consistente con las restricciones observadas en los datos [2:55]. Cada enfoque tiene ventajas distintas según el tipo de texto y la cantidad de categorías.

¿Dónde se aplican estos algoritmos en el mundo real?

La demanda de técnicas de clasificación de lenguaje natural es enorme y se concentra en dos áreas principales [4:15].

Publicidad y redes sociales. Las marcas necesitan analizar lo que la gente piensa de ellas para tomar decisiones estratégicas de negocio [4:28]. Esto implica:

Procesar grandes volúmenes de comentarios en redes sociales.
Realizar análisis de sentimiento para categorizar opiniones como positivas o negativas.
Bloquear comentarios ofensivos e identificar palabras asociadas a respuestas hostiles [4:45].

Centros de atención al usuario y CRMs. Las plataformas de Customer Relationship Management generan volúmenes masivos de datos a medida que las empresas crecen [5:10]. Los algoritmos de clasificación permiten:

Procesar y priorizar peticiones y reclamos automáticamente.
Identificar las principales causas de queja para mejorar productos o servicios [5:38].

¿Qué viene después del machine learning clásico?

Lo aprendido constituye una base sólida, pero el campo ha evolucionado hacia el uso de redes neuronales y algoritmos que alcanzan un accuracy muy cercano al 100 % en algunas tareas de procesamiento [6:05]. El machine learning clásico proporciona los fundamentos conceptuales sobre los cuales se construyen estas técnicas más avanzadas.

Si completaste el reto, comparte tus resultados y enfoque en los comentarios. Comparar soluciones distintas es una de las formas más efectivas de aprender y encontrar alternativas que ningún enfoque individual podría cubrir por sí solo.

Comentarios

Daniel Eishu Oyama Arevalo

student•

Primero probé con métodos vistos en clase pero para usar otros algoritmos me resulto mas difícil, por lo cual me apoyé de la solución del maestro y vectorizando el texto fue mas fácil probar otros algoritmos.

Con los atributos de frecuencia de palabras mayor a 50, los 250 biograms mas comunes y quitando las stopwords el RandomForestClassifier da un 95% de accuracy

# Abrimos el los archivos y los guardamos
f = open('/content/drive/My Drive/Colab Notebooks/NLP_resources/Algoritmos NLP/all_balanced.review', 'r')
text = f.read()
import nltk
from nltk.corpus import stopwords
bag_of_words = [] #Creamos el directorio de palabras
for line in text.split('\n'):
  seq = line.split('#label#:')
  if len(seq)==2:
    for key_value in seq[0].split(' '):
      bag_of_words.append(key_value.split(':')[0]) 
stopwords = stopwords.words('english')
bag_of_words = [w for w in bag_of_words if w.lower() not in stopwords] # Quitamos las stopwords
fdist = nltk.FreqDist(bag_of_words) # Sacamos las frecuencias
reduced_bow = [w for w in set(bag_of_words) if fdist[w]>50] # Separamos frecuencias que tengan mas de 50 repeticiones 
bigram_text = nltk.Text(bag_of_words) # Sacamos los biogramas
bigrams = list(nltk.bigrams(bigram_text))
top_bigrams = (nltk.FreqDist(bigrams)).most_common(250) # Separamos bigramas mas comunes

# Vectorizamos el texto

import numpy as np

vectors = []
labels = []
for line in text.split('\n'):
  seq = line.split('#label#:')
  if len(seq)==2:
    line_dict = {keyval.split(':')[0]: int(keyval.split(':')[1]) for keyval in seq[0].split(' ') if len(keyval.split(':'))==2}
    line_vector = []
    for word in reduced_bow:
      if word in line_dict.keys():
        line_vector.append(line_dict[word])
      else:
        line_vector.append(0)
    vectors.append(line_vector) # Indicamos si el texto tiene palabras de las mas frecuentes
    labels.append(float(seq[1]))

    bigram_text = nltk.Text(line_dict.keys())
    bigrams = list(nltk.bigrams(bigram_text))
    for word in top_bigrams:
      if word in bigrams:
        line_vector.append(1)
      else:
        line_vector.append(0)
    vectors.append(line_vector) # Indicamos si el texto tiene biogramas mas comunes
    labels.append(float(seq[1]))

vectors = np.array(vectors)

from sklearn.model_selection import train_test_split

train_vectors, test_vectors, train_labels, test_labels = train_test_split(vectors, labels, test_size=0.1, random_state=42)

from sklearn.ensemble import RandomForestClassifier

clf = RandomForestClassifier().fit(train_vectors, train_labels)
print('Score for RandomForestClassifier = {}'.format(clf.score(test_vectors, test_labels)))

Henry Mendiburu Díaz

student•

Me hubiera gustado que el curso se enfoque más en el uso y aplicación de las librerías sklearn, nltk, spacy, y no tanto en implementar fórmulas.

Josue Trinidad Acosta

student•

Creo que la documentación de las librerías ayuda mucho en eso. A mi me gustó mucho que se haya tomado el tiempo de explicar la lógica y no solo correr código porque sí :)

Diego Alejandro Muñoz Camayo

student•

Aquí está mi solución, realice bigramas y trigramas para mejorar el score, y finalmente el algoritmo que mejor me funciono fue random forest repo

Me gustó mucho la grafica que puso el profesor así que la incluí jaja

Gersonrpq

student•

Excelente ! Aqui mi solución al reto usando tensorflow https://colab.research.google.com/drive/1aovlP-JbQTR2WYnxN-YpUonqClD374kT?usp=sharing

Orlando castellanos

student•

no tienes un tutorial por ahi de como hacerlo compañero ?

Humberto Guardado

student•

Me encanta esta metodología, en mi caso he logrado filtrar PALABRAS RELEVANTES de mi diccionario de idioma maya kaqchikel de 11 mil entradas. He aprendido a ver las palabras mas frecuentes. He aprendido a ver cómo y por qué se utilizan esas palabras mas frecuentes. He aprendido a usar la metodología para analizar listados de palabras en textos específicos. No es precisamente el camino de ida de este curso, pero si es el camino de regreso.

Humberto Guardado

student•

TADA! He hallado por fin la tecnología que me va a ayudar en el año 2023, después de los tres años que he estudiado para certificarme en idiomas mayas. Gracias al profe y al equipo Platzi.

Platzi Team

student•

Tengo una duda en una pregunta del examen: " Si tenemos una cadena de Markov para describir las probabilidades de transición en cuanto al clima de un dia para otro, y observamos la siguiente secuencia de estados día tras día: (frío, frío, caliente, frío, tibio, caliente, tibio, frío), entonces la probabilidad de transición P(caliente|frío) es: " Frio =1 Caliente=2 Tibio=3 (frío, frío, caliente, frío, tibio, caliente, tibio, frío) = (1,1,2,1,3,2,3,1) P(Caliente | Frio) = P(Frio , Caliente) / P(Frio) P(2 | 1) = P(1 , 2) / P(1) P(1,2) = 1 / 7 # Una vez pasa de 1 a 2, sobre los 7 cambios posibles. P(Frio) = 3 / 7 # Dentro de las 7 transiciones posibles, 3 comienzan con 1 P(2 | 1) = P(1 , 2) / P(1) = 1/3 Respuestas posibles: 0%, 25%, 50% y 100% Si el cambio fuera de caliente a frio, caliente pasa una ves a frio y otra a tibio, de las 2 veces que caliente cambia de estado una pasa a frio. En ese caso la probabilidad es de 50%. Pero en el ejercicio P(caliente|frío) lo interpreto al revés. No se si el análisis es correcto???

Luis Fernando Úbeda Camacho

student•

Increible curso!!

Nydia Mejía Zavala

student•

Hola, les comparto mi proyecto

Luis Angel Mata Estrada

student•

Aquí esta mi solucion

Joaquin Romero Flores

student•

20 puntos!

Ricardo Talavera

student•

Excelente profesor Francisco, muy claro objetivo codea desde cero y explicando. Calor en las mates en la estadistica y que decir en su python. Mi pregunta es DONDE ENCUENTRO LOS DOS CURSOS RESTANTES QUE IBA A BRINDAR

Cesar Augusto Morales Godoy

student•

La verdad es en la práctica que se evidencia el gran valor que tiene este curso de Algoritmos de clasificación de texto con el anterior de fundamentos de NLTK también con Francisco.

Existe una demanda inimaginable acerca de empresas que desean conocer más a fondo la clasificación y sentimientos de sus usuarios en diferentes etapas dela año. De verdad el NLP es increíblemente importante hoy en día, espero los demás cursos de la serie pronto! De nuevo gracias @el_pachocamacho

Clasificación de Sentimientos con Reviews de Amazon

Desambiguación y etiquetado de palabras

Clasificación de Texto con Machine Learning

Etiquetado de Palabras en Python con NLTK y Stanza

Uso de Stanza para Procesamiento de Lenguaje Natural en Español

Modelos Markovianos Latentes (HMM)

Modelos Marcovianos Latentes en PLN: Fundamentos y Aplicaciones

Matemáticas de Cadenas de Markov y su Aplicación en Modelos Latentes

Modelos Marcovianos Latentes: Etiquetado Gramatical Automático

Implementación de Modelos Marcovianos Latentes en Python con Google Colab

Entrenamiento de Modelos Marcobianos Latentes en Python

Algoritmo de Viterbi

Decodificación de Secuencias con el Algoritmo de Viterbi

Cálculo de Probabilidades en el Algoritmo de Viterbi

Implementación del Algoritmo de Viterbi en Python con NumPy

Implementación del Algoritmo Viterbi para Modelos Ocultos de Markov

Implementación de Modelos Ocultos de Markov en NLTK y Python

Modelos Markovianos de máxima entropía (MEMM)

Modelos Marcovianos de Máxima Entropía en Clasificación de Etiquetas

Algoritmo BiTerbi en Modelos de Máxima Entropía

Entrenamiento y Decodificación de Modelos Marcobianos en Bitterbi

Clasificación de texto con NLTK

Clasificación de Texto en Machine Learning: Teorías y Aplicaciones

Clasificación de Nombres por Género con NLTK en Python

Clasificación de Nombres con Naive Bayes en Python

Clasificación de correos: Filtrado de spam con Naive Bayes

Implementación de un modelo de clasificación de texto

Funcionamiento Matemático del Clasificador Naive Bayes

Preparación de Datos para Modelo Naive Bayes en Python

Implementación del Algoritmo Naive Bayes en Python con spaCy

Implementación del Método Predict en Naive Bayes Clasificador

Métricas de Evaluación en Modelos de Clasificación: Accuracy, Precision y Recall

Clasificación de Sentimientos con Reviews de Amazon