Análisis de Sentimientos de Tweets con Vectores de Palabras

Clase 12 de 29 • Curso de Introducción al Álgebra Lineal: Vectores

Contenido del curso

Introducción al curso

Vectores

Funciones lineales

Norma y distancia

Clustering

Cierre

29
Programación de Clústers y Análisis de Sentimientos
02:21 min

Tomar examen

Resumen

Construir una máquina capaz de evaluar si un tweet es positivo, negativo o neutro es posible sin recurrir a técnicas avanzadas de procesamiento del lenguaje natural. Con operaciones básicas sobre cadenas de texto, vectores y promedios, se puede diseñar un sistema que extraiga características relevantes de cada enunciado y las convierta en puntuaciones interpretables. Esto es exactamente lo que se plantea en este proyecto práctico.

¿Cómo se preparan los tweets para el análisis?

El punto de partida son cuatro tweets reales con particularidades muy comunes en textos informales: ausencia de signos de puntuación, conjugaciones verbales regionales como informéis y os, falta de espacios y uso inconsistente de símbolos de exclamación [0:55]. Antes de analizar cualquier contenido, es necesario limpiar cada enunciado.

Para ello se utiliza la función replace, que sustituye caracteres no deseados —como signos de exclamación y comas— por un vacío [3:20]. Después, la función split divide la cadena resultante en un vector de palabras, separando por espacios. El resultado es una lista ordenada de todos los términos del enunciado, libre de ruido tipográfico.

replace elimina símbolos innecesarios reemplazándolos con cadenas vacías.
split convierte la cadena limpia en un arreglo donde cada elemento es una palabra.
El vector resultante es la base para las búsquedas posteriores.

¿Qué es el vector de conteo de palabras?

Una vez que se tiene el vector de palabras del tweet, se construye el vector W [4:05]. Este vector tiene tantas entradas como palabras clave se deseen rastrear. Cada entrada registra cuántas veces aparece esa palabra específica dentro del enunciado.

¿Cómo se construye paso a paso?

Si las palabras objetivo son, por ejemplo, muerte, pérdida, luto, excelente, gran y positivo, el vector W tendrá seis posiciones. Se recorre el enunciado y, cada vez que se encuentra una coincidencia, se suma uno a la posición correspondiente [4:30]. Es decir, si "muerte" aparece una vez, la primera entrada será 1; si apareciera tres veces, sería 3.

Un ejemplo más compacto lo ilustra con claridad: al buscar la letra "y", la palabra "mexicano" y la palabra "excelente" en el primer tweet, el vector resultante sería [2, 1, 1] porque la "y" aparece dos veces, mientras que "mexicano" y "excelente" aparecen una sola vez [5:10]. Es preferible analizar palabras completas en lugar de letras individuales, ya que las palabras aportan mucho más contexto semántico [6:45].

¿Cómo se miden el sentimiento y la calidad del análisis?

A partir del vector W se construye un segundo vector: el vector de sentimientos S [7:15]. Este tiene solo tres entradas que representan la cantidad de palabras positivas, neutras y negativas encontradas en el tweet.

¿Qué determina la clasificación de cada palabra?

La clasificación depende del criterio que se elija. Por ejemplo, gran, mexicano, excelente y nacional podrían considerarse positivas; pérdida y enorme, neutras de forma individual; muerte y luto, negativas [7:50]. Así, el vector S para el primer tweet sería [4, 2, 2].

El score sentimental se calcula con una fórmula que toma únicamente las entradas de palabras positivas y negativas del vector S [9:35]. Si solo hay palabras neutras, el score es cero. Si predominan las positivas, el score será positivo, y viceversa.

Para evaluar la calidad del análisis, se calcula el promedio del vector W [8:30]:

Si el promedio es mayor o igual a 1: hay suficiencia de palabras, el resultado es confiable.
Si está entre 0.5 y 1: existe incertidumbre sobre la calidad.
Si es menor que 0.5: la calidad es mala, porque menos de la mitad de las palabras buscadas aparecen en el enunciado.

La calidad promedio general se obtiene promediando las calidades individuales de los cuatro tweets, lo que da una visión global de qué tan robusto es el conjunto de palabras elegido [10:20].

¿Qué preguntas debes responder con tu implementación?

El reto consiste en encontrar un conjunto mínimo de palabras transversales a todos los tweets y construir una sola función que genere tanto el vector W como el vector S para cualquier enunciado [10:50]. Con esa función se debe determinar:

¿Qué tweet es el más positivo?
¿Cuál es el más negativo?
¿Cuál es la calidad promedio del análisis y si es buena o mala?
¿Cuál es la diferencia entre el promedio de S y el score S?
¿Cómo se relaciona la calidad con el score cuando se añaden o quitan palabras clave?

Experimentar agregando y eliminando palabras permite descubrir si existe un umbral a partir del cual los scores dejan de variar significativamente [11:40]. Comparte tus hallazgos y resultados en los comentarios para contrastar diferentes enfoques de clasificación.

John Alexander Ortiz Ramirez

student•

Adjunto el código que utilice para desarrollar el reto, si alguien quiere hacer un feedback estaría agradecido.

import numpy as np 

class twit:
    
    positivos = ['bien', 'bueno', 'excelente', 'inteligente', 'intentando', 'quiero', 'saldrá', 'sigo', 'vamos', 'gran']
    neutrales = ['entiendo', 'plazti', 'alguien', 'asesora', 'asesorarme', 'clases', 'conocerme', 'debería', 'decir', 'descargue',
               'didáctico', 'docente', 'dónde', 'empiezo', 'enorme', 'funciones', 'grabación', 'gratuita', 'informéis', 'llama',
               'llamo', 'mexicano', 'nacional', 'noticiero', 'ocurre', 'plataforma', 'preparar', 'remando', 'saludo', 'señora', 'tendría',
               'todos', 'transmisión', 'universitario', 'ver', 'videos', 'vídeo', 'área']
    negativas = ['ignorante', 'luto', 'muerte', 'perdida']
    words_specials = positivo + neutral + negativa

    def __init__(self, string):
        self.string = string
        self.string_split = None
        self.w = np.zeros(len(self.words_specials)).reshape(-1, 1)
        self.s = np.zeros(3).reshape(-1, 1)
        self.avg = None
        self.score = None
        

    def fit(self):
        self.string_split = self.string.lower()
        self.string_split = self.string_split.replace('!', '').replace(',', '').replace('.', '').replace('(', '').replace(')', '').split()
        self.string_split = np.asarray(self.string_split)

        words, times = np.unique(self.string_split, return_counts=True)
        for i, j in enumerate(self.words_specials):
            if j in words:
                index = np.where(j)
                self.w[i] = times[index]
        
        for i in self.string_split:
            if i in self.positivos:
                self.s[0] += 1
            elif i in self.negativas:
                self.s[2] += 1
            elif i in self.neutrales:
                self.s[1] += 1
                
        self.avg = (np.ones(len(self.w)).reshape(-1, 1)/len(self.w)).T.dot(self.w)
        self.score = np.array([1, 0, -1]).dot(self.s)
    
    def print_result(self):
        print(f'El twit: {self.string}')
        print(f'Tiene una suma w de: {int(sum(self.w))}')
        print(f'Una s de: \n{self.s}')
        print(f'Un avg de: {float(self.avg)}')
        print(f'Un score de: {int(self.score)}')
        
a = 'Gran mexicano y excelente en su área, su muerte es una enorme perdida y debería ser luto nacional!!!'
b = 'Vaya señora que bueno que se asesora por alguien inteligente no por el ignorante del Gatt.'
c = 'Se me ocurre y sin ver todos los videos de Plazti que me informéis por dónde empiezo. Entiendo que os tendría que decir quién soy y que quiero, vamos conocerme para asesorarme bien. Un saludo'
d = 'Soy docente universitario, estoy intentando preparar mis clases en modo platzi bien didáctico, (le llamo modo noticiero), descargue una plataforma gratuita de grabación y transmisión de vídeo, se llama Obs estudio!bueno la sigo remando con sus funciones pero sé que saldrá algo!'

a = twit(a)
a.fit()
a.print_result()

b = twit(b)
b.fit()
b.print_result()

c = twit(c)
c.fit()
c.print_result()

d = twit(d)
d.fit()
d.print_result()

Ulises Rayon

teacher•

¡Qué código tan ordenado!

Gustavo Pú

student•

import numpy as np 

class twit:
    
    positivos = ['bien', 'bueno', 'excelente', 'inteligente', 'intentando', 'quiero', 'saldrá', 'sigo', 'vamos', 'gran']
    neutrales = ['entiendo', 'plazti', 'alguien', 'asesora', 'asesorarme', 'clases', 'conocerme', 'debería', 'decir', 'descargue',
               'didáctico', 'docente', 'dónde', 'empiezo', 'enorme', 'funciones', 'grabación', 'gratuita', 'informéis', 'llama',
               'llamo', 'mexicano', 'nacional', 'noticiero', 'ocurre', 'plataforma', 'preparar', 'remando', 'saludo', 'señora', 'tendría',
               'todos', 'transmisión', 'universitario', 'ver', 'videos', 'vídeo', 'área']
    negativas = ['ignorante', 'luto', 'muerte', 'perdida']
    words_specials = positivos + neutrales + negativas

    def __init__(self, string):
        self.string = string
        self.string_split = None
        self.w = np.zeros(len(self.words_specials)).reshape(-1, 1)
        self.s = np.zeros(3).reshape(-1, 1)
        self.avg = None
        self.score = None
        

    def fit(self):
        self.string_split = self.string.lower()
        self.string_split = self.string_split.replace('!', '').replace(',', '').replace('.', '').replace('(', '').replace(')', '').split()
        self.string_split = np.asarray(self.string_split)

        words, times = np.unique(self.string_split, return_counts=True)
        for i, j in enumerate(self.words_specials):
            if j in words:
                index = np.where(j)
                self.w[i] = times[index]
        
        for i in self.string_split:
            if i in self.positivos:
                self.s[0] += 1
            elif i in self.negativas:
                self.s[2] += 1
            elif i in self.neutrales:
                self.s[1] += 1
                
        self.avg = (np.ones(len(self.w)).reshape(-1, 1)/len(self.w)).T.dot(self.w)
        self.score = np.array([1, 0, -1]).dot(self.s)
    
    def print_result(self):
        print(f'El twit: {self.string}')
        print(f'Tiene una suma w de: {int(sum(self.w))}')
        print(f'Una s de: \n{self.s}')
        print(f'Un avg de: {float(self.avg)}')
        print(f'Un score de: {int(self.score)}')
        
a = 'Gran mexicano y excelente en su área, su muerte es una enorme perdida y debería ser luto nacional!!!'
b = 'Vaya señora que bueno que se asesora por alguien inteligente no por el ignorante del Gatt.'
c = 'Se me ocurre y sin ver todos los videos de Plazti que me informéis por dónde empiezo. Entiendo que os tendría que decir quién soy y que quiero, vamos conocerme para asesorarme bien. Un saludo'
d = 'Soy docente universitario, estoy intentando preparar mis clases en modo platzi bien didáctico, (le llamo modo noticiero), descargue una plataforma gratuita de grabación y transmisión de vídeo, se llama Obs estudio!bueno la sigo remando con sus funciones pero sé que saldrá algo!'

a = twit(a)
a.fit()
a.print_result()

b = twit(b)
b.fit()
b.print_result()

c = twit(c)
c.fit()
c.print_result()

d = twit(d)
d.fit()
d.print_result()

Roberto Jassiel Montes Gutierrez

Tomas Filippo

JAVIER SANTIAGO SALGADO

Ricardo Rito Anguiano

Jorge Urrea

David Amador Morales

Jorge Cruz Perez

DIEGO ALEXANDER ARISTIZABAL ARISTIZA

Camilo Velasquez

David Mejía Estrada

Joel Orellana

Angel Estrada

Roberto Gallegos Cabezas

Sebastian Alejandro Veliz Ysla

Daniel Felipe Montenegro

Carlos Felipe Saldarriaga Bejarano

Ever Orlando Reyes Ruiz

Eduardo Hoppenstedt

Raul Vazquez Montiel

santiago lagos

Jeinfferson Bernal G

Alejandro López

Dionicio Perez

Análisis de Sentimientos de Tweets con Vectores de Palabras

Introducción al curso

Este curso tiene una versión actualizada

Vectores en Álgebra Lineal: Definición y Operaciones Básicas

Vectores

Vectores y Escalares: Conceptos y Operaciones Básicas

Convenciones y Notación en Vectores y Escalares

Modelo RGB y su implementación en Python

Adición de Vectores: Conceptos y Propiedades Básicas

Suma de Vectores en Python con NumPy

Producto Escalar-Vectores: Conceptos y Propiedades Básicas

Operaciones con Escalares y Vectores en Python usando NumPy

Producto Interno de Vectores: Definición y Propiedades

Producto Interno de Vectores en Python con NumPy