No tienes acceso a esta clase

¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera

Aprende todo un fin de semana sin pagar una suscripción 🔥

Aprende todo un fin de semana sin pagar una suscripción 🔥

Regístrate

Comienza en:

3D
10H
49M
12S

Resolviendo un problema de clasificacion binaria

19/29
Recursos

Aportes 6

Preguntas 9

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad?

o inicia sesión.

Vectorizar palabras
Si no entendieron muy bien (😀👈🏼) para que se vectorizan las palabras dejo un video que explica de forma básica su funcionamiento:
https://www.youtube.com/watch?v=9IqWxJ1T57U&ab_channel=AMPTech

Vectorizar es convertir un cuerpo de textos a numeros para que pueda ser procesado por un modelo de machine learning

Entendí un poco mejor la vectorización modificando el código para procesar un arreglo de menor tamaño en vez de usar “train_data”:

<code> 
import numpy as np

dato=np.array([list([1,2,3,4,5]),         #se crea un arreglo con 3 ejemplos, cada ejemplo tiene 5 números que equivalen a 5 palabras
               list([6,7,8,9,10]),        #cada número corresponde a una palabra diferente
               list([11,12,13,14,0])])    #este ejemplo contiene las palabras 11,12,13,14 y 0


dim=15                              #hacemos de cuenta que solo existen 15 palabras no 10000
results = np.zeros((len(dato),dim))  #se crea un vector de ceros con tres ejemplos, cada ejemplo tiene 15 posiciones


for i, sequences in enumerate(dato):   #se realizan 3 iteraciones, una por cada ejemplo
    results[i,sequences]=1             #el segundo ejemplo de dato tiene las palabras 6,7,8,9 y 10. En results, esas posiciones quedan en uno
print(results)                  #De quince posiciones de cada ejemplo del vector de resultados, se marcan en uno las palabras que existen en cada ejemplo de dato

word_index.get(_)

Una pregunta saben cual es la diferencia entre train data y train labels

(train_data, train_labels), (test_data, test_labels) = boston_housing.load_data()
"""
Creamos la funcion vectorizar que recibe:
   sequences: el dataset de entrada
   dim: cantidad de palabras distintas que puede tener el dataset

| Cabe resaltar que el dataset de entrada lo que debe tener en cada registro es 
| la lista con los identificadores de cada palabra que contiene la reseña
"""
def vectorizar(sequences, dim=10000):
    # Creamos una matriz restults del tamaño de la cantiad de registros 
    # del dataset por la cantidad de palabras distintas (dim), esta matriz será el nuevo dataset
    # con cada una de las reseñas tokenizadas
    restults = np.zeros((len(sequences),dim)) 

    # Creamos un ciclo que toma dos valores:
    # - i: contiene el índice de la fila de cada registro, este indice lo obtenemos con enumerate()
    # - sequences: contiene la lista almacenada dentro de cada registro
    # Este ciclo se encarga de asignar a results las palabras que contiene cada reseña
    for i, sequences in enumerate(sequences):
        # En la fila i y la columna con el identificador dentro de la lista asignamos un 1
        restults[i,sequences]=1

    # Regresamos el dataset y sus palabras vectorizadas
    return restults