No tienes acceso a esta clase

隆Contin煤a aprendiendo! 脷nete y comienza a potenciar tu carrera

Aprende todo un fin de semana sin pagar una suscripci贸n 馃敟

Aprende todo un fin de semana sin pagar una suscripci贸n 馃敟

Reg铆strate

Comienza en:

3D
10H
49M
12S

Resolviendo un problema de clasificacion binaria

19/29
Recursos

Aportes 6

Preguntas 9

Ordenar por:

驴Quieres ver m谩s aportes, preguntas y respuestas de la comunidad?

o inicia sesi贸n.

Vectorizar palabras
Si no entendieron muy bien (馃榾馃憟馃徏) para que se vectorizan las palabras dejo un video que explica de forma b谩sica su funcionamiento:
https://www.youtube.com/watch?v=9IqWxJ1T57U&ab_channel=AMPTech

Vectorizar es convertir un cuerpo de textos a numeros para que pueda ser procesado por un modelo de machine learning

Entend铆 un poco mejor la vectorizaci贸n modificando el c贸digo para procesar un arreglo de menor tama帽o en vez de usar 鈥渢rain_data鈥:

<code> 
import numpy as np

dato=np.array([list([1,2,3,4,5]),         #se crea un arreglo con 3 ejemplos, cada ejemplo tiene 5 n煤meros que equivalen a 5 palabras
               list([6,7,8,9,10]),        #cada n煤mero corresponde a una palabra diferente
               list([11,12,13,14,0])])    #este ejemplo contiene las palabras 11,12,13,14 y 0


dim=15                              #hacemos de cuenta que solo existen 15 palabras no 10000
results = np.zeros((len(dato),dim))  #se crea un vector de ceros con tres ejemplos, cada ejemplo tiene 15 posiciones


for i, sequences in enumerate(dato):   #se realizan 3 iteraciones, una por cada ejemplo
    results[i,sequences]=1             #el segundo ejemplo de dato tiene las palabras 6,7,8,9 y 10. En results, esas posiciones quedan en uno
print(results)                  #De quince posiciones de cada ejemplo del vector de resultados, se marcan en uno las palabras que existen en cada ejemplo de dato

word_index.get(_)

Una pregunta saben cual es la diferencia entre train data y train labels

(train_data, train_labels), (test_data, test_labels) = boston_housing.load_data()
"""
Creamos la funcion vectorizar que recibe:
   sequences: el dataset de entrada
   dim: cantidad de palabras distintas que puede tener el dataset

| Cabe resaltar que el dataset de entrada lo que debe tener en cada registro es 
| la lista con los identificadores de cada palabra que contiene la rese帽a
"""
def vectorizar(sequences, dim=10000):
    # Creamos una matriz restults del tama帽o de la cantiad de registros 
    # del dataset por la cantidad de palabras distintas (dim), esta matriz ser谩 el nuevo dataset
    # con cada una de las rese帽as tokenizadas
    restults = np.zeros((len(sequences),dim)) 

    # Creamos un ciclo que toma dos valores:
    # - i: contiene el 铆ndice de la fila de cada registro, este indice lo obtenemos con enumerate()
    # - sequences: contiene la lista almacenada dentro de cada registro
    # Este ciclo se encarga de asignar a results las palabras que contiene cada rese帽a
    for i, sequences in enumerate(sequences):
        # En la fila i y la columna con el identificador dentro de la lista asignamos un 1
        restults[i,sequences]=1

    # Regresamos el dataset y sus palabras vectorizadas
    return restults