Resolviendo un problema de clasificacion binaria

Clase 19 de 29 • Curso de Fundamentos de Redes Neuronales con Python y Keras

Contenido del curso

Fundamentos en la arquitectura de redes neuronales

Redes neuronales con Python

Manejo de redes neuronales con Keras

Cierre

Tomar examen

Resumen

¿Qué abarca el problema de clasificación binaria con Keras?

El aprendizaje de redes neuronales se vuelve más desafiante cuando se trata de implementarlas desde cero. Sin embargo, utilizar herramientas como Keras puede simplificar significativamente el proceso. En esta exploración, abordaremos el problema clásico de clasificación binaria utilizando un dataset ampliamente conocido: las reseñas de películas de IMDB. Este dataset clasifica reseñas como positivas o negativas, transformando este problema en uno de respuesta binaria, es decir, 0 o 1.

¿Cómo se configura el entorno adecuado en Colab?

Para empezar a trabajar con nuestras redes neuronales, es esencial configurar el entorno de trabajo de manera correcta:

Modificar el título del proyecto: Cambiarlo a algo relacionado, como "clasificación binaria", asegurándonos de no utilizar tildes en Keras o Colab.
Utilizar GPU: Aprovechar la potencia de procesamiento de un entorno que permita el uso de GPU.
Importar bibliotecas necesarias: Usar bibliotecas como NumPy para facilitar las operaciones matemáticas y de matriz.

¿Cómo se gestionan los datos del dataset de IMDB?

Keras proporciona herramientas útiles para manejar y transformar datos:

Descarga del dataset: Utilizamos imdb.load_data() para cargar las reseñas y etiquetas de entrenamiento y prueba. Aquí, limitamos el tamaño de nuestro vocabulario a las 10,000 palabras más comunes.
Transformación de texto a números: Las palabras en las reseñas se convierten en números, donde cada número representa una palabra distinta.

¿Cómo convertir números en palabras con el índice de palabras?

El dataset proveniente de IMDB contiene números que deben ser interpretados como palabras. Para esta tarea:

Get Word Index: Usamos get_word_index() para obtener un diccionario que asocia cada palabra a un número.
Diccionarios invertidos: Invertimos este diccionario para mapear números a palabras, lo cual facilita su interpretación.

¿Cómo vectorizar datos para adaptarlos a modelos de machine learning?

Los datos deben convertirse a una forma que las redes neuronales puedan procesar:

Vectorización de secuencias: Implementamos una función personalizada que vectoriza nuestros datos utilizando one-hot encoding. Esto implica transformar cada secuencia de palabras en un array donde solo los índices correspondientes a palabras presentes tienen valor 1.
Manejo de etiquetas: Las etiquetas de clasificación se transforman en arreglos de coma flotante para integrarse adecuadamente en nuestro modelo.

¿Qué pasos seguir para establecer un modelo en Keras?

Una vez que los datos están listos y preparados, el siguiente paso es definir y construir un modelo en Keras:

Crear una estructura secuencial: Optar por un modelo secuencial para facilitar la adición de capas.
Incluir capas pequeñas de activación: Este modelo debería ser sencillo para iniciar, pero efectivo al reconocer patrones en los datos.

Trabajar con redes neuronales es un proceso iterativo que requiere paciencia y atención al detalle. Sin embargo, con herramientas como Keras, muchas tareas complicadas se simplifican, permitiendo a los desarrolladores centrarse más en el ajuste de hiperparámetros y la optimización del modelo. ¡Sigue aprendiendo y sigue adelante!

Comentarios

Juan Carlos Martinez Quintero

student•

Entendí un poco mejor la vectorización modificando el código para procesar un arreglo de menor tamaño en vez de usar "train_data":

<code> 
import numpy as np

dato=np.array([list([1,2,3,4,5]),         #se crea un arreglo con 3 ejemplos, cada ejemplo tiene 5 números que equivalen a 5 palabras
               list([6,7,8,9,10]),        #cada número corresponde a una palabra diferente
               list([11,12,13,14,0])])    #este ejemplo contiene las palabras 11,12,13,14 y 0


dim=15                              #hacemos de cuenta que solo existen 15 palabras no 10000
results = np.zeros((len(dato),dim))  #se crea un vector de ceros con tres ejemplos, cada ejemplo tiene 15 posiciones


for i, sequences in enumerate(dato):   #se realizan 3 iteraciones, una por cada ejemplo
    results[i,sequences]=1             #el segundo ejemplo de dato tiene las palabras 6,7,8,9 y 10. En results, esas posiciones quedan en uno
print(results)                  #De quince posiciones de cada ejemplo del vector de resultados, se marcan en uno las palabras que existen en cada ejemplo de dato

mauricio perez

student•

Excelente muchas gracias 😊👌

LUIS ANTONIO CALVO QUISPE

student•

Muchas gracias

Pedro Quiñonez Verdugo

student•

Vectorizar es convertir un cuerpo de textos a numeros para que pueda ser procesado por un modelo de machine learning

Giancarlo Poémape

student•

por lo que se, tensorflow ahora incluye la api de keras. Debería usarla con tensorflow? hay algún problema si instalo ambas?

Alarcon7a

student•

si, ahora que la trae yo en lo persona prefieron invocarla tipo:

import tensorflow.keras as keras

Giovany samaca

student•

hola una pregunta para una red neuronal como seria para cargar un dataset en csv???

Alarcon7a

student•

hay que llevarlo a una estructura de tensores, solo con numeros. https://www.tensorflow.org/tutorials/load_data/pandas_dataframe

Giovany samaca

student•

muchas gracias alarcon7a

Tomás Retamal Venegas

student•

no entendí por qué le resta 3 en word_index.get( _ -3)

Alarcon7a

student•

Las 3 primeras pocisiones no corresponden al diccionario de letras

Matías Collado

student•

tampoco entendí, porque el menciona que las 3 primeras posiciones no corresponden al diccionario de letras, pero entonces n¿no deberíamos saltar esas 3 posiciones, es decir, comenzar a contar desde i+3 (en este caso _+3) en lugar de hacerlo desde _-3?

Roberto Ramírez Vilchis

student•

En la función vectorizar, se pierde la información de cuántas veces aparece cada palabra, no? Por ejemplo, si aparece dos veces la clave de la palabra "good", al pasarlo por la función sólo habrá un 1. Esto no es problemático?

Alarcon7a

student•

como tambien en el set de test y entrenamiento tienen la misma estructura no causa mucho daño, hay tecnicas para evitar lo que mencionas por ejemplo con redes recurrentes, pero en este caso no afecta tanto.

Felipe Sebastián Zepeda González

student•

Me parece que la función "vectorizar" no hace un One-Hot encoding, como dice el profesor... El one hot-encoding, generaría un vector (con muchos ceros y un único uno) para cada palabra de un review....

Jose Barboza

student•

word_index.get(_)

Wavy noeb

student•

https://www.youtube.com/watch?v=Tg1MjMIVArc Este video de DotCSV de NLP me ha ayudado a entender mejor la vectorización

Pepe Sosa

student•

DotCSV no falla, siempre tiene un video aclarando cosas y ya con la info del profe Carlos + CSV + algún apoyo para la matemática (por ejemplo el profe Alex) se aprende mucho mejor.

Diego Alejandro Hernandez Londono

student•

¿A qué se refiere con que la palabra existe?

Alarcon7a

student•

Que haga parte de la cadena de texto, para que pase a 1 y si no en 0

Sebastian Manassero

student•

La vectorizacion de palabras funciona igual que el One-Hot encoding de pandas?

Alarcon7a

student•

Es el mismo objetivo , si

Eber Laurente Lliuyacc

student•

Hola amigos,

¿Qué operación realiza la siguiente línea en la función vectorizar?

results[i, sequences]=1

def vectorizar(sequences, dim=10000):
  results = np.zeros((len(sequences), dim))
  for i, sequences in enumerate(sequences):
    results[i, sequences]=1
  return results

Salvador Sebastian Márquez Herrera

student•

Si no me perdí la primera parte de la función crea un vector lleno de ceros para cada observación, y en la parte que consultas se marca cada valor (el código de la palabra en el diccionario) como 1 si este aparece en la observación😅 espero no confundirte más

Tomas Filippo

student•

La linea que especificas, lo que realiza es apuntar a la fila i y a la columna con el valor que tiene sequences y le asigna un 1, eso significa que una palabra esta presente en esa secuencia, con cada una de las palabras presentes en cada secuencia hace lo mismo, el numero que tiene asignado, lo marca como 1 en esa posicion del vector i

Cristian Tinipuclla

student•

Si no entendieron el ciclo for con enumerate(), les dejo el siguiente link:

https://realpython.com/python-enumerate/

En simples palabras, recibe dos variables:

i, que es el contador en base a la cantidad de elementos del array sequences
value_sequences, que es el valor que toma por cada iteración en el array sequences

  for i, value_sequences in enumerate(sequences):
    results[i,value_sequences]=1

Luis David Viveros Escamilla

student•

Una pregunta saben cual es la diferencia entre train data y train labels

(train_data, train_labels), (test_data, test_labels) = boston_housing.load_data()

Erick Arturo Pinargote Velasquez

student•

Creo que llego tarde, pero la diferencia es "train_data" trae los valores de las palabras [1,545,585,5,14,...] y "train_labels" trae los resultados de 1 si es una reseña positiva o 0 si es reseña negativa. En pocas palabras "train_data" trae las entradas y "train_labels" trae lo que debería ser el resultado.

Luis David Viveros Escamilla

student•

tengo una pregunta cual es la diferencia entre train_data y train_labels

Matías Collado

student•

Según el nombre, intuyo que uno será el dato(train_data) en si y el otro será la **etiqueta **que lo identifique (train_labels).

En el primer array tendremos las palabras representadas con números, y en el segundo array, tendremos el correspondiente 0 (review positivo) o 1 (review negativo) para cada array de números del train_data. Podes echarle un ojo por medio de este procedimiento:

import numpy as np
from keras.datasets import imdb
from keras import models, layers, optimizers

#descargamos y almacenamos los datos en variables en una estructura (a,b), (c,d)
(train_data, train_labels), (test_data, test_labels) = imdb.load_data(num_words = 10000)

#vemos como vienen los ejemplos. Nos arrojará un array con números que representan palabras.
train_data[0]

#nos arrojará la etiqueta correspondiente para el elemento train_data[0]. Puede ser 1 para representar positivo, y 0 para negativo
train_labels[0]

Wavy noeb

student•

Buenas. A mi me cuesta entender las nomenglaturas de las variables:

train_data: datos de entradas para el entrenamiento
train_labels: datos de los resultados de la entrada de entrenamiento correspondiente, valor real para poder hacer la funcion de perdida. Y saber si la red ha predecido bien, o así lo entiendo yo
test_data: ?
test_labels: ?
x_train: ?
x_test: ?

Gracias.

David Uribe

student•

Hola, yo las definiria de la siguiente manera:

train_data: Variables independientes (X) o input sin tratar y que vienen con el formato tal cual de la fuente que se usan para entrenar el modelo.

train_labels : Variables Dependientes(Y) o output sin tratar y que vienen con el formato tal cual de la fuente que se usan para entrenar el modelo.

test_data: Al igual que el train data, son la data de las variables independientes sin tratar, pero estas nunca se le introducen al momento de entrenar el modelo y sirven para (como su nombre indica) testear/probar que tan acertado es el modelo

test_label: Al igual que el train label, son la data de las variables dependiente sin tratar, pero estas nunca se le introducen al momento de entrenar el modelo y sirven para (como su nombre indica) testear/probar que tan acertado es el modelo

x_train: Variables independientes (X) o input ajustado respecto a la fuente para poder pasárselos al modelo para entrenarlo. No siempre es necesario hacer ajustes, pero dependerá de las fuentes, librerías y modelos que uses, por lo que en estos casos el x_train es lo mismo que el train_data

x_test: Al igual que con x_train, son la versión ajustada del test_data, que es la que el modelo nunca recibe al momento de entrenarlo y que usamos para probar que tan acertado es el modelo.

Espero haber sido de ayuda

Aaron Fabrizio Calderon Guillermo

student•

¿Cada 1 en x_train qué significa?

Alarcon7a

student•

que en esa posición existe la palabra quiere decir que si en el vector la posición 2 y 5 estan con un 1... las palabras 2 y 5 existen en la reseña

Daniel de Jesús Martínez Vega

student•

"""
Creamos la funcion vectorizar que recibe:
   sequences: el dataset de entrada
   dim: cantidad de palabras distintas que puede tener el dataset

| Cabe resaltar que el dataset de entrada lo que debe tener en cada registro es 
| la lista con los identificadores de cada palabra que contiene la reseña
"""
def vectorizar(sequences, dim=10000):
    # Creamos una matriz restults del tamaño de la cantiad de registros 
    # del dataset por la cantidad de palabras distintas (dim), esta matriz será el nuevo dataset
    # con cada una de las reseñas tokenizadas
    restults = np.zeros((len(sequences),dim)) 

    # Creamos un ciclo que toma dos valores:
    # - i: contiene el índice de la fila de cada registro, este indice lo obtenemos con enumerate()
    # - sequences: contiene la lista almacenada dentro de cada registro
    # Este ciclo se encarga de asignar a results las palabras que contiene cada reseña
    for i, sequences in enumerate(sequences):
        # En la fila i y la columna con el identificador dentro de la lista asignamos un 1
        restults[i,sequences]=1

    # Regresamos el dataset y sus palabras vectorizadas
    return restults

Jhon Freddy Tavera Blandon

student•

Vectorizar el conjunto de entrenamiento en el contexto de aprendizaje automático y procesamiento de datos se refiere a transformar los datos en una forma que pueda ser manejada más eficientemente por los modelos de machine learning. En términos más sencillos, implica convertir los datos en vectores numéricos para que puedan ser procesados por algoritmos.

<code> 
import numpy as np

dato=np.array([list([1,2,3,4,5]),         #se crea un arreglo con 3 ejemplos, cada ejemplo tiene 5 números que equivalen a 5 palabras
               list([6,7,8,9,10]),        #cada número corresponde a una palabra diferente
               list([11,12,13,14,0])])    #este ejemplo contiene las palabras 11,12,13,14 y 0


dim=15                              #hacemos de cuenta que solo existen 15 palabras no 10000
results = np.zeros((len(dato),dim))  #se crea un vector de ceros con tres ejemplos, cada ejemplo tiene 15 posiciones


for i, sequences in enumerate(dato):   #se realizan 3 iteraciones, una por cada ejemplo
    results[i,sequences]=1             #el segundo ejemplo de dato tiene las palabras 6,7,8,9 y 10. En results, esas posiciones quedan en uno
print(results)                  #De quince posiciones de cada ejemplo del vector de resultados, se marcan en uno las palabras que existen en cada ejemplo de dato

import numpy as np
from keras.datasets import imdb
from keras import models, layers, optimizers

#descargamos y almacenamos los datos en variables en una estructura (a,b), (c,d)
(train_data, train_labels), (test_data, test_labels) = imdb.load_data(num_words = 10000)

#vemos como vienen los ejemplos. Nos arrojará un array con números que representan palabras.
train_data[0]

#nos arrojará la etiqueta correspondiente para el elemento train_data[0]. Puede ser 1 para representar positivo, y 0 para negativo
train_labels[0]

"""
Creamos la funcion vectorizar que recibe:
   sequences: el dataset de entrada
   dim: cantidad de palabras distintas que puede tener el dataset

| Cabe resaltar que el dataset de entrada lo que debe tener en cada registro es 
| la lista con los identificadores de cada palabra que contiene la reseña
"""
def vectorizar(sequences, dim=10000):
    # Creamos una matriz restults del tamaño de la cantiad de registros 
    # del dataset por la cantidad de palabras distintas (dim), esta matriz será el nuevo dataset
    # con cada una de las reseñas tokenizadas
    restults = np.zeros((len(sequences),dim)) 

    # Creamos un ciclo que toma dos valores:
    # - i: contiene el índice de la fila de cada registro, este indice lo obtenemos con enumerate()
    # - sequences: contiene la lista almacenada dentro de cada registro
    # Este ciclo se encarga de asignar a results las palabras que contiene cada reseña
    for i, sequences in enumerate(sequences):
        # En la fila i y la columna con el identificador dentro de la lista asignamos un 1
        restults[i,sequences]=1

    # Regresamos el dataset y sus palabras vectorizadas
    return restults   

Resolviendo un problema de clasificacion binaria

Fundamentos en la arquitectura de redes neuronales

La importancia de las redes neuronales en la actualidad

¿Que herramientas usaremos para redes neuronales?

¿Qué es deep learning?

Tu primera red neuronal con Keras

Entrenando el modelo de tu primera red neuronal

La neurona: una pequeña y poderosa herramienta

Arquitectura de una red neuronal

Funciones de activación

Funcion de pérdida (loss function)

Descenso del gradiente

Backpropagation

Playground - Tensorflow

Redes neuronales con Python

Dimensiones, tensores y reshape

Creando nuestra red neuronal usando numpy y matemáticas

Entrenamiento forward de la red neuronal

Aplicando backpropagation y descenso del gradiente

Entrenamiento y análisis de resultados de tu red neuronal

Manejo de redes neuronales con Keras

Data: train, validation, test

Resolviendo un problema de clasificacion binaria

Entrenamiento del modelo de clasificación binaria

Regularización - Dropout

Reduciendo el overfitting

Resolviendo un problema de clasificación múltiple

Entrenamiento del modelo de clasificación múltiple

Resolviendo un problema de regresión

Entrenamiento del modelo de regresión

Análisis de resultados del modelo de regresión

Cierre

¿Qué sigue por aprender de redes neuronales?

Comparte tu proyecto de tu primera red neuronal y certifícate