Keras datasets

Clase 7 de 28 • Curso Profesional de Redes Neuronales con TensorFlow

Resumen

Keras nos ofrece una serie de datasets predeterminados con los cuales alimentar modelos, estas bases de datos son ideales para probar el rendimiento de diferentes algoritmos de machine learning porque sus datos se encuentran bastante limpios y listos para ser digeridos.

En la documentación oficial de Keras puedes encontrar los datasets disponibles, para esta ocasión trabajaremos con CIFAR100, un dataset de 60.000 imágenes de 100 clases diferentes relacionadas a objetos del mundo como vehículos, animales y demás.

Puedes leer la estructura básica y un quickstart de uso en la documentación, si quieres más detalle, puede ir a la página oficial del dataset donde tendrás acceso a información más específica.

Descargando y manipulando Keras datasets

Importaremos los módulos a trabajar, donde el protagonista será TensorFlow.

{code-block} python import tensorflow as tf import numpy as np %matplotlib inline import matplotlib.pyplot as plt

Para extraer el dataset, haremos uso del módulo de datasets de Keras (que viene incluido en TensorFlow).

{code-block} python from tensorflow.keras.datasets import cifar100

Cargaremos el dataset con la función load_data y será almacenada en 2 tuplas relacionadas a los datos de entrenamiento (que serán 50.000) y los datos de prueba (los 10.000 restantes).

{code-block} python (x_train, y_train), (x_test, y_test) = cifar100.load_data(label_mode = "fine")

Si verificamos las dimensiones del set de entrenamiento, obtendremos en x un conjunto de 50.000 imágenes de 32x32 en 3 canales RGB, mientras que las etiquetas serán un array de 50.000 elementos del 0 al 99.

```{code-block} python print(x_train.shape) print(y_train.shape)

(50000, 32, 32, 3) (50000, 1) ```

Podemos acceder a cualquier elemento del dataset y graficarlo con matplotlib, donde la etiqueta será 78, pero, ¿Qué significa este valor?

{code-block} python num_image = 40 plt.imshow(x_train[num_image]) print(y_train[num_image]) 78

Generalmente las etiquetas son guardadas en sesiones diferentes, es decir, externamente existe un diccionario de “traducción” de estos valores a su homólogo real. Para obtener esta traducción, haremos su descarga desde un repositorio externo.

{code-block} bash !wget --no-check-certificate https://storage.googleapis.com/platzi-tf2/cifar100_labels.json \ -O /tmp/cifar100_labels.json

Deserializaremos el JSON para hacerlo compatible con los diccionarios de Python.

{code-block} python import json with open("/tmp/cifar100_labels.json") as fine_labels: cifa100r_labels = json.load(fine_labels)

Ahora podemos entender a qué se refieren las etiquetas numéricas.

{code-block} python num_label = 78 plt.imshow(x_train[num_label]) print(cifar100_labels[y_train[num_label][0]]) Forest

Con esto hemos cargado un dataset funcional para ser procesado y digerido por tus modelos.

Contribución creada por Sebastián Franco Gómez.

Jorge Aurelio Valdez Osorio

student•

!wget --no-check-certificate https://storage.googleapis.com/platzi-tf2/cifar100_labels.json \
    -O /tmp/cifar100_labels.json

Oscar Julian Rodriguez Cardenas

student•

Para el reto de la semana cargué el dataset de Fashion MNIST:

Creo que es una bota jajajaja

Carlos Bonilla

student•

Hay un error en uno de los print. La corrección es la siguiente:

print(cifar100_labels[y_train[num_label][0]])

Jose hernando Hidalgo rodriguez

student•

gracias.

Leonel Federico Valencia Estudillo

student•

Es print(cifar100_label[y_train[num_image][0]]) num_image en vez de num_label

HERBERTH FITZROY GARCIA CHURA

student•

Utilice el Dataset fashion_mnist e hice la consulta al elemento 52

aparte me cree una variable de llaves, de acuerdo a la informacion del dataset de Keras

Pero no se si sea correcto hacer esto

import tensorflow as tf
import numpy as np
%matplotlib inline
import matplotlib.pyplot as plt
from tensorflow.keras.datasets import fashion_mnist

(x_train, y_train), (x_test, y_test) = fashion_mnist.load_data()
fashion_mnist_labels = ['T-shirt/top', 'Trouser', 'Pullover', 'Dress', 'Coat', 'Sandal', 'Shirt', 'Sneaker', 'Bag', 'Ankle boot']

num_image = 52
plt.imshow(x_train[num_image])
print(fashion_mnist_labels[y_train[num_image]])

Rafael Rivera

student•

Pues si no se tiene los labels, se crean :) jejejeje

Angel Ojeda

student•

En mi caso lo hice con cifar10 y como no encontre ningun archivo con los labels tambien hice lo mismo que usted. jajaja

Ramsés Alejandro Camas Nájera

student•

Si están en un entorno como VSCode y el comando wget no se los reconoce, pueden internar de la siguiente forma con curl

!curl -k -o  cifar100_labels.json https://storage.googleapis.com/platzi-tf2/cifar100_labels.json

David Hernando Henao Marulanda

student•

Muchas gracias!!!

Robert Yesid Barrios Acendra

student•

No entiendo, ¿Él sabía qué número corresponde a snake en labels? Porque aunque 78 y 40 es lógicamente diferente, hizo coincidir la imagen con su etiqueta. La verdad quedé perdido.

Adonai Vera

teacher•

Hola Robert, un placer saludarte. En ese caso tome un id aleatorio e imprime el label y la imagen para mostrar un ejemplo de la base de datos. El numero corresponsa a la posición de la imagen y del label.

Me cuentas si es claro, saludos

Julio Guerrero Álvarez

student•

yo cargue un dog

Juan Acevedo

student•

Gabriel Díaz Andrade

student•

Para el reto cargue la BD fashion_mnist

No parece mucho pero es una camisa jejej

Luis Felipe Sayavedra Mona

student•

Por si a alguien no le sale la importacion de keras, la siguiente puede ser una alternativa:

from tensorflow import keras

(x_train, y_train), (x_test, y_test) = tf.keras.datasets.cifar100.load_data()

Noe Adrián Acuña Prado

student•

plt.imshow(x_train[0])
# Changed 'srt' to 'str' to convert the integer to a string.
title_string = "This is the number {}".format(y_train[0])
plt.title(title_string) # Added title to the plot
plt.show()
```![](https://static.platzi.com/media/user_upload/image-5f252f92-5dd8-48c4-941d-7b8ad1537912.jpg)

Antonio Demarco Bonino

student•

Interesante tarea:

Y este fue el resultado:

Jhon Freddy Tavera Blandon

student•

Conjuntos de datos de Keras: una poderosa herramienta para el aprendizaje profundo Keras, un popular marco de aprendizaje profundo creado sobre TensorFlow, proporciona una manera conveniente de acceder y utilizar varios conjuntos de datos para entrenar y evaluar sus modelos. Estos conjuntos de datos están preprocesados y listos para usarse con el mínimo esfuerzo, lo que le permite ahorrar tiempo y recursos valiosos.

Conjuntos de datos integrados:

Keras ofrece un puñado de conjuntos de datos integrados, también conocidos como conjuntos de datos de juguete, que son pequeños y adecuados para principiantes o experimentación rápida. Estos conjuntos de datos se utilizan normalmente para tareas como clasificación o regresión de imágenes. Algunos ejemplos populares incluyen:

MNIST

Este conjunto de datos clásico consta de dígitos escritos a mano (0-9) en varios tamaños y orientaciones. Es un excelente punto de partida para los problemas de clasificación de imágenes.

CIFAR-10

Conjunto de datos de pequeñas imágenes en color que pertenecen a 10 clases diferentes (p. ej., aviones, automóviles, perros). Es un poco más complejo que MNIST y se utiliza a menudo para la clasificación de imágenes con redes neuronales convolucionales (CNN).

CIFAR-100

Una versión extendida de CIFAR-10 con 100 clases de objetos, que proporciona una tarea de clasificación más desafiante.

Boston Housing

Conjunto de datos que contiene información sobre casas en Boston, Massachusetts. Se utiliza habitualmente para tareas de regresión, como predecir los precios de la vivienda.

Platzi Team

student•

Hola!!

En mi caso usando Fashión MNIST obtuve esta imagen:

Luis Rogelio Reyes Hernandez

student•

Utilice la base de datos de fashion_mnist y obtuve un bolso

from tensorflow.keras.datasets import fashion_mnist
(x_train, y_train), (x_test, y_test) = fashion_mnist.load_data()

num_image = 99
plt.imshow(x_train[num_image])
print(y_train[num_image])
print(labels[y_train[num_image]])

Diego Sepúlveda

student•

Pueden ocupar la función squeeze para quitarle una dimensión a y_train. Ya que y_train[40] devuelve un [40] y queremos solo el numero para luego buscarlo en el json

print(y_train[40].squeeze(0)) -> devuelve 40 en vez de [40]
print(cifar100_labels[y_train[40].squeeze(0)]) -> ocupamos ese indice dentro del json

José Daniel Galván Suazo

student•

MNIST digits classification :)

Elemir Celis Mendoza

student•

La importancia de cargar %matplotlib inline para contar con todos los beneficios de Matplot en Colab antes de cargar la librería

%matplotlib inline import matplotlib.pyplot as plt

Ricardo Talavera

student•

Mas facil :

import pandas as pd
jso=pd.read_json("https://storage.googleapis.com/platzi-tf2/cifar100_labels.json")
jso[0][78]

Jose hernando Hidalgo rodriguez

student•

#desacargamos la subclase. (x_train,y_train),(x_text,y_test) = tf.keras.datasets.
cifar100.load_data(label_mode="fine")

Keras datasets

Cómo utilizar TensorFlow 2.0 con Python

Redes Neuronales y TensorFlow: Crea Modelos de IA desde Cero

Programación con TensorFlow 2 y Python: Fundamentos y Aplicaciones

Manejo y preprocesamiento de datos para redes neuronales

Carga y Procesamiento de Bases de Datos en Inteligencia Artificial

Carga de Bases de Datos JSON desde GCP en Google Colab

Codificación Base64 y Gestión de Imágenes en Google Colab

Preprocesamiento y limpieza de datos

Keras datasets

Datasets generators

Aprende a buscar bases de datos para deep learning

Cómo distribuir los datos

Crear la red neural, definir capas, compilar, entrenar, evaluar y predicciones

Optimización de precisión de modelos

Métodos de regularización: overfitting y underfitting

Recomendaciones prácticas para ajustar un modelo

Métricas para medir la eficiencia de un modelo: callback

Monitoreo del entrenamiento en tiempo real: early stopping y patience

KerasTuner: construyendo el modelo

KerasTuner: buscando la mejor configuración para tu modelo

Almacenamiento y carga de modelos

Almacenamiento y carga de modelos: pesos y arquitectura

Criterios para almacenar los modelos

Fundamentos de aprendizaje por transferencia

Introducción al aprendizaje por transferencia

Cuándo utilizar aprendizaje por transferencia

Carga de sistemas pre-entrenados en Keras

API funcional de Keras

Uso sistemas pre-entrenados de TensorFlow Hub

Resultados de entrenamiento

Introducción a variables relevantes del TensorBoard

Análisis y publicación de resultados del entrenamiento

Introducción al despliegue de modelos en producción

Siguientes pasos con deep learning

Descargando y manipulando Keras datasets