Carga de Bases de Datos JSON desde GCP en Google Colab

Clase 4 de 28 • Curso Profesional de Redes Neuronales con TensorFlow

Contenido del curso

Cómo utilizar TensorFlow 2.0 con Python

Manejo y preprocesamiento de datos para redes neuronales

Optimización de precisión de modelos

Almacenamiento y carga de modelos

Fundamentos de aprendizaje por transferencia

Resultados de entrenamiento

Tomar examen

Resumen

A continuación vamos a cargar una base de datos en formato JSON que estará almacenada en GCP (Google Cloud Platform). Trabajaremos sobre Google Colab. Crea un Notebook, configúralo y prepárate.

Cómo descargar bases de datos desde la web

Para esta ocasión usaremos la librería os y zipfile para la manipulación y procesamiento del dataset.

import os
import zipfile

Descargaremos el repositorio desde la locación en GCP, usaremos el comando wget para extraer el archivo, agregaremos la opción —no-check-certificate para omitir certificaciones y guardaremos la salida en la carpeta tmp con el nombre databasesLoadData.zip.

!wget --no-check-certificate https://storage.googleapis.com/platzi-tf2/databasesLoadData.zip \
    -O /tmp/databasesLoadData.zip

Obtendremos la locación del archivo comprimido y crearemos una referencia en memoria con una instancia zipfile en modo lectura, posteriormente extraeremos el contenido y lo nombraremos de la misma manera sin extensión dado que será un directorio. Finalmente cerramos la instancia y tendremos nuestro dataset inicial listo para manipular.

local_zip = "/tmp/databasesLoadData.zip"
zip_ref = zipfile.ZipFile(local_zip, "r")
zip_ref.extractall("/tmp/databasesLoadData")
zip_ref.close()

Si navegamos en el directorio de archivos, podremos explorar el contenido de nuestra descarga, tendrá 4 carpetas, donde las 2 más importantes serán las de base64 (a trabajar próximamente) y la de formato JSON.

Si nos adentramos al contenido del dataset en formato JSON, encontraremos con objetos con 2 claves diferentes: Content (que contiene el link de la imagen) y label (que expresa la letra a la que se refiere).

{"content": "https://storage.googleapis.com/platzi-tf2/img_mnist/29_B.jpg","label":"b"}
{"content": "https://storage.googleapis.com/platzi-tf2/img_mnist/30_B.jpg","label":"b"}
{"content": "https://storage.googleapis.com/platzi-tf2/img_mnist/95_B.jpg","label":"b"}
{"content": "https://storage.googleapis.com/platzi-tf2/img_mnist/58_A.jpg","label":"a"}
{"content": "https://storage.googleapis.com/platzi-tf2/img_mnist/50_A.jpg","label":"a"}
{"content": "https://storage.googleapis.com/platzi-tf2/img_mnist/46_A.jpg","label":"a"}
{"content": "https://storage.googleapis.com/platzi-tf2/img_mnist/3_C.jpg","label":"c"}
{"content": "https://storage.googleapis.com/platzi-tf2/img_mnist/32_C.jpg","label":"c"}
{"content": "https://storage.googleapis.com/platzi-tf2/img_mnist/2_C.jpg","label":"c"}

Cómo hacer la deserialización de los datos

Para el procesamiento del dataset haremos uso de varios módulos de Python, donde JSON, codecs, requests y bytesIO nos ayudarán al proceso de peticiones mientras que el resto nos serán útiles a nivel de manipulación y representación.

import json
import codecs
import requests
import numpy as np
from PIL import Image
from io import BytesIO
%matplotlib inline
import matplotlib.pyplot as plt

Determinamos la ubicación del dataset a cargar.

url = "/tmp/databasesLoadData/sign_mnist_json/data.json"

Creamos un array donde guardaremos los JSON, posteriormente abriremos el archivo, lo recorreremos línea a línea y lo guardaremos en formato de diccionario, finalmente, verificamos la cantidad de imágenes encontradas correlacionando el tamaño del array.

data_json = []
with codecs.open(url, "rU", "utf-8") as js:
  for line in js:
    data_json.append(json.loads(line))

print(f'{len(data_json)} imagenes encontradas')

Si verificamos el contenido nos encontraremos con un diccionario con las claves content y label y su respectivos valores.

data_json[0]
{'content': 'https://storage.googleapis.com/platzi-tf2/img_mnist/29_B.jpg', 'label': 'b'}

Con los datos aislados, podemos descargar cada imagen, por lo que haremos una petición HTTP, la encapsularemos en un objeto BytesIO, será interpretado como una imagen y finalmente se transformará en un array de Numpy.

Guardaremos en la lista de imágenes un array de 2 elementos donde el primero será la representación matricial de la imagen y el segundo la etiqueta.

images = []
for data in data_json:
  response = requests.get(data["content"])
  img = np.asarray(Image.open(BytesIO(response.content)))
  images.append([img, data["label"]])

Para verificar la integridad del contenido lo mostraremos en pantalla con matplotlib, donde tomaremos la imagen y la redimensionaremos al tamaño esperado (de ser requerido), paralelamente tomaremos la etiqueta y las obtendremos ambas en pantalla.

plt.imshow(images[0][0].reshape(28,28))
print(images[0][1])

Con esto hemos completado el proceso, desde la mera descarga del archivo a su deserialización y manipulación interna en el scope de Python.

Contribución creada por Sebastián Franco Gómez.

Comentarios

German Alonso Rodríguez Díaz

student•

Me pareció importante entender esta parte en cada línea.

Muy enganchado con el curso. Ya tuve algunas clases con Adonai en otros programas de aprendizaje, avanza a buen ritmo sin pasar por alto lo importante.

images = []
# leemos el valor de content y el label de cada línea de la lista que creamos 
for data in data_json:
  # creamos una petición accediendo con request para poder ver el contenido de ellas de GCP
  response = requests.get(data['content']) 
  # convertimos las imagenes en array
  # abrimos la imagen con PIL 
  # convertimos la imagen en un BytesIO ya que está decodificada
  img = np.asarray(Image.open(BytesIO(response.content)))
  # guardamos la imagen en BytesIO y el labol en la lista images
  images.append([img, data['label']])

Adonai Vera

teacher•

Muchas gracias por el aporte German, estoy seguro que les servira a muchos estudiantes, saludos!

Steven Varela

student•

++¿QUÉ VIMOS EN ÉSTA CLASE?++

Descargar la base de datos comprimirda y descomprimirla luego para cargarla a Google Cloud Platform (GCP) y poder acceder mediante una URL

El primer paso es importar dos librerías de python

import os # para trabajar con sistemas operativos
import zipfile # para manipular comprimidos

Después en la terminal de tu sistema operativo ejecuta !wget --no-check-certification o curl -k que nos permite poder descargar sin ningún requerimiento ni errores de SSL

# PARA LINUX
!wget --no-check-certificate https://storage.googleapis.com/platzi-tf2/databasesLoadData.zip -O /tmp/databasesLoadData.zip
# PARA WINDOWS
curl -k -o /c/Users/admin/Downloads/databasesLoadData.zip https://storage.googleapis.com/platzi-tf2/databasesLoadData.zip
# Esto es para descargar la base de datos del proyecto en un .zip

Luego de de descargarla podemos acceder a ella con python y descomprimirla si estás trabajando en Google Colab, si en cambio estás en tu local puedes omitir este paso:

zip_path = "/tmp/databasesLoadData.zip" # "C:/Users/admin/Downloads" for windows
zip_ref = zipfile.ZipFile(zip_path, "r") # ZipFile() metodo para ABRIR una instancia del fichero
zip_ref.extractall("/tmp/databasesLoadData.zip") # acceder al método extraerall los archivos y descomprimir
zip_ref.close() # CERRAR la instancia del fichero

Ahora hay que leer la bases de datos:

Leer la base de datos en JSON

Se debe guardar la ubicación el fichero en una variable
Se debe deserializar el archivo JSON (convertir los objetos a cadenas de texto) 2.1. Debemos abrir el archivo y leer cada linea agregandola como elemento a un array
Recorrer cada imágen y su label en el JSON y hacer una petición GET a la imágen 3.1. Guardar la imágen y el label en cada indice de un array
Ver la imágen

# 1
import json
import codecs
import requests
import numpy as np
from PIL import Image
from io import BytesIO
import matplotlib.pyplot as plt

url = "/tmp/databasesLoadData/sign_mnist_json/data.json"

# 2
data_json=[]
with codecs.open(url, 'rU', 'utf8') as js:
    # 2.1
    for line in js:
        data_json.append(json.loads(line)) #deserializamos al añadir

print("{} imágenes encontradas".format(len(data_json)))

# 3
images = []
for data in data_json:
    response = requests.get(data["content"]) #secuencia de bytes
    response = BytesIO(response.content) # decodifica a hexadecimal
    img = np.asarray(Image.open(response)) #convierte a array
    images.append([img, data["label"]])

plt.imshow(images[0][0])
# 4
print(images[0][1])

Daniel Reyes Barrera

student•

Según la documentación el modo U (Universal Newlines) está en desuso. Ósea que es mejor utilizar solo "r"

Nicolas Barragan

student•

Buen aporte, gracias!

Jose Luis Junior Perez Gil

student•

Despues de aplicar el ciclo for

images = []

for data in data_json:
  response = requests.get(data['content'])
  img = np.asarray(Image.open(BytesIO(response.content)))
  images.append([img, data["label"]])

he notado que las imagenes resultan con dimension (28,28), en ese caso ya no seria necesario redimensionar como lo hace con el reshape ???

Adonai Vera

teacher•

Hola Jose, es correcto, si ya la base de datos esta en las dimensiones ideales, no es necesario re dimensionar, pero debes asegurarte que todas las imagenes cumplan con tener el mismo tamaño antes de ingresar a la primera capa de la red neuronal.

Victor Vargas

student•

Hay otros links disponibles desde donde pueda descargar las imagenes del curso?

Gustavo Acuña

student•

Ando buscando lo mismo, me aparece 403 Forbidden

Rodrigo Rosales

student•

No esta mas la DB

HTTP request sent, awaiting response... 403 Forbidden

José Ramón García

student•

Sí, sí está

ivan josue ortiz alban

student•

zip_ref = zipfile.ZipFile(local_zip, 'r')

el codigo muestra error en esta linea BadZipFile: File is not a zip file

Daniel Reyes Barrera

student•

También tengo el mismo problema. Es porque los datos no se descargan correctamente y nos devuelve el error ERROR 403: Forbidden.

Estoy buscando como solucionarlo.

ivan josue ortiz alban

student•

intente con otro dataset .zip de git hub y si valio el codigo

Miguel Sánchez Guerrero

student•

Las imágenes en el dataset ya están 28x28 por lo que el reshape es redundante

Sebastián Franco

student•

Tuve una duda sobre por qué usar codecs a la hora de abrir el json.

import codecs
with codecs.open(url, "rU", "utf-8") as js:
	pass

En pocas palabras, el módulo codecs se implementó en los tiempos de Python 2 donde el modulo io.open seguía siendo relativamente primitivo y no soportaba algunos tipos de encoding, por lo que esta era una solución, sin embargo, cuando se actualizó a Python 3, el módulo io.open ya soportaba todas las características de codecs al punto que se busca activamente deprecarlo.

Lo anterior implica que usar open() y codecs.open() es virtualmente lo mismo, por lo que, a no ser que nuestro código deba ser retrocompatible, lo mejor es usar open (que es un atajo al módulo io.open).

Este código

data_json = []
with codecs.open(url, "rU", "utf-8") as js:
  for line in js:
    data_json.append(json.loads(line))

print(f'{len(data_json)} imagenes encontradas')

Es lo mismo que este

data_json = []
with open(url, mode = "r", encoding = "utf-8") as js:
  for line in js:
    data_json.append(json.loads(line))

print(f'{len(data_json)} imagenes encontradas')

Si quieren leer un poco más al respecto, pueden ir a este hilo de StackOverflow donde aprendí un poco sobre encoding y la necesidad de estos módulos.

Erick Jacob Lugo Batalla

student•

Para descargarlo en Windows a mí me funciono usando el módulo subprocess

Entonces reemplazando esto:

# LINUX
!wget --no-check-certificate https://storage.googleapis.com/platzi-tf2/databasesLoadData.zip -O /tmp/databasesLoadData.zip

Seria esto:

# WINDOWS
import subprocess
subprocess.run([
    "curl", "-k", "-o",
    "data/databasesLoadData.zip",
    "https://storage.googleapis.com/platzi-tf2/databasesLoadData.zip"
])

José Joaquín Tripp Gudiño

student•

Al momento de usar

Image.open(BytesIO(...))

PIL detecta que la imagen es en escala de grises
Entonces el objeto se guarda en modo "L" (luminosity) → 1 solo canal con valores de 0 a 255 (negro a blanco).
Por eso, al convertirla con np.asarray(img), te da un array de 1 valor por pixel, no 3.

Para que al visualizar la imagen con plt.imshow() se muestre en escala de grises, es necesario agregar .convert('RGB') para generar un array de 3 canales:

Image.open(BytesIO(r.content)).convert("RGB")

Al final, pueden probar usando:

r = requests.get(data_json[0]['content'])
plt.imshow(np.asarray(Image.open(BytesIO(r.content)).convert('RGB')))
plt.show()

Jason Sepulveda

student•

2025 Julio: Estoy trabajando todo localmente con VS Code, aqui dejo el repo con codigo actualizado por si les sirve

Fernando Alvarado

student•

Si lo quieren descargar desde un JupyterNotebook en Visual studio

import requests

url = "https://storage.googleapis.com/platzi-tf2/databasesLoadData.zip"

ruta_salida = "C:/Users/Downloads/databasesLoadData.zip"

response = requests.get(url, stream=True)

if response.status_code == 200:

with open(ruta_salida, 'wb') as f:

for chunk in response.iter_content(chunk_size=8192):

f.write(chunk)

print("✅ Archivo descargado exitosamente.")

else:

print(f"❌ Error al descargar. Código de estado: {response.status_code}")

Rubert Montes

student•

Hola, revisando los datos y no hay acceso a la siguiente ruta, me pueden ayudar...

https://storage.googleapis.com/platzi-tf2/databasesLoadData.zip

Adonai Vera

teacher•

Hola Rubert, muchas gracias por la notificación. Si, se desconecto el pago, pero ya volví a reactivarlo, en un par de minutos vas a poder ver nuevamente el archivo.

De nuevo gracias por notificar, salduos

Carlos Humberto Dimas García

student•

Soy nuevo en este y no me funcionan las siguintes lineas desde colab:

Descomprimimos

local_zip = '/tmp/databasesLoadData.zip' zip_ref = zipfile.ZipFile(local_zip, 'r') zip_ref.extractall('/tmp/databasesLoadData') zip_ref.close()

me aparece lo siguiente:

BadZipFile Traceback (most recent call last) <ipython-input-5-65457e886c6a> in <cell line: 3>() 1 # Descomprimimos 2 local_zip = '/tmp/databasesLoadData.zip' ----> 3 zip_ref = zipfile.ZipFile(local_zip, 'r') 4 zip_ref.extractall('/tmp/databasesLoadData') 5 zip_ref.close()

1 frames /usr/lib/python3.10/zipfile.py in init(self, file, mode, compression, allowZip64, compresslevel, strict_timestamps) 1267 try: 1268 if mode == 'r': -> 1269 self._RealGetContents() 1270 elif mode in ('w', 'x'): 1271 # set the modified flag so central directory gets written

/usr/lib/python3.10/zipfile.py in _RealGetContents(self) 1334 raise BadZipFile("File is not a zip file") 1335 if not endrec: -> 1336 raise BadZipFile("File is not a zip file") 1337 if self.debug > 1: 1338 print(endrec)

BadZipFile: File is not a zip file

Adonai Vera

teacher•

Hola Carlos Humberto, No te preocupes que para esto estamos para resolver todas las dudas, Podrias ir a la parte izquierda de Google Colab y confirmar que en la carpeta /tmp/ se encuentre el archivo databasesLoadData.zip, pareciera que el archivo no se encuentra y por eso te muestra ese error.

En la parte que dice "archivos",

Me cuentas, saludos

Giovany samaca

student•

Hola una consulta, si yo tengo una tabla en google cloud platform en bigquery se podria traer al colab??

Adonai Vera

teacher•

Hola Giovany, La verdad nunca lo he hecho pero hice una pequeña busqueda y encontre buenos recursos que te permitiran hacer consultas desde Google Colab a tu tabla en Bigquery.

Configuracion

Ejemplo_practico

Me cuentas como te va, saludos

Giovany samaca

student•

Hola profe Adonai esta muy bueno me ayudo bastante Muchas gracias

Christian Ricardo Conchari Cabrera

student•

Tengo el siguiente error al tratar de descargar la base de datos, revise bastante que no sea un error de escritura...

--2022-01-14 21:55:15--  https://storage.googleapis.com/platzi-tf2/databasesLoadData.zip
Resolving storage.googleapis.com (storage.googleapis.com)... 142.250.145.128, 74.125.128.128, 173.194.79.128, ...
Connecting to storage.googleapis.com (storage.googleapis.com)|142.250.145.128|:443... connected.
HTTP request sent, awaiting response... 403 Forbidden
2022-01-14 21:55:15 ERROR 403: Forbidden.

ivan josue ortiz alban

student•

el problema es que esta caida la nube de gpc donde le alojaba el zip , nunca se te descargo el zip porque esta danada la pag por lo tanto no detecta ningun archivo

Miguel Ángel Pachón Higuera

student•

no logre desacragar la base de datos, paredec un problema del servidor donde esta alojado

Yeferson Andrés Quevedo Gutiérrez

student•

Para los que estan usando windows y le sale error pip install wget !python -m wget ``

Jhon Freddy Tavera Blandon

student•

Asegúrate de que tu archivo JSON esté bien formado y no tenga errores. Ten en cuenta la estructura de tu archivo JSON al elegir el método de carga. Si necesitas modificar los datos de tu base de datos JSON, puedes hacerlo

Carga de Bases de Datos JSON desde GCP en Google Colab

Cómo utilizar TensorFlow 2.0 con Python

Redes Neuronales y TensorFlow: Crea Modelos de IA desde Cero

Programación con TensorFlow 2 y Python: Fundamentos y Aplicaciones

Manejo y preprocesamiento de datos para redes neuronales

Carga y Procesamiento de Bases de Datos en Inteligencia Artificial