Transformar CSV a TFRecord

Curso Profesional de Computer Vision con TensorFlow

Contenido del curso

Comprender la visión computarizada

Dimensionamiento de proyecto de visión computarizada

Obtención y procesamiento de los datos

Entrena, testea y optimiza tus modelos

Producto con visión computarizada en producción

Siguientes pasos en inteligencia artificial

Tomar examen

Transformar CSV a TFRecord

Resumen

Object detection API:

import os
%cd /content
!git clone --quiet https://github.com/tensorflow/models.git
%cd /content/models/
!git checkout 58d19c67e1d30d905dd5c6e5092348658fed80af
!apt-get update && apt-get install -y -qq protobuf-compiler python-pil python-lxml python-tk
!pip install -q Cython contextlib2 pillow lxml matplotlib
!pip install -q pycocotools
%cd /content/models/research
!protoc object_detection/protos/*.proto --python_out=.
os.environ['PYTHONPATH'] += ':/content/models/research/:/content/models/research/slim/'
!python object_detection/builders/model_builder_test.py

Mario Alexander Vargas Celis

Estudiante

Para transformar un archivo CSV a TFRecord, aquí tienes una guía detallada paso a paso. Supongamos que tu archivo dataset.csv tiene las siguientes columnas:


filename, label

imagen\_001.jpg, 0

imagen\_002.jpg, 1

### Pasos para convertir el CSV a TFRecord

1. **Importar las bibliotecas necesarias**

```python

import os

import tensorflow as tf

import pandas as pd

```

2. **Definir las funciones de ayuda para la conversión a TFRecord**

Cada característica en los datos debe transformarse al formato adecuado (bytes, int64 o float), y se utiliza un tf.train.Example para almacenar la información en el formato TFRecord.

```python

def _bytes_feature(value):

"""Retorna un Feature en formato bytes."""

return tf.train.Feature(bytes_list=tf.train.BytesList(value=[value]))

def _int64_feature(value):

"""Retorna un Feature en formato int64."""

return tf.train.Feature(int64_list=tf.train.Int64List(value=[value]))

def create_example(row):

"""Crea un tf.train.Example para cada fila en el CSV."""

# Lee la imagen en bytes

with open(row['filename'], 'rb') as img_file:

image_data = img_file.read()

# Crear un diccionario de características

feature = {

'image': _bytes_feature(image_data),

'label': _int64_feature(int(row['label']))

}

# Retorna el ejemplo serializado

return tf.train.Example(features=tf.train.Features(feature=feature))

```

3. **Cargar el archivo CSV y escribir los datos en el archivo TFRecord**

Lee el archivo CSV con pandas, luego convierte cada fila en un tf.train.Example y escribe los ejemplos en un archivo TFRecord.

```python

# Definir ruta del archivo CSV y carpeta de imágenes

csv_file = 'dataset.csv'

output_tfrecord = 'dataset.tfrecord'

# Leer el archivo CSV

df = pd.read_csv(csv_file)

# Crear el archivo TFRecord y escribir los ejemplos

with tf.io.TFRecordWriter(output_tfrecord) as writer:

for _, row in df.iterrows():

example = create_example(row)

writer.write(example.SerializeToString())

print("Archivo TFRecord creado correctamente.")

```

4. **Leer y verificar el archivo TFRecord**

Ahora puedes cargar el archivo TFRecord para verificar que los datos se almacenaron correctamente.

```python

# Definir función para leer el archivo TFRecord

def parse_tfrecord_fn(example_proto):

# Descripción de características para decodificar

feature_description = {

'image': tf.io.FixedLenFeature([], tf.string),

'label': tf.io.FixedLenFeature([], tf.int64),

}

return tf.io.parse_single_example(example_proto, feature_description)

# Cargar el archivo TFRecord

raw_dataset = tf.data.TFRecordDataset(output_tfrecord)

parsed_dataset = raw_dataset.map(parse_tfrecord_fn)

# Mostrar algunos ejemplos

for parsed_record in parsed_dataset.take(5):

image_raw = parsed_record['image'].numpy()

label = parsed_record['label'].numpy()

print("Etiqueta:", label)

print("Imagen (bytes):", len(image_raw), "bytes") # Verifica el tamaño en bytes

```

### Explicación de los pasos

- **Conversión de tipos de datos**: Las funciones \_bytes\_feature y \_int64\_feature convierten los valores de las características al tipo que espera tf.train.Example.

- **Creación de tf.train.Example**: Se crea un ejemplo con las características necesarias, en este caso la imagen en bytes y la etiqueta.

- **Escritura en TFRecord**: TFRecordWriter escribe cada ejemplo en el archivo dataset.tfrecord.

- **Lectura de TFRecord**: Con tf.data.TFRecordDataset, puedes leer y decodificar cada ejemplo, lo que permite verificar que los datos están almacenados correctamente.

Este proceso optimiza el almacenamiento y facilita la carga rápida en TensorFlow para entrenamiento y evaluación en grandes conjuntos de datos.

Transformar CSV a TFRecord

Comprender la visión computarizada

¿Por qué aprender computer vision?

¿Qué es la visión computarizada?

Tipos de visión computarizada

Introducción a object detection: clasificación + localización

Aprende a identificar problemas

Dimensionamiento de proyecto de visión computarizada

Cómo definir los tiempos de tu proyecto

Cómo costear tu proyecto

Cómo identificar los roles necesarios en el proyecto

Producto mínimo viable en computer vision

Obtención y procesamiento de los datos

Obtención de datos para tu proyecto

Limpieza de la base de datos

Distribución de datos en entrenamiento y testeo

Etiquetado de los datos de test

Etiquetado de los datos de train

Transforma tu base de datos a TFRecord