No tienes acceso a esta clase

¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera

Ventajas y desventajas de los formatos de importar y guardado

6/28
Recursos

Aportes 24

Preguntas 12

Ordenar por:

Los aportes, preguntas y respuestas son vitales para aprender en comunidad. Regístrate o inicia sesión para participar.

  • CSV - Es muy versatil ya que solo tiene comas y saltos de linea
  • JSON - Tiene un formato muy similar al de un diccionario de Python
  • Excel - Permite guardar el archivo en formato .xls para trabajar con el en Excel o Spreadsheets
  • Pickle - Permite comprimir la información, es util cuando se tienen tablas grandes
  • Parquet - Permite darle un formato que puede usarse en ambientes de Big Data como Hadoop

Encontre otra forma de guardar los datos en un excel

Se los comparto!

Alguno le ha dado este error cuando tratan de abrir un archivo de excel con Pandas:

**ImportError: Pandas requires version ‘2.6.0’ or newer of ‘openpyxl’ (version ‘2.5.9’ currently installed).
**

En mi opinión creo que el CSV es el más estándar, por la facilidad de leerlo en otros lenguajes/entornos sin necesidad de instalar librerías externas.

El archivo .hdf me causo ciertos problemas, lo cambié a .h5, al parecer es una nueva versión del formato.

Excelente, me toco instalar estas librerias

pip install openpyxl

pip install pyarrow

pip install tablesS

Amigxs, les recomiendo crear un entorno virtual (como se vio en los cursos de Python) e instalar el upgrade de Pandas ahí.
También instalar Jupyter Notebook directamente en la máquina y manejar los archivos (csv y demases) localmente en lugar de usar Google Drive.
Así no hay que estar corriendo las primeras celdas de este notebook todo el tiempo para actualizar Pandas y acceder al drive, que en mi caso era una pérdida de tiempo.

Referencia cruzada de JSON vs CSV y Parquet

Les recomiendo esta lectura, es de la documentacion, está super bien explicada: https://pandas.pydata.org/docs/getting_started/intro_tutorials/02_read_write.html

Encontré una tabla donde me pareció interesante que podemos leer HTML

En DeepNote tienes que instalar openpyxl para poder trabajar con formato excel, lo instalas con este comando y listo.

!pip install openpyxl

Formatos

  • pd.df.to_excel(ruta con nombre de archivo, sheet_name=‘nombre de hoja’) permite crear un Excel y nombrar la hoja
  • Otros formatos: json, pickle, parquet, hdf
  • Pickle (.pkl), Parquet y HDF se usan para Big Data

El formato parquet me da el siguiente error al tratar de guardarlo:

ImportError: Unable to find a usable engine; tried using: ‘pyarrow’, ‘fastparquet’.
pyarrow or fastparquet is required for parquet support

Excel es una pesima idea de guardar grandes datos es excesivamente lento, y pandas al ser single thread no optimiza mucho este paso.

Para quienes tienen problemas al crear el archivo HDF5 o los mismos con extensión .h5 que es lo mismo.

  • Crear el archivo:
    df.to_hdf(dir_pandas.format('test.h5'), "table", append=True)
    Para leer con key = ‘table’
    pd.read_hdf(dir_pandas.format('test.h5'), "table", append=True)

  • Para revisar los parámetros de archivos con extension HDF5 leer Aquí

Maravillosa clase. Sin dudas que es una de esas herramientas que puede abrir puertas en muchos lugares.

También se puede usar el formato Feather, que de hecho en el próximo video se habla. Lo único que hay que tener en cuenta es que les puede arrojar este error:

ValueError: feather does not support serializing <class 'pandas.core.indexes.base.Index'> for the index; you can .reset_index() to make the index into column(s)

Les dejo el código correspondiente:

import os

route = 'practice_output_files'
if not os.path.isdir(route):
    os.mkdir(route)

route = './{}'.format(route)
route = route + '/{}'

route_file = route.format('test1.feather')

df1 = df.reset_index()
df1.to_feather(route_file)

df_read = pd.read_feather(route_file)
print('Dataframe from Feather file: \n', df_read)

que buen resumen de posibilidades

porque me sale este error

como se ve un archivo en formato pickle. El no entro a ese archivo, y cuando yo intenté me apareció no preview available

Muy interesante !!!

muy interesante

El formato CSV siempre será lo más usado por la versatilidad y compatibilidad con X lenguaje de Programación. Además de ya ser el estándar.