No tienes acceso a esta clase

隆Contin煤a aprendiendo! 脷nete y comienza a potenciar tu carrera

Ventajas y desventajas de los formatos de importar y guardado

6/28
Recursos

Aportes 24

Preguntas 12

Ordenar por:

Los aportes, preguntas y respuestas son vitales para aprender en comunidad. Reg铆strate o inicia sesi贸n para participar.

  • CSV - Es muy versatil ya que solo tiene comas y saltos de linea
  • JSON - Tiene un formato muy similar al de un diccionario de Python
  • Excel - Permite guardar el archivo en formato .xls para trabajar con el en Excel o Spreadsheets
  • Pickle - Permite comprimir la informaci贸n, es util cuando se tienen tablas grandes
  • Parquet - Permite darle un formato que puede usarse en ambientes de Big Data como Hadoop

Encontre otra forma de guardar los datos en un excel

Se los comparto!

Alguno le ha dado este error cuando tratan de abrir un archivo de excel con Pandas:

**ImportError: Pandas requires version 鈥2.6.0鈥 or newer of 鈥榦penpyxl鈥 (version 鈥2.5.9鈥 currently installed).
**

En mi opini贸n creo que el CSV es el m谩s est谩ndar, por la facilidad de leerlo en otros lenguajes/entornos sin necesidad de instalar librer铆as externas.

El archivo .hdf me causo ciertos problemas, lo cambi茅 a .h5, al parecer es una nueva versi贸n del formato.

Excelente, me toco instalar estas librerias

pip install openpyxl

pip install pyarrow

pip install tablesS

Amigxs, les recomiendo crear un entorno virtual (como se vio en los cursos de Python) e instalar el upgrade de Pandas ah铆.
Tambi茅n instalar Jupyter Notebook directamente en la m谩quina y manejar los archivos (csv y demases) localmente en lugar de usar Google Drive.
As铆 no hay que estar corriendo las primeras celdas de este notebook todo el tiempo para actualizar Pandas y acceder al drive, que en mi caso era una p茅rdida de tiempo.

Referencia cruzada de JSON vs CSV y Parquet

Les recomiendo esta lectura, es de la documentacion, est谩 super bien explicada: https://pandas.pydata.org/docs/getting_started/intro_tutorials/02_read_write.html

Encontr茅 una tabla donde me pareci贸 interesante que podemos leer HTML

En DeepNote tienes que instalar openpyxl para poder trabajar con formato excel, lo instalas con este comando y listo.

!pip install openpyxl

Formatos

  • pd.df.to_excel(ruta con nombre de archivo, sheet_name=鈥榥ombre de hoja鈥) permite crear un Excel y nombrar la hoja
  • Otros formatos: json, pickle, parquet, hdf
  • Pickle (.pkl), Parquet y HDF se usan para Big Data

El formato parquet me da el siguiente error al tratar de guardarlo:

ImportError: Unable to find a usable engine; tried using: 鈥榩yarrow鈥, 鈥榝astparquet鈥.
pyarrow or fastparquet is required for parquet support

Excel es una pesima idea de guardar grandes datos es excesivamente lento, y pandas al ser single thread no optimiza mucho este paso.

Para quienes tienen problemas al crear el archivo HDF5 o los mismos con extensi贸n .h5 que es lo mismo.

  • Crear el archivo:
    df.to_hdf(dir_pandas.format('test.h5'), "table", append=True)
    Para leer con key = 鈥榯able鈥
    pd.read_hdf(dir_pandas.format('test.h5'), "table", append=True)

  • Para revisar los par谩metros de archivos con extension HDF5 leer Aqu铆

Maravillosa clase. Sin dudas que es una de esas herramientas que puede abrir puertas en muchos lugares.

Tambi茅n se puede usar el formato Feather, que de hecho en el pr贸ximo video se habla. Lo 煤nico que hay que tener en cuenta es que les puede arrojar este error:

ValueError: feather does not support serializing <class 'pandas.core.indexes.base.Index'> for the index; you can .reset_index() to make the index into column(s)

Les dejo el c贸digo correspondiente:

import os

route = 'practice_output_files'
if not os.path.isdir(route):
    os.mkdir(route)

route = './{}'.format(route)
route = route + '/{}'

route_file = route.format('test1.feather')

df1 = df.reset_index()
df1.to_feather(route_file)

df_read = pd.read_feather(route_file)
print('Dataframe from Feather file: \n', df_read)

que buen resumen de posibilidades

porque me sale este error

como se ve un archivo en formato pickle. El no entro a ese archivo, y cuando yo intent茅 me apareci贸 no preview available

Muy interesante !!!

muy interesante

El formato CSV siempre ser谩 lo m谩s usado por la versatilidad y compatibilidad con X lenguaje de Programaci贸n. Adem谩s de ya ser el est谩ndar.