No tienes acceso a esta clase

¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera

Formatos de lectura para cargar y guardar DataFrames

7/28
Recursos

Aportes 25

Preguntas 12

Ordenar por:

Los aportes, preguntas y respuestas son vitales para aprender en comunidad. Regístrate o inicia sesión para participar.

Conclusiones:

CSV y formatos String : Son simples, requieren alto costo computacional y algo lentos.

HDF : Gran soporte, adecuado para grandes cantidades de datos, rápido a costo de alto costo computacional.

Parquet : Puede igualar a hdf e inclusive trabajar por chunks y en paralelo.

Pickle : Es práctico pero lento con grandes cantidades de datos.

Me parece muy importante esta explicación, ya que muchas veces queremos que nuestro código sea eficiente y el tipo de formato del dataframe puede influir mucho.

Que brutal el trabajo del profesor.
Todo el código que uso se puede leer desde el enlace que dejó en el área de recursos.
Por si no los viste lo dejo aquí.

https://colab.research.google.com/drive/1Dv0VUSCSoVwOLiBP_yWBm0YWwheIAtaS

Cuando dice que si hacemos una categorizacion de las variables se refiere a crear grupos ejemplo:

Digamos que disponemos de estos numeros

[4, 5, 1, 2, 1, 3, 7, 8, 9, 1, 4, 8, 7 , 7, 7, 5, 6, 9]

son 18 numeros, si los agrupamos en 3 grupos de ancho 3.
Tenemos los siguientes grupos [1-4] [ 4-7] [7-10]

Ahora tenemos los datos agrupados asi:

  • hay 5 datos en el rango [1, 4]
  • hay 5 datos en el rango [4, 7]
  • hay 8 datos en el rango [7, 10]

Pasamos a manejar solo 3 numeros que son las frecuencias de cada grupo con respecto a 18.

Ahora imaginemoslo en un dataframe mas grande, por eso categorizar disminuye el espacio en memoria

Que hermosa esa ASUS Predator!

Pros/cons Archivos

  • Parquet genera archivos mucho menos pesados gracias a su compresión
  • CSV y JSON generan archivos más pesados porque no son binarios
  • Si se categorizan las variables, aumenta el poder de compresión de los archivos, beneficiando a hormatos como feather, hdf y pickle (además de parquet)
  • En cuanto a tiempos de carga y lectura, CSV y JSON, al no ser binarios, tardan más
  • HDF es el más lento entre los binarios
  • JSON consume muchísima RAM

Clase 8: Formatos de lectura para cargar y guardar DataFrames

  • El formato parquet sobresale por su alto nivel de compresion
  • Los formatos que mas peso tienen son csv y json, no son formatos binarios.
  • Si hacemos una categorizacion de las variables, permitimos aumentar el nivel de compresion en los formatos binarios como feather, hdf, parquet y pickle
  • json y csv que son formatos de texto no tienen ninguna alteracion

En cuanto a tiempos de carga y lectura:

  • csv y json son los formatos que mas consumen tiempo debido a que no son formatos binarios
  • hdf es un formato optimizado y es util para trabajar en big data

En cuanto a memoria ram usada:

  • json es el que mas memoria ram consume

Si es que categorizamos las variables:

  • parquet es extremadamente eficiente y esto es util al trabajar con big data

Saber cual es el tipo de formato que podemos utilizar para poder hacer una lectura y uso de menor recursos posibles. Es muy importante

Nunca mejor visto, excelente comparaciones.

Gracias

Algo que no se menciona en estas comparaciones es la habilidad de retener los datatypes durante el procesamiento de los datos. CSV por default no retiene los datatypes a menos que le pasemos un schema. Esto cobra relevancia durante los pipelines de transformación de datos en donde podemos estar leyendo la data varias veces. Por el contrario pickle y parquet si retienen esta información.

Muy interesante. Ni conocía los formatos pickle, feather y parquet hasta la clase pasada, y ahora quiero mudar todas las bases de datos a esos formatos 😄

Entendido y listo para ponerlo en práctica.

Excelente Información

Excelente información!!

Excelente!

Qué buena clase!!

#QuédateConParquet

Excelente clase, estos pequeños detalles hacen mucho la diferencia al momento de procesar la información y nos ayuda a tomar la mejor decisión para usar el formato adecuado.

me gusta cada vez mas este curso Excelente profesor