Hice mis notas un tanto apresurado, pero espero les sirvan
https://github.com/rb-one/Manipulacion_y_Analisis_de_datos_Pandas/blob/master/Notes/notas.md
Comenzando con pandas
¿Qué es pandas?
Series e Indexación y selección de datos
De paneles de datos al DataFrame
Indexado y manejo de archivos CSV
Conexión con bases de datos tipo SQL
Ventajas y desventajas de los formatos de importar y guardado
Funcionalidades básicas y esenciales de pandas
Formatos de lectura para cargar y guardar DataFrames
Tipos de Variables que componen un data frame
Estructuras de dataframes en detalle
Borrar filas, columnas y copiar información
Aplicando pandas
Funciones matemáticas
Funciones más complejas y lambdas
Múltiples Ãndices
Cómo trabajar con variables tipo texto en Pandas
Concatenación de DataFrames: concat y append
Merge de DataFrames
¿Cómo lidiar con datos faltantes en tus DataFrames?
Group by
Cómo lidiar con datos duplicados en Pandas
Aggregation y groupby
Group By: extraer valor con variables categóricas
Tablas dinámicas con Pivot Table
Series de Tiempo
Series de Tiempo: variables nulas
Visualización y graficación de datos
Contenido extra
Iniciando una rutina tÃpica de manejo de datos
Preprocesamiento de datos: terminando de preparar y limpiar los datasets
Análisis de datos
No tienes acceso a esta clase
¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera
Aportes 25
Preguntas 12
Hice mis notas un tanto apresurado, pero espero les sirvan
https://github.com/rb-one/Manipulacion_y_Analisis_de_datos_Pandas/blob/master/Notes/notas.md
Conclusiones:
CSV y formatos String : Son simples, requieren alto costo computacional y algo lentos.
HDF : Gran soporte, adecuado para grandes cantidades de datos, rápido a costo de alto costo computacional.
Parquet : Puede igualar a hdf e inclusive trabajar por chunks y en paralelo.
Pickle : Es práctico pero lento con grandes cantidades de datos.
Me parece muy importante esta explicación, ya que muchas veces queremos que nuestro código sea eficiente y el tipo de formato del dataframe puede influir mucho.
Que brutal el trabajo del profesor.
Todo el código que uso se puede leer desde el enlace que dejó en el área de recursos.
Por si no los viste lo dejo aquÃ.
https://colab.research.google.com/drive/1Dv0VUSCSoVwOLiBP_yWBm0YWwheIAtaS
Cuando dice que si hacemos una categorizacion de las variables se refiere a crear grupos ejemplo:
Digamos que disponemos de estos numeros
[4, 5, 1, 2, 1, 3, 7, 8, 9, 1, 4, 8, 7 , 7, 7, 5, 6, 9]
son 18 numeros, si los agrupamos en 3 grupos de ancho 3.
Tenemos los siguientes grupos [1-4] [ 4-7] [7-10]
Ahora tenemos los datos agrupados asi:
Pasamos a manejar solo 3 numeros que son las frecuencias de cada grupo con respecto a 18.
Ahora imaginemoslo en un dataframe mas grande, por eso categorizar disminuye el espacio en memoria
Que hermosa esa ASUS Predator!
Pros/cons Archivos
En cuanto a tiempos de carga y lectura:
En cuanto a memoria ram usada:
Si es que categorizamos las variables:
Saber cual es el tipo de formato que podemos utilizar para poder hacer una lectura y uso de menor recursos posibles. Es muy importante
Nunca mejor visto, excelente comparaciones.
Gracias
Algo que no se menciona en estas comparaciones es la habilidad de retener los datatypes durante el procesamiento de los datos. CSV por default no retiene los datatypes a menos que le pasemos un schema. Esto cobra relevancia durante los pipelines de transformación de datos en donde podemos estar leyendo la data varias veces. Por el contrario pickle y parquet si retienen esta información.
Muy interesante. Ni conocÃa los formatos pickle, feather y parquet hasta la clase pasada, y ahora quiero mudar todas las bases de datos a esos formatos 😄
Entendido y listo para ponerlo en práctica.
Excelente Información
Excelente información!!
Excelente!
Qué buena clase!!
#QuédateConParquet
Excelente clase, estos pequeños detalles hacen mucho la diferencia al momento de procesar la información y nos ayuda a tomar la mejor decisión para usar el formato adecuado.
me gusta cada vez mas este curso Excelente profesor
Los aportes, preguntas y respuestas son vitales para aprender en comunidad. RegÃstrate o inicia sesión para participar.