Aún no tienes acceso a esta clase

Crea una cuenta y continúa viendo este curso

Pivot tables y cross-tabulations

13/25
Recursos

Aportes 8

Preguntas 1

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad? Crea una cuenta o inicia sesión.

Sería bueno que todo el contenido del curso esté enlazado con un caso de estudio bien estructurado. Veo que explican los comandos y se obtienen tablas pero en realidad cuál es la interpretacion de esos datos?

En un analisis exploratorio pienso que lo principal es formular las preguntas que debemos responder, los objetivos de nuestro estudio con los datos que tenemos.
Hasta este punto del curso lo que he entendido es que hay una base de datos de accidentes automovilisticos pero y cual es la hipotesis?? cual es la pregunta que queremos resolver??

Todas las herramientas de codigo las podemos consultar en la documentacion, sería más pertinente enfocarse en un estudio de caso durante todo el curso, no solamente en la clase final. Gracias.

Este curso a medida que avanza es más aburrido y pierde el norte… No tiene nada que ver con análisis de datos

Pivot tables y cross-tabulations

con un data set se puede ver como a partir de un dato, se comporta los datos o como se agrupan

Group by

con el comando groupby

Chicago_df.groupby(['LIGHTING_CONDITION','REPORT_TYPE','CRASH_HOUR']).agg({'BEAT_OF_OCCURRENCE':'sum'})

se puede agrupar los datos dependiendo de una variable por ejemplo agrupar los accidentes de transito por las condiciones de luz que existian en el momento del accidente.

Se pueden agrupar los datos con multiples variables como agrupar por condiciones de luz y tipo de reporte y la hora del accidente para que muestre el total de accidentes ocurridos con esas variables

Pivot table

con pandas, el comando pivot_table, nos permite agrupar toda la tabla del dataset, dejandonos ver la acumulación de datos y agruparlos en variables que expresemos en un
indice

pd.pivot_table(Chicago_df,index=['LIGHTING_CONDITION','REPORT_TYPE'])

filtro

Cuando tomamos el dataframe y aplicamos el comando filter, nos muestra solo las columnas que ingresemos filtradas y separadas.

Chicago_df.filter(['LIGHTING_CONDITION','REPORT_TYPE'])

crosstab

El comando de pandas $crosstab$ nos permite hacer una tabulación de la tabla entre varias variables, lo cual nos indica en el ejemplo el número de accidentes dependiendo de las condiciones de luz y la hora específica del accidente

pd.crosstab(Chicago_df['LIGHTING_CONDITION'],Chicago_df['CRASH_HOUR'])

Tomar muy en cuenta que se debe ingresar datos que si se pueda contabilizar, no se puede trabajar con dos datos dentro de un mismo índice

creo que perdieron el enfoque del curso, una cosa es explicar el ueso de las funciones a medida que se hace un análisis, lo que esperaba que era este curso, a explicar a el funcionamiento de pandas y las funciones, para eso están los cursos de calculo, estadistica y de pandas. Muy redundante el contenido de este curso con respecto a los demás en la ruta

Definitivamente urge una versión 2 de este curso. Más estructurada, con más continuación entre clases y más ánimos.

Este curso no se trata de análisis exploratorio, solo herramientas y técnicas sin contexto ni orden! Además noto una preparación precaria de las clases!
A pesar de ellos, al no considerar el nombre del curso, he aprendido algunas funciones interesantes en las que profundizare.

Me parece que no queda claro qué operación queremos realizar en la tabla dinámica, no creo que por default la operación de la tabla sea promedio como se menciona, anexo el código para especificar la función de datos agregados u operación matemática que nos interese realizar en la tabla pivote.

table = pd.pivot_table(df, values=‘D’, index=[‘A’, ‘B’],
… columns=[‘C’], aggfunc=np.sum, fill_value=0)

¿Qué vamos a ver en esta clase?

En esta clase vamos a ver como hacer Pivot tables, filtros y cross-tabulations.