Aún no tienes acceso a esta clase

Crea una cuenta y continúa viendo este curso

Agrupamiento de datasets

11/25
Recursos

Aportes 10

Preguntas 5

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad? Crea una cuenta o inicia sesión.

Total de choques por hora y condición de visibilidad

report2 = chicago_df.groupby(['LIGHTING_CONDITION', 'CRASH_HOUR']).agg({'Unnamed: 0': 'count'})
report2 = report2.reset_index()
report2.columns = ['LIGHTING_CONDITION', 'CRASH_HOUR', 'TOTAL_CRASHES']
alt.Chart(report2).mark_bar().encode(
    x='CRASH_HOUR',
    y='TOTAL_CRASHES',
    color='LIGHTING_CONDITION'
).properties(width=820)

Otra forma de eliminar el índice al agrupar es pasando el parámetro as_index=False

Ej:

Chicago_df.groupby( ['LIGHTING_CONDITION','REPORT_TYPE','CRASH_HOUR'], as_index=False).agg( {'BEAT_OF_OCCURRENCE':'sum',} )

Espero que les sirva!

El uso de corchetes dentro del groupby es cuando queremos agrupar por varias columnas. Pero si solo queremos agrupar por una columna se puede usar sin corchetes, de la siguiente manera:

chicago_df.groupby('CRASH_HOUR')
report_2 = df_chicago.groupby(['LIGHTING_CONDITION', 'REPORT_TYPE', 'CRASH_HOUR']).agg({'NUM_UNITS': ['sum', 'min', 'max']})
report_2 = report_2.reset_index()
report_2.columns = ['LIGHTING_CONDITION', 'REPORT_TYPE', 'CRASH_HOUR', 'NUM_UNITS_SUM', 'NUM_UNITS_MIN', 'NUM_UNITS_MAX']

alt.Chart(report_2).mark_bar().encode(
    x = 'CRASH_HOUR',
    y = 'NUM_UNITS_SUM',
    color = 'LIGHTING_CONDITION'
).properties(width=500)

Lo que interpreto es que la mayoria de accidentes se dan entre las 6 am y 6pm, con luz diurna. Ahora toca ver la gravedad del accidente (creo que se dan simplemente por el hecho de que hay mas carros) y su relacion con la luz.

Podemos ocupar esto en vez de agg y es menos confusa, bueno para mi y además podemos agregar reset_index() para resetear lo índices.

df_group = df.groupby(['LIGHTING_CONDITION', 'REPORT_TYPE', 'CRASH_HOUR'])['BEAT_OF_OCCURRENCE'].sum()

Curioso como el pico de colisiones es tan alto a la rapidez de 30

Aprendiendo y practicando en esta clase el agrupamiento de datos .Este es el ejemplo que se realizo en la clase

También es posible resetear el index cuando agrupamos , luego de la agregación.

¿Cuales son las librerias que permiten variables categoricas en el eje “X” ademas de Altair.
¿Y cuales las que no? Gracias!

Muy buena clase realmente! Con esto no uso mas Excel.
Jaja