A煤n no tienes acceso a esta clase

Crea una cuenta y contin煤a viendo este curso

Aggregation y groupby

20/28
Recursos

Aportes 21

Preguntas 10

Ordenar por:

驴Quieres ver m谩s aportes, preguntas y respuestas de la comunidad? Crea una cuenta o inicia sesi贸n.

Una forma de tener el porcentaje de cada categor铆a de una variable, sin necesidad de dividir el conteo por la suma del total de registros, es simplemente a帽adir normalize = True dentro del value_counts()

df['day'].value_counts(normalize = True)*100

Bien importante lo que menciona juan. Es un poco de teor铆a m谩s avanzada, pero en estad铆stica y la teor铆a de estimadores para una poblaci贸n, la media es sensible a la presencia de 鈥渁tipicos鈥 o outliers. Generalmente se buscan otro tipo de estimadores m谩s robustos, al igual que m茅tricas como la de Cook para determinar outliers. Es un tema que merece la pena revisarse a profundidad.

A pesar de que ya se hab铆a explicado, esta clase refuerza muy bien a la anterior, es bueno que se muestren muchos ejemplos y con un dataset diferente 馃槃

Un tema que vale la pena tener en cuenta es que la funci贸n value_counts por defecto ignora los valores ausentes, para tomarlos en cuenta se puede a帽adir dropna=False

df['day'].value_counts(dropna=False)

Por si no encuentran esta l铆nea:

pd.options.display.float_format = '{:,.3f}'.format

Conclusi贸n:

Hay que practicar, y con muchos tipos de Dataframes.

En el caso que usamos el diccionario para palicar funciones sobre columnas espec铆ficas NO es necesario separar las columnas con:

df.groupby(['sex','time'])[['total_bill','tip']] 

Ya que en el diccionario ya mencionamos a la columnas que quer铆amos, podemos hacer solo:

df.groupby(['sex','time']).agg(dict_agg)

Por si no encuentran esta linea:

dict_agg = {'tip':[min,max],'total_bill':[np.mean,mean_eur2usd]}

Este video es como volver a explicar lo mismo que el anterior solo que con algunas variaciones

Me parece que en la funci贸n f_filter esta siendo redundante cuando habla del mean

def f_filter(x):
  return mean_eur2usd(x['total_bill'].mean()) > 20

Ya que de por si dentro de la funci贸n mean_eur2usd ya esta haciendo el mean con numpy

def mean_eur2usd(x):
  return np.mean(x)*1.12

Y como se ve en la siguiente imagen da lo mismo en ambos casos

Es lo mismo que esto

En el minuto 12 el profesor usa la linea

df.groupby(['sex','time'])[['total_bill','tip']].agg(dict_agg)

la parte del 鈥榌[鈥榯otal_bill鈥,鈥榯ip鈥橾]鈥 no parece estar cumpliendo ninguna funci贸n dado 鈥榓gg(dict_agg)鈥

Se obtiene el mismo resultado con:

df.groupby(['sex','time']).agg(dict_agg)

no es por nada pero quiz谩 no estar铆a mal usar otro tema o editor de texto, para ser sincera los colores as铆 aburren mucho la vista

La clase es buena, sin embargo, creo que la parte del filtro las explicaciones son muy superficiales y no queda muy claro la manera en la que funciona

Buen(a) dia, tarde o noche

Los aportes de esta clase no corresponde al tema visto, lo compartido en colab es de la clase:

23/29 Tablas din谩micas con Pivot Table.

minuto 10:14 tambi茅n vemos que existe una propina m谩xima del 71% del valor de la cuenta!!! 馃槷

Muy pr谩ctico e interesante este ejemplo, Y hablando de pr谩ctico a practicar

Aggregation y groupby

como puedo comprar un sueter asi?

en mi mente son贸 鈥渁hhh GG鈥

interesante

Excelente