Analisis de Valores Faltantes en el DataFrame riskfactors
- Mostrar los valores faltantes en el dataframe de manera general
riskfactors_df.isna()
- Fila y columnas del dataFrame
riskfactors_df.shape
--> (245, 34) #245 registros, 34 variables
En lo que sigue, utilizamos las funciones creadas para extender la funcionalidad de pandas
- Numero de valores completos en el DataFrame
riskfactors_df.missing.number_complete()
--> 7144
- Numero de valores faltantes en el dataframe
riskfactors_df.missing.number_missing()
--> 1186
Resumenes Tabulares de Valores Faltantes
- Resumen por variable
riskfactors_df.missing.missing_variable_summary()
# missing_variable_summary() indica un resumen en cuanto a los datos
# faltantes por variable. Muestra el N° de datos faltantes, el N° de registros
# y el porcentaje de datos faltantes que representa en el dataframe
- Tabulacion del resumen por variable
riskfactors_df.missing.missing_variable_table()
# missing_variable_table() muestra una tabla con el N° de datos faltantes,
# el N° de variables que contienen esos datos faltantes y el % que representa
# esa cantidad de variables respecto al total
- Resumen por caso
riskfactors_df.missing.missing_case_summary()
# missing_case_summary() muestra todos los registros junto al N° de variables con datos
# faltantes y el % de esas variables que representa respecto al total
- Tabulacion del resumen por caso
riskfactors_df.missing.missing_case_table()
# missing_case_table() muestra una tabla con el N° de datos faltantes, la cantidad
# de registros que contienen ese N° de datos faltantes y e % de registros que
# representan respecto al total de registros
Intervalos de Valores Faltantes
- Numero de valores faltantes por cada 50 registros para la variable ‘weight_lbs’
riskfactors_df.missing.missing_variable_span(variable='weight_lbs',span_every=50)
# missing_variable_span() muestra el resumen de datos faltantes, datos completos,
# % de datos faltantes y % de datos completos por bloques de registros
- En caso de trabajar con una serie de tiempo nos interesa saber en que punto o tiempo, alguna variable en particular muestra un comportamiento atipico. La siguiente funcion muestra el N° de registros consecutivos que estan completos seguido del N° de registros consecutivos que tienen datos faltantes
riskfactors_df.missing.missing_variable_run(variable='weight_lbs')
¿Quieres ver más aportes, preguntas y respuestas de la comunidad?
o inicia sesión.