No tienes acceso a esta clase

隆Contin煤a aprendiendo! 脷nete y comienza a potenciar tu carrera

Aprende todo un fin de semana sin pagar una suscripci贸n 馃敟

Aprende todo un fin de semana sin pagar una suscripci贸n 馃敟

Reg铆strate

Comienza en:

1D
0H
35M
48S

Tabulaci贸n de valores faltantes

6/21
Recursos

Aportes 4

Preguntas 3

Ordenar por:

驴Quieres ver m谩s aportes, preguntas y respuestas de la comunidad?

o inicia sesi贸n.

Analisis de Valores Faltantes en el DataFrame riskfactors

  • Mostrar los valores faltantes en el dataframe de manera general
riskfactors_df.isna()
  • Fila y columnas del dataFrame
riskfactors_df.shape
--> (245, 34)  #245 registros, 34 variables

En lo que sigue, utilizamos las funciones creadas para extender la funcionalidad de pandas

  • Numero de valores completos en el DataFrame
riskfactors_df.missing.number_complete()
--> 7144
  • Numero de valores faltantes en el dataframe
riskfactors_df.missing.number_missing()
--> 1186

Resumenes Tabulares de Valores Faltantes

  • Resumen por variable
riskfactors_df.missing.missing_variable_summary()
# missing_variable_summary() indica un resumen en cuanto a los datos
# faltantes por variable. Muestra el N掳 de datos faltantes, el N掳 de registros 
# y el porcentaje de datos faltantes que representa en el dataframe
  • Tabulacion del resumen por variable
riskfactors_df.missing.missing_variable_table()
# missing_variable_table() muestra una tabla con el N掳 de datos faltantes, 
# el N掳 de variables que contienen esos datos faltantes y el % que representa
# esa cantidad de variables respecto al total
  • Resumen por caso
riskfactors_df.missing.missing_case_summary()
# missing_case_summary() muestra todos los registros junto al N掳 de variables con datos 
# faltantes y el % de esas variables que representa respecto al total 
  • Tabulacion del resumen por caso
riskfactors_df.missing.missing_case_table()
# missing_case_table() muestra una tabla con el N掳 de datos faltantes, la cantidad
# de registros que contienen ese N掳 de datos faltantes y e % de registros que 
# representan respecto al total de registros

Intervalos de Valores Faltantes

  • Numero de valores faltantes por cada 50 registros para la variable 鈥榳eight_lbs鈥
riskfactors_df.missing.missing_variable_span(variable='weight_lbs',span_every=50)
# missing_variable_span() muestra el resumen de datos faltantes, datos completos,
# % de datos faltantes y % de datos completos por bloques de registros

  • En caso de trabajar con una serie de tiempo nos interesa saber en que punto o tiempo, alguna variable en particular muestra un comportamiento atipico. La siguiente funcion muestra el N掳 de registros consecutivos que estan completos seguido del N掳 de registros consecutivos que tienen datos faltantes
riskfactors_df.missing.missing_variable_run(variable='weight_lbs')

Tabulacion de Valores Faltantes

Tabular es expresar valores, magnitudes u otros datos por medio de tablas.

  • Siempre empieza los analisis con preguntas simples, que lleven a un numero:
    • cuantos valores deberian existir en el conjunto de datos?
  • Construir resumenes por variables y observaciones:
    • Cuantos valores faltantes existen por cada variable?
    • 驴Cuantas variables tiene X numero de valores faltantes?
    • 驴Cuantas observaciones tiene X numero de valores faltantes?
    • Cuenta los registros con datos faltantes
  • Salir de la caja y hacer mas preguntas
    • 驴Cuantos valores faltantes tengo en una variable cada X pasos? para el caso de trabajar con series de tiempo
    • 驴Cual es la racha de valores completos y faltantes en una variable?
missing_variable_summary() #metodo para obtener tabla con el conteo de datos faltantes en todas las columnas

missing_variable_table() #metodo para obtener tabla agrupada por el conteo de datos faltantes en todas las columnas
  • conteo de variables faltantes en todas las columnas
riskfactors_df.missing.missing_variable_summary()
  • conteo de variables faltantes en las columnas que tienen valores faltantes
riskfactors_df.missing.missing_variable_table()