No tienes acceso a esta clase

¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera

Aprende todo un fin de semana sin pagar una suscripción 🔥

Aprende todo un fin de semana sin pagar una suscripción 🔥

Regístrate

Comienza en:

1D
0H
35M
48S

Tabulación de valores faltantes

6/21
Recursos

Aportes 4

Preguntas 3

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad?

o inicia sesión.

Analisis de Valores Faltantes en el DataFrame riskfactors

  • Mostrar los valores faltantes en el dataframe de manera general
riskfactors_df.isna()
  • Fila y columnas del dataFrame
riskfactors_df.shape
--> (245, 34)  #245 registros, 34 variables

En lo que sigue, utilizamos las funciones creadas para extender la funcionalidad de pandas

  • Numero de valores completos en el DataFrame
riskfactors_df.missing.number_complete()
--> 7144
  • Numero de valores faltantes en el dataframe
riskfactors_df.missing.number_missing()
--> 1186

Resumenes Tabulares de Valores Faltantes

  • Resumen por variable
riskfactors_df.missing.missing_variable_summary()
# missing_variable_summary() indica un resumen en cuanto a los datos
# faltantes por variable. Muestra el N° de datos faltantes, el N° de registros 
# y el porcentaje de datos faltantes que representa en el dataframe
  • Tabulacion del resumen por variable
riskfactors_df.missing.missing_variable_table()
# missing_variable_table() muestra una tabla con el N° de datos faltantes, 
# el N° de variables que contienen esos datos faltantes y el % que representa
# esa cantidad de variables respecto al total
  • Resumen por caso
riskfactors_df.missing.missing_case_summary()
# missing_case_summary() muestra todos los registros junto al N° de variables con datos 
# faltantes y el % de esas variables que representa respecto al total 
  • Tabulacion del resumen por caso
riskfactors_df.missing.missing_case_table()
# missing_case_table() muestra una tabla con el N° de datos faltantes, la cantidad
# de registros que contienen ese N° de datos faltantes y e % de registros que 
# representan respecto al total de registros

Intervalos de Valores Faltantes

  • Numero de valores faltantes por cada 50 registros para la variable ‘weight_lbs’
riskfactors_df.missing.missing_variable_span(variable='weight_lbs',span_every=50)
# missing_variable_span() muestra el resumen de datos faltantes, datos completos,
# % de datos faltantes y % de datos completos por bloques de registros

  • En caso de trabajar con una serie de tiempo nos interesa saber en que punto o tiempo, alguna variable en particular muestra un comportamiento atipico. La siguiente funcion muestra el N° de registros consecutivos que estan completos seguido del N° de registros consecutivos que tienen datos faltantes
riskfactors_df.missing.missing_variable_run(variable='weight_lbs')

Tabulacion de Valores Faltantes

Tabular es expresar valores, magnitudes u otros datos por medio de tablas.

  • Siempre empieza los analisis con preguntas simples, que lleven a un numero:
    • cuantos valores deberian existir en el conjunto de datos?
  • Construir resumenes por variables y observaciones:
    • Cuantos valores faltantes existen por cada variable?
    • ¿Cuantas variables tiene X numero de valores faltantes?
    • ¿Cuantas observaciones tiene X numero de valores faltantes?
    • Cuenta los registros con datos faltantes
  • Salir de la caja y hacer mas preguntas
    • ¿Cuantos valores faltantes tengo en una variable cada X pasos? para el caso de trabajar con series de tiempo
    • ¿Cual es la racha de valores completos y faltantes en una variable?
missing_variable_summary() #metodo para obtener tabla con el conteo de datos faltantes en todas las columnas

missing_variable_table() #metodo para obtener tabla agrupada por el conteo de datos faltantes en todas las columnas
  • conteo de variables faltantes en todas las columnas
riskfactors_df.missing.missing_variable_summary()
  • conteo de variables faltantes en las columnas que tienen valores faltantes
riskfactors_df.missing.missing_variable_table()