Tabulación de valores faltantes

Clase 6 de 21 • Curso de Manejo de Datos Faltantes: Detección y Exploración

Contenido del curso

Introducción a los valores faltantes

Manipulación inicial de valores faltantes

Búsqueda de relaciones de valores faltantes

Tratamiento de valores faltantes

Cierre de curso

21
Continúa aprendiendo sobre el manejo de valores faltantes
03:21 min

Tomar examen

Comentarios

Tomas Pucutay

student•

Me sucedió que al ejecutar los métodos de tabulación como:

df.missing.missing_variable_table()
df.missing.missing_case_table()

Me devolvía un error porque no encontraba la variable "n_variables" . Esto ocurre porque en el método escrito de pandas-missing-extension, que es esta para missing_variable_table():

    def missing_variable_table(self) -> pd.DataFrame:
        return (
            self._obj.missing.missing_variable_summary()
            .value_counts("n_missing")
            .reset_index()
            .rename(columns={"n_missing": "n_missing_in_variable", 0: "n_variables"})
            .assign(
                pct_variables=lambda df: df.n_variables / df.n_variables.sum() * 100
            )
            .sort_values("pct_variables", ascending=False)
        )

Durante value_counts, se genera una columna llamada "count" y no "0", entonces rename no consigue renombrarla a "n_variables" y en consecuencia assign no la encuentra. Para corregir esto desde la función reset_index se puede asignar name="n_variables" y eso sería más universal. Aquí estaría el código modificado para que se ejecute correctamente:

    def missing_variable_table(self) -> pd.DataFrame:
        return (
            self._obj.missing.missing_variable_summary()
            .value_counts("n_missing")
            .reset_index(name="n_variables")
            .rename(columns={"n_missing": "n_missing_in_variable"})
            .assign(
                pct_variables=lambda df: df.n_variables / df.n_variables.sum() * 100
            )
            .sort_values("pct_variables", ascending=False)
        )

Amaury Antonio Avila Martinez

student•

Muchas gracias, de mucha ayuda tu aportación.

Santiago Espinel

student•

duré una hora intentando resolverlo y acá estaba la solución jajajaja gracias crack

Jeinfferson Bernal G

student•

Tabulacion de Valores Faltantes

Tabular es expresar valores, magnitudes u otros datos por medio de tablas.

Siempre empieza los analisis con preguntas simples, que lleven a un numero:
- cuantos valores deberian existir en el conjunto de datos?
Construir resumenes por variables y observaciones:
- Cuantos valores faltantes existen por cada variable?
- ¿Cuantas variables tiene X numero de valores faltantes?
- ¿Cuantas observaciones tiene X numero de valores faltantes?
- Cuenta los registros con datos faltantes
Salir de la caja y hacer mas preguntas
- ¿Cuantos valores faltantes tengo en una variable cada X pasos? para el caso de trabajar con series de tiempo
- ¿Cual es la racha de valores completos y faltantes en una variable?

Jesús David Barraza Guzmán

student•

De verdad gracias por tus aportes, siempre los tomo para mis apuntes

Lina Marcela Garzon Muñoz

student•

Mil gracias por tu aporte. Muy necesario :D

MANUEL ALEJANDRO DE LA ROSA GOMEZ

student•

Es importante aclarar que el 3 de abril de 2023 se lanzó una nueva versión de la API de Pandas (la 2.0.0). Entonces algunas funciones del cuaderno de pandas-missing-extension generan errores.

Una solución rápida para este problema es asegurarse que se está ejecutando la versión 1.5.3 de Pandas o anteriores.

Si se está ejecutando el código en DeepNote, basta con ejecutar la instrucción:

!pip install pandas==1.5.3

antes de

import pandas

O si se está ejecutando el código desde un entorno local, basta con reinstalar el paquete de Pandas a la versión 1.5.3 desde el gestor de ambientes virtuales (venv, Anaconda, etc.)

Sebastian Serna Jimenez

student•

Gracias por el aporte!

Andres Sanchez

student•

Muchas gracias este aporte desatascó mi proceso

Jeinfferson Bernal G

student•

Analisis de Valores Faltantes en el DataFrame riskfactors

Mostrar los valores faltantes en el dataframe de manera general

riskfactors_df.isna()

Fila y columnas del dataFrame

riskfactors_df.shape
--> (245, 34)  #245 registros, 34 variables

En lo que sigue, utilizamos las funciones creadas para extender la funcionalidad de pandas

Numero de valores completos en el DataFrame

riskfactors_df.missing.number_complete()
--> 7144

Numero de valores faltantes en el dataframe

riskfactors_df.missing.number_missing()
--> 1186

Resumenes Tabulares de Valores Faltantes

Resumen por variable

riskfactors_df.missing.missing_variable_summary()
# missing_variable_summary() indica un resumen en cuanto a los datos
# faltantes por variable. Muestra el N° de datos faltantes, el N° de registros 
# y el porcentaje de datos faltantes que representa en el dataframe

Tabulacion del resumen por variable

riskfactors_df.missing.missing_variable_table()
# missing_variable_table() muestra una tabla con el N° de datos faltantes, 
# el N° de variables que contienen esos datos faltantes y el % que representa
# esa cantidad de variables respecto al total

Resumen por caso

riskfactors_df.missing.missing_case_summary()
# missing_case_summary() muestra todos los registros junto al N° de variables con datos 
# faltantes y el % de esas variables que representa respecto al total

Tabulacion del resumen por caso

riskfactors_df.missing.missing_case_table()
# missing_case_table() muestra una tabla con el N° de datos faltantes, la cantidad
# de registros que contienen ese N° de datos faltantes y e % de registros que 
# representan respecto al total de registros

Intervalos de Valores Faltantes

Numero de valores faltantes por cada 50 registros para la variable ‘weight_lbs’

riskfactors_df.missing.missing_variable_span(variable='weight_lbs',span_every=50)
# missing_variable_span() muestra el resumen de datos faltantes, datos completos,
# % de datos faltantes y % de datos completos por bloques de registros

En caso de trabajar con una serie de tiempo nos interesa saber en que punto o tiempo, alguna variable en particular muestra un comportamiento atipico. La siguiente funcion muestra el N° de registros consecutivos que estan completos seguido del N° de registros consecutivos que tienen datos faltantes

riskfactors_df.missing.missing_variable_run(variable='weight_lbs')

Ruddy Ramos

student•

Gracias por el aporte.

Neytan Brandon Benavides

student•

Para los que usan VSC con sus librerías y entornos bien configurados y les sale error con estas líneas de codigo:

<code> 
riskfactors_df.missing.missing_case_summary()
riskfactors_df.missing.missing_case_table()

lo pude solucionar cambiando el codigo en "pandas-missing-extension" en las funciones de:

"missing_variable_table"

<code> 
def missing_variable_table(self) -> pd.DataFrame:
        return (
            self._obj.missing.missing_variable_summary()
            .value_counts("n_missing")
            .reset_index()
            .rename(columns={"n_missing": "n_missing_in_variable", "count": "n_variables"})
            .assign(
                pct_variables=lambda df: df.n_variables / df.n_variables.sum() * 100
            )
            .sort_values("pct_variables", ascending=False)
        )

Y en la funcion "missing_case_table"

<code> 
def missing_case_table(self) -> pd.DataFrame:
        return (
            self._obj.missing.missing_case_summary()
            .value_counts("n_missing")
            .reset_index()
            .rename(columns={"n_missing": "n_missing_in_case", "count": "n_cases"})
            .assign(pct_case=lambda df: df.n_cases / df.n_cases.sum() * 100)
            .sort_values("pct_case", ascending=False)
        )

Durante .value_counts, se genera una columna llamada “count” y no “0”, entonces sustituyendo se soluciona el problema.

Nicolas Cardenas Camelo

student•

no me funciono :(

Pável Hernández Reza

student•

Hola. Como lo escribí en la clase anterior (Y para los que no leyeron mi aporte y hasta ahora están necesitando ayuda), dejé un aporte en la primera clase donde les menciono que subí mi repositorio a GitHub para que lo puedan clonar y tomar el curso en VSCode ya con los problemas de las dependencias y errores de código de la librería MissingMethods. En el Readme podrán leer más acerca del contenido. Espero que les ayude:

Luis Cesar Guadarrama Jimenez

student•

Gracias Pavel, eres un crack!!!

Alfonso Andres Zapata Guzman

student•

missing_variable_summary() #metodo para obtener tabla con el conteo de datos faltantes en todas las columnas

missing_variable_table() #metodo para obtener tabla agrupada por el conteo de datos faltantes en todas las columnas

Alfonso Andres Zapata Guzman

student•

missing_case_summary()

Tiene un detalle, y este es que presenta un cuasi doble indice, ya que case y el indice indican los mismos datos, por lo cual no se pero a mi no me mola, y lo arregle para que la variable 'case' fuera el indice:

def missing_case_summary1(a) -> pd.DataFrame:
        return a.assign(
            case=lambda df: df.index,
            n_missing=lambda df: df.apply(
                axis="columns", func=lambda row: row.isna().sum()
            ),
            pct_missing=lambda df: df["n_missing"] / df.shape[1] * 100,
        )[["case", "n_missing", "pct_missing"]].set_index('case')
    
missing_case_summary1(riskfactors_df)

queda solo sustituir en su archivo con las clase con que extendimos pandas.

Andres Felipe Vargas

student•

El profesor es un crack y sabe mucho, pero que frustrante es que pase cosas sin actualizar y con fallas. Eso no debería pasar. @PlatziTeam, actualicen los CURSOSS!

Cristhian Nieto

student•

Aparentemente, existe un error en el cálculo durante la verificación de valores faltantes por registro. Se estipula que cada registro consta de un total de 34 campos posibles, y nuestra tarea es determinar cuántos de estos campos se encuentran incompletos. Es decir, el porcentaje de valores faltantes por registro se calcula como la relación entre la cantidad de campos faltantes (n_faltantes) y el número total de campos (n_totales), que en este caso es 34. En el ejemplo de clase, se observa que uno de los registros presenta 6 campos incompletos. Esto representaría aproximadamente el 17.64% del total de campos disponibles (34 campos). Sin embargo, el ejercicio obtiene un valor del 16.66%, que no concuerda con el cálculo anterior. Es importante señalar que me podría encontrar en un error, agradecería que proporcionaran una explicación para entender la razón detrás del resultado observado en la clase. Propongo la siguiente corrección para calcular correctamente la relación entre la cantidad de campos faltantes (n_faltantes) y el número total de campos (n_totales):

david jurado

student•

Me costó entender el funcionamiento de itertools.groupby, deberían explicar el funcionamiento detrás de esas funciones de la clase para entenderlo mejor...

Jefferson Berrones

student•

y pensar que para ver los valores faltantes sólo hacía

 base.info()

y ya me mostraba

Francisco Cisneros

student•

Todo muy bien con el curso, realmente me gusta como va y como lo lleva el profesor pero ojalá la siguiente vez pueda usar un fondo oscuro en su deepnote. En lo personal sí me cuesta trabajar con fondo claro, me lastima un poco a la vista. Fuera de ello, por ahora, gran curso. Felicidades

JUAN CAMILO AGUIRRE ROMERO

student•

Una actualizadita a este curso valdría la pena. Usé todas las soluciones que dieron aquí, usé chat GPT y ninguna funcionó!!!

Luis Lozano

student•

Si presente el mismo problema ya que los DataFrame no se cargan con el atributo de "missing"total_complete_values = riskfactors_df.count().sum() print(f"\nNúmero total de valores completos en el DataFrame: {total_complete_values}")

Esta funcion te podria servir

total_complete_values = riskfactors_df.count().sum()
print(f"\nNúmero total de valores completos en el DataFrame: {total_complete_values}")

Yo lo puede resolver

Johnny Campiño

student•

No he podido hacer el curso porque las extensiones a Pandas no me funcionan.

AttributeError: 'DataFrame' object has no attribute 'missing'

Dante Mazzini

student•

Hola Johnny! eso es porque un notebook no soporta al otro en la definición de la clase missing. Lo que podes hacer, es traerte todo el código de los otros dos notebooks y meterlos en el principal y ejecutarlos, de esa manera no deberías de tener problema.

Oscar Piedrahita

student•

Alguien sabe como arreglar este error ?

AttributeError: 'DataFrame' object has no attribute 'n_variables'

Oscar Piedrahita

student•

Me sale cuando ejecuto este código

riskfactors_df.missing.missing_variable_table()

José Rodrigo Arana Hi

student•

El error está en pandas-missing-extension. Busca la función "missing_variable_table". El error es que quiere renombrar la columna "0" pero no hay ninguna con ese nombre al momento de hacer la transformación del dataframe. El código debe ser el siguiente:

def missing_variable_table(self) -> pd.DataFrame:
        return (
            self._obj.missing.missing_variable_summary()
            .value_counts("n_missing")
            .reset_index()
            .rename(columns={"n_missing": "n_missing_in_variable", "count": "n_variables"})
            .assign(
                pct_variables=lambda df: df.n_variables / df.n_variables.sum() * 100
            )
            .sort_values("pct_variables", ascending=False)
        )

Daniela Betancur

student•

al correr riskfactors_df.missing.missing_variable_table() tenia el error:

AttributeError: 'DataFrame' object has no attribute 'n_variables'

seguí las sugerencias de comentarios, pero no solucionaba nada.

lo logré con

def missing_variable_table(self) -> pd.DataFrame: n_rows = len(self._obj) missing_data = self._obj.isnull().sum() missing_percentage = (missing_data / n_rows) * 100 variable_summary = pd.DataFrame({ 'n_missing_in_variable': missing_data, 'pct_missing_in_variable': missing_percentage }) return variable_summary

Daniela Betancur

student•

al correr riskfactors_df.missing.missing_variable_table() tenia el error:

AttributeError: 'DataFrame' object has no attribute 'n_variables'

seguí las sugerencias de comentarios, pero no solucionaba nada.

lo logré con

def missing_variable_table(self) -> pd.DataFrame: n_rows = len(self._obj) missing_data = self._obj.isnull().sum() missing_percentage = (missing_data / n_rows) * 100 variable_summary = pd.DataFrame({ 'n_missing_in_variable': missing_data, 'pct_missing_in_variable': missing_percentage }) return variable_summary

Renato Sebastián Ramos Soto

student•

me salvaste, muchas gracias.m Llevaba dos dias intentando arreglarlo!!

Roger Christian Cansaya Olazabal

student•

conteo de variables faltantes en todas las columnas

riskfactors_df.missing.missing_variable_summary()

conteo de variables faltantes en las columnas que tienen valores faltantes

riskfactors_df.missing.missing_variable_table()

Andres Sanchez

student•

6. Tabulación de valores faltantes

Tabular es expresar valores, magnitudes u otros datos por medio de tablas

Empezar con resúmenes simples, como números.

¿Cuántos valores deberían existir en el conjunto de datos?
¿Cuántos valores faltantes existen en el conjunto de datos?
¿Cuántos valores completos existen en el conjunto de datos?

Construir resúmenes por variables y observaciones

¿Cuántos valores faltantes existen por cada variable?
¿Cuántos valores faltantes existen por cada observación?
¿Cuántas variables tiene X número de valores faltantes?
¿Cuántas observaciones tiene X número de valores faltantes?

Salir de la caja y hacer más preguntas

Preguntas relacionadas al negocio
¿Cuántos valores faltantes tengo en una variable cada X pasos?
¿Cuál es mi racha de valores completos y faltantes en una variable?

Pablo Alejandro Figueroa

student•

    def missing_variable_table(self) -> pd.DataFrame:
        return (
            self._obj.missing.missing_variable_summary()
            .value_counts("n_missing")
            .reset_index()
            .rename(columns={"n_missing": "n_missing_in_variable", 0: "n_variables"})
            .assign(
                pct_variables=lambda df: df.n_variables / df.n_variables.sum() * 100
            )
            .sort_values("pct_variables", ascending=False)
        )

    def missing_variable_table(self) -> pd.DataFrame:
        return (
            self._obj.missing.missing_variable_summary()
            .value_counts("n_missing")
            .reset_index(name="n_variables")
            .rename(columns={"n_missing": "n_missing_in_variable"})
            .assign(
                pct_variables=lambda df: df.n_variables / df.n_variables.sum() * 100
            )
            .sort_values("pct_variables", ascending=False)
        ) 

riskfactors_df.missing.missing_variable_summary()
# missing_variable_summary() indica un resumen en cuanto a los datos
# faltantes por variable. Muestra el N° de datos faltantes, el N° de registros 
# y el porcentaje de datos faltantes que representa en el dataframe

riskfactors_df.missing.missing_variable_table()
# missing_variable_table() muestra una tabla con el N° de datos faltantes, 
# el N° de variables que contienen esos datos faltantes y el % que representa
# esa cantidad de variables respecto al total

riskfactors_df.missing.missing_case_summary()
# missing_case_summary() muestra todos los registros junto al N° de variables con datos 
# faltantes y el % de esas variables que representa respecto al total 

riskfactors_df.missing.missing_case_table()
# missing_case_table() muestra una tabla con el N° de datos faltantes, la cantidad
# de registros que contienen ese N° de datos faltantes y e % de registros que 
# representan respecto al total de registros

riskfactors_df.missing.missing_variable_span(variable='weight_lbs',span_every=50)
# missing_variable_span() muestra el resumen de datos faltantes, datos completos,
# % de datos faltantes y % de datos completos por bloques de registros

<code> 
def missing_variable_table(self) -> pd.DataFrame:
        return (
            self._obj.missing.missing_variable_summary()
            .value_counts("n_missing")
            .reset_index()
            .rename(columns={"n_missing": "n_missing_in_variable", "count": "n_variables"})
            .assign(
                pct_variables=lambda df: df.n_variables / df.n_variables.sum() * 100
            )
            .sort_values("pct_variables", ascending=False)
        )

<code> 
def missing_case_table(self) -> pd.DataFrame:
        return (
            self._obj.missing.missing_case_summary()
            .value_counts("n_missing")
            .reset_index()
            .rename(columns={"n_missing": "n_missing_in_case", "count": "n_cases"})
            .assign(pct_case=lambda df: df.n_cases / df.n_cases.sum() * 100)
            .sort_values("pct_case", ascending=False)
        )

missing_variable_summary() #metodo para obtener tabla con el conteo de datos faltantes en todas las columnas

missing_variable_table() #metodo para obtener tabla agrupada por el conteo de datos faltantes en todas las columnas

def missing_case_summary1(a) -> pd.DataFrame:
        return a.assign(
            case=lambda df: df.index,
            n_missing=lambda df: df.apply(
                axis="columns", func=lambda row: row.isna().sum()
            ),
            pct_missing=lambda df: df["n_missing"] / df.shape[1] * 100,
        )[["case", "n_missing", "pct_missing"]].set_index('case')
    
missing_case_summary1(riskfactors_df)

def missing_variable_table(self) -> pd.DataFrame:
        return (
            self._obj.missing.missing_variable_summary()
            .value_counts("n_missing")
            .reset_index()
            .rename(columns={"n_missing": "n_missing_in_variable", "count": "n_variables"})
            .assign(
                pct_variables=lambda df: df.n_variables / df.n_variables.sum() * 100
            )
            .sort_values("pct_variables", ascending=False)
        )

Tabulación de valores faltantes

Introducción a los valores faltantes

¿Por qué explorar y lidiar con valores faltantes?

Operaciones con valores faltantes

Conociendo datasets para manejo de datos faltantes

Ejecución de Notebooks en Deepnote con %run

Extendiendo la API de Pandas