Eliminación de valores faltantes: pairwise y listwise

Curso de Manejo de Datos Faltantes: Detección y Exploración

Contenido del curso

Introducción a los valores faltantes

Manipulación inicial de valores faltantes

Búsqueda de relaciones de valores faltantes

Tratamiento de valores faltantes

Cierre de curso

21
Continúa aprendiendo sobre el manejo de valores faltantes
03:21 min

Tomar examen

Eliminación de valores faltantes: pairwise y listwise

Diego Cesar Lerma Torres

Estudiante

Si se fijaron, en dropna cuando puso el parámetro "all" quedaron más elementos que con el parámetro "any"

Esto se debe a que "all" solo elimina si todos los valores de las filas o columnas seleccionadas son NaN. Y "any" elimina todas las filas o columnas seleccionadas si cualquiera de los valores son NaN.

Es decir, any elimina la fila si peso O talla son NaN all elimina la fila SOLO SI peso Y talla son NaN (por eso solo elimina un valor) Les dejo mi apunte sobre este tema

El parámetro how de la función dropna en Pandas es fundamental para determinar cómo se deben tratar las filas o columnas que contienen valores NaN (Not a Number) cuando se limpian los datos. Este parámetro define el criterio bajo el cual una fila o columna será eliminada de un DataFrame debido a la presencia de valores nulos.

Evaluación de Datos: Antes de decidir entre 'any' y 'all', es importante evaluar la naturaleza de los datos faltantes y el impacto de su eliminación en el análisis posterior.
Complemento con fillna: Para minimizar la pérdida de datos, considere utilizar el método fillna para imputar valores faltantes antes de optar por eliminar filas o columnas con dropna.
Revisión Manual: En algunos casos, especialmente con datasets pequeños, una revisión manual de los datos puede ofrecer una mejor perspectiva sobre cómo manejar los valores NaN.

Uso

how : {'any', 'all'}, default 'any'

Descripción de los argumentos:

'any': Si se selecciona este valor, la función dropna eliminará cualquier fila o columna que contenga al menos un valor NaN. Es el valor por defecto porque es una opción conservadora que permite eliminar los datos incompletos sin descartar en exceso filas o columnas que podrían tener la mayoría de sus valores válidos.
'all': Al elegir 'all', dropna solo eliminará las filas o columnas donde todos los valores son NaN. Este enfoque es más permisivo y útil cuando solo se desea eliminar filas o columnas que estén completamente vacías, lo cual puede ser indicativo de datos faltantes en su totalidad o de registros que no fueron ingresados correctamente.

Buenas prácticas
Evaluación de Datos: Antes de decidir entre 'any' y 'all', es importante evaluar la naturaleza de los datos faltantes y el impacto de su eliminación en el análisis posterior.
Complemento con fillna: Para minimizar la pérdida de datos, considere utilizar el método fillna para imputar valores faltantes antes de optar por eliminar filas o columnas con dropna.
Revisión Manual: En algunos casos, especialmente con datasets pequeños, una revisión manual de los datos puede ofrecer una mejor perspectiva sobre cómo manejar los valores NaN.

Eliminación de valores faltantes: pairwise y listwise

Introducción a los valores faltantes

¿Por qué explorar y lidiar con valores faltantes?

Operaciones con valores faltantes

Conociendo datasets para manejo de datos faltantes

Ejecución de Notebooks en Deepnote con %run

Extendiendo la API de Pandas

Tabulación de valores faltantes

Visualización de valores faltantes

Manipulación inicial de valores faltantes

Codificación de valores faltantes

Conversión de valores faltantes implícitos en explícitos

Exponer filas faltantes implícitas en explícitas

Tipos de valores faltantes

MCAR, MAR, MNAR en Python

Búsqueda de relaciones de valores faltantes

Matriz de sombras: shadow matrix

Visualización de valores faltantes en una variable

Visualización de valores faltantes en dos variables

Scatterplot con valores faltantes

Correlación de nulidad

Tratamiento de valores faltantes

Eliminación de valores faltantes: pairwise y listwise

Imputación básica de datos

Bonus: visualización múltiple de imputaciones

Cierre de curso

Continúa aprendiendo sobre el manejo de valores faltantes