Exponer filas faltantes implícitas en explícitas

Curso de Manejo de Datos Faltantes: Detección y Exploración

Contenido del curso

Introducción a los valores faltantes

Manipulación inicial de valores faltantes

Búsqueda de relaciones de valores faltantes

Tratamiento de valores faltantes

Cierre de curso

21
Continúa aprendiendo sobre el manejo de valores faltantes
03:21 min

Tomar examen

Exponer filas faltantes implícitas en explícitas

Mario Alexander Vargas Celis

Estudiante

**Exponer filas faltantes implícitas en explícitas** se refiere a identificar y hacer explícitas las filas que, aunque no tengan valores NaN visibles, están incompletas o contienen información que representa datos faltantes de forma implícita. Este tipo de situación ocurre cuando ciertos valores tienen un significado especial que indica una ausencia de datos, o cuando una combinación de valores sugiere que faltan datos.

### Proceso para exponer filas faltantes implícitas en explícitas:

1. **Identificación de filas faltantes implícitas:**

Las filas que contienen valores implícitos faltantes suelen tener valores como 0, -1, o cadenas vacías (''). Estas filas pueden necesitar ser convertidas en explícitas.

2. **Uso de mask() o apply() para detectar condiciones implícitas:**

Si sabes qué condiciones representan datos faltantes, puedes usar estas funciones para transformar los datos y hacer los valores explícitos (NaN).

3. **Crear nuevas filas o marcar datos incompletos con NaN:**

Utilizando mask(), apply(), o replace() para convertir esas filas implícitas en explícitas, reemplazando valores o filas enteras con NaN.

### Ejemplo práctico:

Supongamos que tienes un DataFrame donde los valores faltantes están representados de forma implícita, como valores 0 o -1 en la columna de precios o productos vacíos.


import pandas as pd

import numpy as np



\# Ejemplo de DataFrame con valores faltantes implícitos

data = {'Producto': \['A', 'B', 'C', 'D', 'E'],

&#x20;       'Cantidad': \[10, 0, 5, -1, 8],

&#x20;       'Precio': \[100, 0, -1, 150, 0]}



df = pd.DataFrame(data)

print("DataFrame original:")

print(df)



\# Definir condiciones implícitas para filas faltantes

\# Suponemos que 'Cantidad' o 'Precio' con 0 o -1 representan valores faltantes

df\_masked = df.mask((df\['Cantidad'] <= 0) | (df\['Precio'] <= 0))



print("\nDataFrame con filas faltantes explícitas:")

print(df\_masked)

### Salida esperada:


DataFrame original:

&#x20; Producto  Cantidad  Precio

0        A        10     100

1        B         0       0

2        C         5      -1

3        D        -1     150

4        E         8       0



DataFrame con filas faltantes explícitas:

&#x20; Producto  Cantidad  Precio

0        A      10.0   100.0

1        B       NaN     NaN

2        C       5.0     NaN

3        D       NaN   150.0

4        E       8.0     NaN

### Explicación:

1. **Identificación de valores implícitos:** Hemos definido que los valores 0 o -1 en las columnas Cantidad y Precio son faltantes de forma implícita.

2. **Uso de mask():** La función mask() aplica la condición y reemplaza los valores que cumplen con NaN.

3. **Exposición explícita:** Ahora, los valores que estaban implícitamente faltantes (como 0 o -1) se muestran como NaN, haciendo evidente qué datos están faltando.

### Resumen de técnicas para identificar y exponer filas faltantes implícitas:

- **mask()**: Para identificar y reemplazar valores que cumplen con una condición específica.

- **apply()**: Para aplicar una función personalizada fila por fila para determinar si una fila es faltante de forma implícita.

- **replace()**: Para reemplazar valores específicos en el DataFrame.

- **isnull() y notnull()**: Para comprobar si los datos contienen valores explícitamente faltantes.

Este proceso facilita el análisis posterior y asegura que las técnicas para manejar datos faltantes se apliquen correctamente.

Exponer filas faltantes implícitas en explícitas

Introducción a los valores faltantes

¿Por qué explorar y lidiar con valores faltantes?

Operaciones con valores faltantes

Conociendo datasets para manejo de datos faltantes

Ejecución de Notebooks en Deepnote con %run

Extendiendo la API de Pandas

Tabulación de valores faltantes

Visualización de valores faltantes

Manipulación inicial de valores faltantes

Codificación de valores faltantes

Conversión de valores faltantes implícitos en explícitos