Manejo de Datos Faltantes en Pandas: Identificación y Tratamiento

Curso de Python para Ciencia de Datos

Contenido del curso

NumPy

Pandas

Matplotlib

Proyecto de Análisis de Datos de Retail

Tomar examen

Manejo de Datos Faltantes en Pandas: Identificación y Tratamiento

Resumen

¿Cómo lidiar con valores faltantes en conjuntos de datos?

¿Alguna vez te has topado con un conjunto de datos lleno de valores ausentes? Estos pueden ser un verdadero rompecabezas originado por errores en la recolección de datos, problemas de almacenamiento, o simplemente por la falta de información al momento del registro. Ignorar estos vacíos puede llevar a conclusiones erróneas y malas decisiones empresariales. Aprender a identificar y gestionar los datos faltantes es fundamental para asegurar que nuestros análisis sean precisos y, sobre todo, significativos.

¿Cómo identificar datos faltantes en Pandas?

Pandas, una poderosa librería de Python para el análisis de datos, ofrece varias técnicas efectivas para detectar valores faltantes. Podemos consultar si un dato está disponible, si es nulo, y más. Aquí te mostramos cómo hacerlo con código:

import pandas as pd

# Ejemplo de dataset de retail
retail_data = pd.DataFrame({
    'Producto': ['A', 'B', 'C', 'D', None],
    'Cantidad': [10, None, 30, 40, 50],
    'Precio Unitario': [1.1, 2.2, 3.3, 4.4, 5.5]
})

# Método para identificar valores faltantes
datos_faltantes = retail_data.isnull()
print(datos_faltantes.head())

Al ejecutar este código, "True" indicará que el dato está faltante, y "False" indicará su presencia.

¿Qué estrategias existen para manejar datos faltantes?

Existen principalmente dos estrategias para tratar con los datos faltantes:

Eliminación de filas o columnas: Puedes optar por eliminar por completo aquellas filas o columnas que contienen valores ausentes. Sin embargo, ten cuidado, ya que podrías perder información valiosa.

# Eliminar filas con valores faltantes
datos_sin_filas_faltantes = retail_data.dropna()
print("Datos sin filas con valores faltantes:\n", datos_sin_filas_faltantes)

# Eliminar columnas con valores faltantes
datos_sin_columnas_faltantes = retail_data.dropna(axis=1)
print("Datos sin columnas con valores faltantes:\n", datos_sin_columnas_faltantes)

Imputación de valores: Otra opción es llenar los espacios con valores específicos, como un número constante, la media de la columna, o cualquier otro valor que consideres apropiado.

Llenar con un número constante, como el 0:

# Llenar valores faltantes con 0
retail_data_filled = retail_data.fillna(0)
print(retail_data_filled)

Llenar con la media de la columna:

# Calcular la media del Precio Unitario
media_precio_unitario = retail_data['Precio Unitario'].mean()

# Llenar valores faltantes con la media
retail_data['Precio Unitario'].fillna(media_precio_unitario, inplace=True)
print(retail_data)

¿Cuándo es conveniente eliminar o imputar datos?

La decisión de eliminar o imputar los valores faltantes depende del contexto del análisis y de los fines específicos del proyecto. Si una columna tiene apenas uno o dos datos faltantes, eliminar toda la columna no sería sabio. Del mismo modo, si una fila es crucial para el análisis, completar su información podría ser mejor que descartarla.

Reflexiona sobre estas estrategias y pregúntate: ¿Cuándo resulta beneficioso eliminar filas o columnas, o quizá llenar los valores faltantes? Tu respuesta es clave para lograr un análisis más riguroso y acertado.

En conclusión, el manejo adecuado de los valores faltantes es crucial al momento de analizar un conjunto de datos. Al comprender y dominar diversas estrategias dentro de Pandas, estarás más preparado para garantizar que los resultados de tu análisis de datos sean confiables y exactos. ¡Continúa aprendiendo y afinando tus habilidades en el fascinante mundo del análisis de datos!

Mario Alexander Vargas Celis

Estudiante

El manejo de **datos faltantes** es una de las tareas más comunes cuando se trabaja con conjuntos de datos en **Pandas**. Los valores faltantes suelen estar representados como NaN (Not a Number) en los DataFrames de Pandas, y hay varias formas de **identificar, eliminar o imputar** estos valores según las necesidades del análisis.

Aquí te muestro las principales técnicas y funciones para gestionar los datos faltantes:

---

### 1. **Identificación de Datos Faltantes**

Para identificar valores faltantes en un DataFrame o Serie de Pandas, puedes utilizar los siguientes métodos:

#### **isnull() y notnull()**

- **isnull()**: Devuelve True para cada celda que contenga un valor nulo (NaN).

- **notnull()**: Devuelve True para cada celda que **no** sea nula.


import pandas as pd

import numpy as np



\# Crear un DataFrame con valores faltantes

data = {'Nombre': \['Ana', 'Luis', np.nan],

&#x20;       'Edad': \[23, np.nan, 36],

&#x20;       'Ciudad': \['Madrid', 'Barcelona', 'Valencia']}



df = pd.DataFrame(data)



\# Identificar valores faltantes

print(df.isnull())



\# Identificar valores que no son faltantes

print(df.notnull())

---

### 2. **Eliminación de Datos Faltantes**

Si decides eliminar las filas o columnas con datos faltantes, Pandas ofrece varias formas de hacerlo.

#### **dropna()**

Este método elimina filas o columnas que contienen valores nulos.


\# Eliminar todas las filas que tienen al menos un valor faltante

df\_sin\_na\_filas = df.dropna()



\# Eliminar columnas que tienen al menos un valor faltante

df\_sin\_na\_columnas = df.dropna(axis=1)



\# Eliminar solo las filas en las que todos los valores son nulos

df\_sin\_na\_filas\_todos = df.dropna(how='all')



\# Eliminar filas solo si tienen más de un valor nulo

df\_sin\_na\_thresh = df.dropna(thresh=2)

- axis=0: Elimina las filas (esto es predeterminado).

- axis=1: Elimina las columnas.

- how='any': Elimina la fila o columna si **cualquier** valor es nulo (por defecto).

- how='all': Elimina la fila o columna si **todos** los valores son nulos.

- thresh=N: Requiere que la fila o columna tenga al menos N valores no nulos para no ser eliminada.

---

### 3. **Rellenar Datos Faltantes**

En lugar de eliminar los datos, a veces es mejor **rellenar** los valores faltantes con una aproximación. Esto es conocido como **imputación de datos**.

#### **fillna()**

Rellena los valores nulos con un valor específico.


\# Rellenar los valores faltantes con un valor constante

df\_rellenado = df.fillna(0)



\# Rellenar los valores faltantes con el valor anterior (forward fill)

df\_forward\_fill = df.fillna(method='ffill')



\# Rellenar los valores faltantes con el valor siguiente (backward fill)

df\_backward\_fill = df.fillna(method='bfill')



\# Rellenar los valores faltantes con la media de una columna

df\['Edad'] = df\['Edad'].fillna(df\['Edad'].mean())

- method='ffill': Propaga el último valor conocido hacia adelante.

- method='bfill': Propaga el siguiente valor conocido hacia atrás.

- value: Puedes asignar cualquier valor constante, como 0 o una cadena.

---

### 4. **Reemplazar Datos Faltantes con Métodos Estadísticos**

A veces es más efectivo reemplazar los valores faltantes con la **media, mediana o moda** de una columna, especialmente cuando trabajas con variables numéricas.

#### **Imputación con Media, Mediana o Moda**


\# Rellenar los valores faltantes con la media de una columna

df\['Edad'] = df\['Edad'].fillna(df\['Edad'].mean())



\# Rellenar los valores faltantes con la mediana de una columna

df\['Edad'] = df\['Edad'].fillna(df\['Edad'].median())



\# Rellenar los valores faltantes con la moda de una columna

df\['Edad'] = df\['Edad'].fillna(df\['Edad'].mode()\[0])

- **Media (mean)**: Útil cuando los datos son distribuidos normalmente.

- **Mediana (median)**: Mejor para datos con distribuciones asimétricas o con outliers.

- **Moda (mode)**: Se usa más en datos categóricos.

---

### 5. **Interpolar Datos Faltantes**

En casos donde los datos tienen una relación temporal o secuencial, puedes usar la interpolación para estimar los valores faltantes.

#### **interpolate()**

Calcula valores intermedios para los valores nulos.


\# Interpolación de valores faltantes linealmente

df\_interpolado = df\['Edad'].interpolate()

---

### 6. **Detectar Columnas con Muchos Datos Faltantes**

En ciertos casos, puede que desees eliminar o investigar columnas que tengan muchos valores faltantes. Puedes detectar fácilmente estas columnas con:


\# Contar valores faltantes por columna

missing\_data = df.isnull().sum()



\# Mostrar columnas con más de un valor faltante

print(missing\_data\[missing\_data > 1])

---

### 7. **Modificar el DataFrame con Datos Faltantes**

Algunas veces es útil modificar el DataFrame original para cambiar cómo Pandas maneja los datos faltantes.

#### **replace()**

Te permite reemplazar valores específicos (incluidos los NaN).


\# Reemplazar valores NaN con un valor específico

df\_reemplazado = df.replace(np.nan, 'Desconocido')

---

### Resumen

- **Identificación de datos faltantes**: Con isnull() y notnull().

- **Eliminación de datos faltantes**: Usando dropna() para eliminar filas o columnas.

- **Rellenar datos faltantes**: Con fillna(), usando valores constantes, estadísticos o propagación de valores.

- **Interpolación**: Rellenar secuencialmente usando interpolate().

- **Reemplazo**: Usando replace() para sustituir los valores NaN con otros valores.

El manejo adecuado de los datos faltantes asegura que los análisis sean precisos y las conclusiones sean más confiables.

Edith Andrea

Estudiante

Muchas gracias, por esta información tan completa

Fidel Ortega Guzman

Estudiante

muchas gracias

Antonio Demarco Bonino

Andres Buelvas Diago

Javier Ladino

Ana Belén Pérez

Wagner Fernández

Diego Benito

Jesús Alberto Romero Hernández

Félix Alberto Uc Hernández

Paola Alapizco

Jaime Lopez Hidalgo

Andrés Zambrano

Elías Vilcachagua Roque

Felipe Martínez

Elias Echeverri

Humberto Cruz

Facundo Echenique

Cristian Alexander Vallejos De la rosa

Saul Antonio Cerén Gálvez

LUIS FELIPE MORA LESMES

MARIA CAMILA OCHOA CORREA

Manejo de Datos Faltantes en Pandas: Identificación y Tratamiento

NumPy

Análisis de Datos con NumPy y Pandas en Python

Manipulación de Dimensiones en Arrays NumPy para Ciencia de Datos

Atributos, dtypes y estadística en arrays NumPy

Álgebra Lineal Aplicada con NumPy: Operaciones y Ejemplos Prácticos

Indexación y Slicing en NumPy para Análisis de Datos

Broadcasting y operaciones entre arrays en NumPy

Identificación y conteo de respuestas únicas con NumPy

Manipulación de Matrices y Arrays en NumPy: Transponer, Invertir y Aplanar

Análisis de Ventas Mensuales con NumPy: Transformaciones y Insights

Álgebra lineal con NumPy y linalg

Conexión de NumPy con Pandas y Matplotlib para Análisis de Datos

Pandas

Análisis de Datos con Pandas: Carga y Exploración de DataFrames

Creación de DataFrames con Pandas en Python

Análisis de Datos con Pandas: Series y DataFrames en RetailData

iloc vs loc en Pandas para filtrar datos