Cursos Empresas Blog Live Conf Precios

El problema de trabajar con valores faltantes

Clase 1 de 17 • Curso de Manejo de Datos Faltantes: Imputación

Contenido del curso

Problemática de valores faltantes

Imputación basada en el donante

Imputación basada en modelos

Conclusión

El problema de trabajar con valores faltantes

Obtén respuestas inmediatasProfundiza lo que acabas de ver

Comentarios

Carlos Mazzaroli

student•

Estoy tratando de aplicar lo aprendido en el curso de pro config en los proyectos/cursos que vamos haciendo, el environment.yml quedaria asi para este curso

# conda env create --file environment.yml
# mamba env create --file environment.yml
name: handling_missing_data
channels:
  - anaconda
  - conda-forge
  - defaults
dependencies:
  - black
  - invoke
  - jupyter
  - jupyterlab
  - keras
  - lightgbm
  - matplotlib
  - missingno
  - nbdime
  - numpy
  - pandas
  - pandas-flavor
  - pandas-profiling
  - plotly
  - pyjanitor
  - pylint
  - pyprojroot
  - pyspark
  - scikit-learn
  - seaborn
  - statsmodels
  - tensorflow
  - pip
  - python=3.9
  - python-dotenv
  - session-info
  - pyreadr
  - upsetplot
  - statsmodels==0.13.2
  - fancyimpute
  - scipy
  - pip:
    - nhanes
    - nhanes==0.5.1
    - ozon3

O pueden hacer un pip install -r requirements tmb :p

Alberto Bernaola

student•

me sale ERROR: Cannot uninstall 'PyYAML'. It is a distutils installed project and thus we cannot accurately determine which files belong to it which would lead to only a partial uninstall.

Alberto Bernaola

student•

que curso recomiendas.

Carlos Enrique Cervantes Aguilar

student•

Al abrir la notebook en deepnote me daba un error diciendo que no se podía inicializar correctamente. Lo pude solucionar cambiando en el archivo requirements.txt la librería sklearn por scikit-learn.

sklearn    <------- Eliminar
scikit-learn   <----- Agregar

Pablo Alejandro Figueroa

student•

muchas gracias..!!

Yonatan Efraín Jara Boza

student•

He estado haciendo los modelos logísticos para 'death' y también me ha fallado con 'chapter', al principio pensaba que podría ser porque tiene valores faltantes, cosa que no es cierto pues con 'creatinine' el modelo sí se crea.

Leyendo por aquí buscando el error en internet (Perfect separation error) y revisando desde la tabla la relación entre 'chapter' y 'death' se observa que:

Cada vez que 'death' es 1 hay una 'chapter' clasificado; y que cuando 'death' es 0, 'chapter' tiene registrado un valor faltante. Esto de alguna manera que desconozco -posiblemente induce a error en la funcion sigmoide o no encuentra un coeficiente- afecta a que el módelo se cree o similar. Si hay algun experto, agredeceré su aporte.

PD: Usando el nombre 'lambda' (la variable) también manda a error del módelo pero si se cambia el nombre desde el comienzo funcionará.

Carlos Enrique Cervantes Aguilar

student•

Con el siguiente código en el reto:

(
    smf.ols(
        formula="death ~ C(chapter)",
        data = survival_df
    )
    .fit()
    .summary()
    .tables[0]
)

obtengo en R-squared un valor -inf. ¿Ese es el efecto que tienen los datos faltantes? Si voy agregando más variables, el valor no cambia, hasta que elimino chapter.

Julián Cárdenas

student•

Gracias!

Roger Christian Cansaya Olazabal

student•

Para complementar el manejo de Datos, excelente.

Manuel Juarez

student•

Hola, alguien sabe si se puede correr estos notebooks en otra plataforma? Deepnote se me hace muy lento en mi computadora y he intentado correrlo en vs code y Jupyter pero sin éxito. Tengo problemas principalmente tratando de incorporar pandas-misssing-extension en mi notebook

Jesús David Barraza Guzmán

student•

Google Colab me ha servido mucho

María Eugenia Pereira Chévez

student•

Yo lo estoy corriendo en Jupyter

José Fernando Aguilar Arredondo

student•

Me sale ese error, ¿Alguien sabe como solucionarlo? ¿Y cómo lo solucionaron? Me podrían ayudar por favor. Gracias

Manuel Juarez

student•

Hay un instructivo en el curso anterior, es una de las primeras clases, por si quieres verlo. Básicamente, en deepnote tienes que descargar pandas-missing-extension.ipynb de la carpeta notebooks a tu computadora, y después volver a subir ese archivo a la carpeta files en deepnote. Luego de hacer eso vas a poder ejecutar esa linea sin problemas

Joaquin Romero Flores

student•

Hey, José.! debris exportar el archivo que esta en el notebook y luego importarlo a files como archivo .ipynb Hecho esto, deberas solo incluir entre comillas de la siguiente manera: ‘%run’ ‘pandas-missing-entension.ipynb' Con esto, resolveras el inconveniente o aquellos que vengan en camino. Saludos!

jhon velasque

student•

tengo porblema con la libreria janitor no lo reconoce el entorno virtual que lo cree pero en conda si lo reconoce saben a que se debe o como solucionar el porblema de abajo

Sofía Salas

student•

Hola, pudiste resolverlo? Yo tambien tengo el mismo problema

Jeinfferson Bernal G

student•

Me sucedia algo similar con la libreria nhanes. Lo solucione instalandolo en el entorno de conda con pip install nhanes. Para tu caso seria pip install pyjanitor. Intentalo!

Daniel Esponda

student•

Esta combinación de variables me permitió obtener una correlación de 0.51.

( smf.ols( formula="death ~ futime + age", data = survival_df ) .fit() .summary() .tables[0] )

sebastián Giraldo Vargas

student•

Cuando creo un modelo logistico con la variable chapter siempre me sale este error, busqué en stack overflow pero la verdad... no entendí el porqué ocurría xD. alguien me explica el error?

Mauricio Escobar

student•

como alternativa a janitor, podemos cargar el dataset de la siguiente forma:

df_airquality =  sm.datasets.get_rdataset("airquality").data

# renombrar cols -> snake_case
df_airquality.columns = (df_airquality.columns.str.lower()
                          .str.replace(' ', '_')
                          .str.replace('.', '_'))

df_airquality['year'] = 1973                                   # nueva columna -> year

df_airquality['date'] = pd.to_datetime(df_airquality[['year', # columna 'date' tipo datetime 
                                                        'month',
                                                        'day']])

df_airquality = df_airquality.sort_values('date')             # ordenar por fecha
df_airquality = df_airquality.set_index('date')
```Nada en contra de janitor *versión 0.27*, sin embargo no he encontrado la forma de resolver los warnings (sin apagarlos) Si alguien ha podido resolverlo porfa avísenme. &#x20;

Mario Alexander Vargas Celis

student•

El manejo de datos faltantes a través de la imputación es un proceso crucial en el análisis de datos para mejorar la calidad y la utilidad del conjunto de datos. La imputación implica estimar y reemplazar los valores faltantes con valores calculados o predichos para que el análisis y los modelos sean más precisos. Aquí tienes un resumen de técnicas comunes de imputación:

### 1. **Imputación con la Media, Mediana o Moda**

- **Media**: Sustituye los valores faltantes por el promedio de los valores presentes en esa columna. Útil para datos numéricos que no tienen muchos valores atípicos.

- **Mediana**: Sustituye los valores faltantes por el valor central cuando los datos están ordenados. Es menos sensible a los valores atípicos que la media.

- **Moda**: Sustituye los valores faltantes por el valor más frecuente en la columna. Utilizado para datos categóricos.

```python

import pandas as pd

# Imputación con la media

df['column_name'].fillna(df['column_name'].mean(), inplace=True)

# Imputación con la mediana

df['column_name'].fillna(df['column_name'].median(), inplace=True)

# Imputación con la moda

df['column_name'].fillna(df['column_name'].mode()[0], inplace=True)

```

### 2. **Imputación Basada en Modelos**

- **Regresión**: Usa una variable dependiente para predecir el valor faltante basado en otras variables independientes.

- **k-Nearest Neighbors (k-NN)**: Imputa valores basándose en la similitud entre los datos. Busca los k vecinos más cercanos y utiliza sus valores para la imputación.

```python

from sklearn.impute import KNNImputer

# Imputación con k-NN

imputer = KNNImputer(n_neighbors=5)

df_imputed = imputer.fit_transform(df)

```

### 3. **Imputación por Interpolación**

- **Lineal**: Interpola los valores faltantes usando una función lineal entre los valores existentes.

- **Polinómica**: Utiliza polinomios para la interpolación.

```python

# Imputación lineal

df['column_name'] = df['column_name'].interpolate(method='linear')

```

### 4. **Imputación por Valores Predeterminados**

- Sustituye los valores faltantes con un valor específico que tenga sentido en el contexto del conjunto de datos (por ejemplo, 0, 'desconocido').

```python

# Imputación con un valor específico

df['column_name'].fillna('Unknown', inplace=True)

```

### 5. **Imputación con Datos de Vecinos**

- Utiliza datos similares de otras observaciones para imputar los valores faltantes.

```python

from sklearn.impute import SimpleImputer

# Imputación con la mediana por defecto

imputer = SimpleImputer(strategy='median')

df_imputed = imputer.fit_transform(df)

```

### 6. **Múltiples Imputaciones**

- **Multiple Imputation by Chained Equations (MICE)**: Imputa los valores faltantes múltiples veces y combina los resultados para tener en cuenta la incertidumbre en la imputación.

```python

from miceforest import MultipleImputedData

mice_data = MultipleImputedData(df)

df_imputed = mice_data.complete_data()

```

Cada técnica tiene sus ventajas y desventajas, y la elección del método adecuado dependerá de la naturaleza de los datos y del contexto del análisis. La imputación adecuada puede mejorar la precisión del análisis y la calidad de los modelos predictivos.

Alfonso Andres Zapata Guzman

student•

Para Ubuntu con WSL2:

# Tener varias versiones de python en WSL2 (https://levelup.gitconnected.com/install-multiple-python-versions-in-wsl2-ba81f21109d6)
## Con esta linea  descargo la version
pyenv install 3.9.15
## Con esta linea coloca la version local en una carpeta
pyenv local 3.9.15

# crear una carpeta con
mkdir
# entrar a dicha carpeta con 
cd
# Crear el entorno virtual alli con 
python3 -m venv env
# Activar el entorno virtual
source env/bin/activate
# instalar archivo requirements.txt presente en el repositorio de github de esta clase
pip3 install -r requirements.txt
# abrir con windows code insiders (deberia instalar automaticamente)
code-insiders .

Alfonso Andres Zapata Guzman

student•

Tuve problemitas con el entorno virtual por lo cual procedi a usar:

pyenv-virtualenv

para gestionar los entornos virtuales con pyenv. Guia que segui: https://www.liquidweb.com/kb/how-to-install-pyenv-virtualenv-on-ubuntu-18-04/

# Tener varias versiones de python en WSL2 (https://levelup.gitconnected.com/install-multiple-python-versions-in-wsl2-ba81f21109d6)
## Con esta linea  descargo la version de python que requiera usar:
pyenv install 3.9.15
## clono el repositorio pyenv-virtualenv
git clone https://github.com/pyenv/pyenv-virtualenv.git $(pyenv root)/plugins/pyenv-virtualenv
##Configuro
echo 'eval "$(pyenv virtualenv-init -)"' >> ~/.bashrc
## Actualizo
exec $SHELL

# crear una carpeta con
mkdir
# entrar a dicha carpeta con 
cd
# Crear el entorno virtual alli con 
pyenv virtualenv 3.9.15 venv
# Activar el entorno virtual
Se activa directamente al entrar con cd a dicha carpeta y se desactiva al salir de ella con cd ..
# instalar archivo requirements.txt presente en el repositorio de github de esta clase
pip3 install -r requirements.txt
# abrir con windows code insiders (deberia instalar automaticamente)
code-insiders .

Mario Chavez

student•

airquality_df = (
    sm.datasets.get_rdataset('airquality')
    .data
    .clean_names(
        case_type='snake'
    )
    .add_column('year', 1973)
    .assign(
        date=lambda df: pd.to_datetime(df[['year', 'month', 'day']])
    )
    .sort_values(by='date')
    .set_index('date')
)

airquality_df

sebastián Giraldo Vargas

student•

Al crear un modelo de regresión logística y entrenarlo con valores faltantes, simplemente me sale este error:

Jeinfferson Bernal G

student•

Muy buena aclaracion sobre la forma en que cometemos el error de no considerar los errores faltantes a pesar de que el algoritmo corra sin arrojar un warning

Jeinfferson Bernal G

student•

Aunque se quisiera comparar ambos modelos mediante su valor de R cuadrado para saber cual de los dos se ajusto mejor, es un error hacerlo debido a que los modelos estan basados sobre diferentes numeros de observaciones.

Alejandro José Hugo Escalante Santos

student•

Interesante tema.

Luis Cesar Guadarrama Jimenez

student•

Sobre el reto del final de la clase:

En mi caso, encontré por qué fallaba el modelo al intentar predecir la columna Death usando las variables con faltantes.

(
    smf.logit(
        formula="death ~ creatinine + chapter",
        data = survival_df
    )
    .fit()
    .summary()
    .tables[0]
)

El problema es que statsmodels elimina automáticamente toda la fila si encuentra aunque sea un solo valor NaN (nulo) en las variables seleccionadas. Para comprobar qué estaba pasando tras bambalinas, filtré los datos manualmente igual que lo hace el modelo:

df_limpio = survival_df.dropna(subset=['death', 'sample.yr', 'kappa', 'chapter']) 

print("Filas restantes:", len(df_limpio))
print("Conteo de muertes en este subgrupo:")
print(df_limpio['death'].value_counts())

Al eliminar los nulos, eliminamos accidentalmente a todos los vivos. El modelo falló porque intentaba predecir muerte en un dataset donde el 100% de los sujetos ya tienen el mismo estado (varianza cero).

Luis Cesar Guadarrama Jimenez

student••

Hola a todos. Tuve algunos errores al ejecutar el código del notebook de Deepnote en VS Code localmente (por falta de librerías).

Les comparto la solución que me funcionó para configurar el ambiente correctamente. Solo hay que ejecutar lo siguiente para instalar todas las dependencias necesarias de una sola vez:

pip install --upgrade pip

pip install scikit-learn pyjanitor matplotlib missingno nhanes scipy seaborn session-info

# Si estan en un ambiente virtual o no lo tienen instalado, tambien corran el siguiente codigo:

%pip install statsmodels
%pip install nbformat
%pip install upsetplot

Espero les sirva y puedan ejecutarlo sin problemas