Manejo de datos faltantes

Clase 15 de 32 • Curso de Machine Learning Aplicado con Python

Contenido del curso

Introducción al curso

1
Introducción al curso de Machine Learning Aplicado con Python
00:56 min

Cómo definir un problema de Machine Learning

El ciclo de ingeniería de Machine Learning

6
El ciclo de Machine Learning
07:33 min

Montar un ambiente de trabajo Pydata

Preparación de los datos

Modelación y evaluación

Feature Engineering

Modelos y Evaluación más avanzada

Tomar examen

Comentarios

Andrés Felipe Torres Cano

student•

Si utilizan Scikit Learn (sklearn) mayor a la versión 0.20, el Imputer cambió de nombre y lo deben importar así:

from sklearn.impute import SimpleImputer
imputer = SimpleImputer(missing_values=np.nan, strategy='mean')

Jeinner Daniel Báez Mantilla

student•

Muy buen apunte.

Edgar Alejandro España Amaya

student•

Excelente aporte compañero muchas gracias.

Loren Johanna Vásquez Rivera

student•

Para los que usan colab y quieren guardar el archivo:

from google.colab import files
X.to_csv('x.csv',index=False)
files.download('x.csv')

David Leonardo Cañón Clavijo

student•

muchas gracias me sirvió bastante, porque con el código suministrado por el profesor no me arrojaba error, pero al ir a la ruta del archivo no aparecía, si sabes porque pasa esto te agradezco.

Loren Johanna Vásquez Rivera

student•

Hola David, creo que si trabajas desde colab es mejor hacerlo de la forma que indiqué para que el archivo bajara efectivamente al computador.

Wilinton Aguirre Ortiz

student•

Para python 3.8

from sklearn.impute import SimpleImputer
imputer = SimpleImputer(missing_values= np.nan,  strategy = 'mean')

Usuario anónimo

user•

muchas gracias por la ayuda.

Isaac Nahaniel Silva Urbina

student•

Muchas gracias

Damian Arturo Garces Paez

student•

Para los que les salga el siguiente error:

Cambien el import de la libreria por

from sklearn.impute import SimpleImputer
imputer = SimpleImputer(missing_values=np.nan, strategy='mean')

Alberto Gobbi

student•

Es un warning, pero muy bueno el aporte.

Diego Martinez

student•

Con el alerta se puede continuar trabajando, pero por modestia visual si hace falta, gracias Damian por el aporte.

Richard Camilo Saavedra Coneo

student•

Usando google colab Min: 9 Sec: 30 La función esta depracated -> se soluciona con

from sklearn.impute import SimpleImputer
imputer = SimpleImputer(missing_values=np.nan, strategy='mean')

Usuario anónimo

user•

Muchas gracias, funcionó a qué se debe el error? actualización en la libreria?

Ana Isabel Tamayo López

student•

Excelente! Gracias por el dato!!!!!

Ever Andrés Giraldo Ramírez

student•

Para quienes trabajen en google colab y tengan el siguiente error:

ImportError: cannot import name 'Imputer' from 'sklearn.preprocessing'

Reemplazar

from sklearn.preprocessing import Imputer

Por

from sklearn.impute import SimpleImputer as Imputer

Johan Smith Valderama Sanchez

student•

Muchas gracias

Ian Mateo Rodriguez Lopez

student•

Para los que no les funcione el las lineas [88]

Puede que la librería se haya actualizado desde el momento que se grabo la clase

from sklearn.preprocessing import Imputer
imputer = Imputer(missing_values=np.nan, strategy = 'mean', axis=1)

Remplazar por lo siguiente

from sklearn.impute import SimpleImputer
imputer = SimpleImputer(missing_values=np.nan, strategy='mean')

Usuario anónimo

user•

Para quienes les aparece el warning, al momento de importar la biblioteca de sklearn:

from sklearn.impute import SimpleImputer
imputer = SimpleImputer(missing_values= np.nan,  strategy = 'mean')

Lucas Araujo

student•

crack

Lucas Araujo

student•

idolo

Angel Yani Marini

student•

Una consulta ... ¿alguien notó que al aplicar inputer.fit_transformation aparecen datos que no corresponden con la escala de algunas columnas?

Por ejemplo si se fijan en la row 2, columna title_year del dataframe X aparece el año de la pelicula con un valor exponente +8. Es correcto esto?

https://platzi.com/clases/1178-scikit/8839-manejo-de-datos-faltant-0/?time=968

Saludos Angel

Angel Yani Marini

student•

Ya detecte el problema: Al Imputer no se le debe idicar axis=1 como se ve en el vídeo, ya que al hacer esto se esta completando horizontalmente los datos faltantes, en lugar de hacerlo verticalmente.

En el archivo del jupyter esta corregido el error

from sklearn.preprocessing import Imputer
imputer = Imputer(missing_values=np.nan, strategy='mean')

En lugar de

from sklearn.preprocessing import Imputer
imputer = Imputer(missing_values=np.nan, strategy='mean', axis=1)

Jean Paul

teacher•

Buenisimo muchas gracias!

Ruben Vazquez Almanza

student•

Tantos años iterando como el diablo, y python me lo resuelve con un “to_Csv” xD

Darvin Orozco

student•

Jajaja! Es cierto... con Python, pero en especial con Pandas, nos olvidamos de BufferReader, etc........

Usuario anónimo

user•

Para los que usamos Google colab sse puede agregar los archivos :

from google.colab import files files.upload() movies = pd.read_csv('peliculas.csv',encoding='utf-8')

Jorge Eduardo Romero Amaya

student•

Muchas gracias, excelente dato

Hans Albeiro Torres Rojas

student•

Para las personas que están utilizando la ultima versión de Anaconda, y que les genere error en el import de Imputer, utilicen este codigo:

from sklearn.impute import SimpleImputer imputer = SimpleImputer(missing_values=np.nan, strategy='mean')

Arles De Jesus Muñoz Ortiz

student•

Ok.. funciono bien

Andres Felipe Agudelo Palacios

student•

Gracias por el aporte

Usuario anónimo

user•

Para lo que tiene una versión más reciente de sklearn el Imputer se hace de la siguiente manera

from sklearn.impute import SimpleImputer
imputer = SimpleImputer(missing_values=np.nan, strategy='mean')
values = imputer.fit_transform(movies_v2)

Usuario anónimo

user•

para los que usan colab y quieren descargar el archvo x.csv a su maquina local usen este codigo

x.to_csv('x.csv', index=False)
files.download('x.csv')```

Daniel Felipe Naranjo Cruz

student•

James, gracias. Ejecutando la primera línea que sugiere, he logrado correr la sentencia, sin embargo, el archivo no ha descargado y cuando ejecuto la 2da línea me dice lo siguiente:

---------------------------------------------------------------------------
NameError                                 Traceback (most recent call last)
&lt;ipython-input-183-ab109fbdc0a7&gt; in &lt;module&gt;()
      1 x.to_csv(r'C:\Users\Viviana Ruiz\Drive danfel00@gmail\x.csv',index=False)
----&gt; 2 files.download('x.csv')

NameError: name 'files' is not defined

Mi duda radica en que a pesar de haber ejecutado la primera linea que sugiere, no logro ver el archivo descargado en la ruta que indiqué. Para ver ese archivo descargado, es necesario ejecutar la 2da línea que sugiere? Digo porque en la clase el profesor solo llegó hasta la primer línea, por lo que entendería debería ser suficiente.

Gracias.

Juan Diego Garzón Ovalle

student•

Para las personas que tengan duda, que en donde aparece el archivo, éste simplemente aparece en la carpeta de jupyter en el lado izquierdo, aparece listo para descargar :)

Andrea Otero Cano

student•

Con skelearn.preprocessing import Imputer me aparece como deprecated, lo que hice fue cambiarlo por from sklearn.impute import SimpleImputer, y funciona de la misma forma

Jafet López Chaves

student•

from sklearn.impute import SimpleImputer
imputer = SimpleImputer(missing_values=np.nan, strategy='mean')

Franco Colmenarez

student•

Gracias @F34th3R me sirvió

María Alejandra Cañón Mulett

student•

En las features del video no coinciden con el material, en notebook eliminan la variable gross y en el video no lo hacen eso, afecta los resultados finales, no es solo eso hay varias cosas que no cuadran con el material, les sugiero tener cuidado, porque muchos estudiantes siguen paso a paso

Jafet López Chaves

student•

opino lo mismo

Erika Julieth Corzo Quintero

student•

Estoy de acuerdo, en el vídeo uno se pierde y no entiende por qué el resultado es distinto hasta que no va a mirar el notebook, pero igual se pierda la explicación de esos pasos adicionales.

Usuario anónimo

user•

Comparto el código completo y final del proceso de manejo de datos faltantes en esta sesión de clase.

# Los datos faltantes generan problemas con muchos algoritmos de ML. Es por esto que existen distintas estrategias para lidiar con ellos.
help(pd.Series.value_counts)
movies_v2.notnull()
movies_v2.notnull().apply(pd.Series.value_counts)
(movies_v2 != 0).apply(pd.Series.value_counts)
available = ((movies_v2 != 0) &amp; (movies_v2.notnull()))
available
available.all(axis=1).value_counts()
mask = available['worldwide_gross']
mask
movies_v2 = movies_v2[mask]
movies_v2
((movies_v2 != 0) &amp; (movies_v2.notnull())).worldwide_gross.value_counts()
movies_v2 = movies_v2.drop('movie_title',axis=1)
movies_v2 = movies_v2.drop('duration',axis=1)
movies_v2 = movies_v2.drop('gross',axis=1)
movies_v2.head()
len(movies_v2)
from sklearn.impute import SimpleImputer
imputer = SimpleImputer(missing_values=np.nan, strategy='mean')
values = imputer.fit_transform(movies_v2)
movies_v2.values
values
values = imputer.fit_transform(movies_v2)
X = pd.DataFrame(values)
X.columns = movies_v2.columns
X.index = movies_v2.index
X.head()
len(X)
X.to_csv('K:\Cursos MINTIC_Platzi\Curso_de_Machine_Learning_Aplicado_con_Python\Archivos de actividades/intermediate_results/X_opening.csv',index=False)

Rafael Arango Uribe

student•

Muchas gracias

Rafael Arango Uribe

student•

<movies_v2 = movies_v2.drop('movie_title',axis=1)
movies_v2 = movies_v2.drop('duration',axis=1)
movies_v2 = movies_v2.drop('gross',axis=1)>


``` no me los identifica me aparece error

KeyError                                  Traceback (most recent call last)
<ipython-input-164-9cabae975124> in <module>()
----> 1 movies_v2 = movies_v2.drop('movie_title',axis=1)
      2 movies_v2 = movies_v2.drop('duration',axis=1)
      3 movies_v2 = movies_v2.drop('gross',axis=1)
      4 

3 frames
/usr/local/lib/python3.6/dist-packages/pandas/core/indexes/base.py in drop(self, labels, errors)
   5016         if mask.any():
   5017             if errors != "ignore":
-> 5018                 raise KeyError(f"{labels[mask]} not found in axis")
   5019             indexer = indexer[~mask]
   5020         return self.delete(indexer)

KeyError: "['movie_title'] not found in axis"

que puede ser

William Schnaider Torres Bermon

student•

The imputation strategy:

If “mean”, then replace missing values using the mean along each column. Can only be used with numeric data.
If “median”, then replace missing values using the median along each column. Can only be used with numeric data.
If “most_frequent”, then replace missing using the most frequent value along each column. Can be used with strings or numeric data.
If “constant”, then replace missing values with fill_value. Can be used with strings or numeric data.

You can find more information here: SimpleImputer.

Usuario anónimo

user•

Para los compañeros que le bote error en colab cuando importen el Impute haganlo d esta manera:

from sklearn.impute import SimpleImputer imputer = SimpleImputer(missing_values = np.nan, strategy = 'main')

Usuario anónimo

user•

gracias :)

Alexandra Esteban

student•

No me queda claro cómo con el siguiente comando cuenta la cantidad de ceros por cada columna si se esta seleccionando los diferentes a cero

(movies2 !=0).apply(pd.Series.value_counts) #apply aplica la funcion en cada columna```

Hugo Alexander Gonzalez Bocanegra

student•

recuerda que pd.Series.value_counts, entrega una tabla en la cual aparece la cantidad de Falses y True de cada columna, por lo tanto si colocas:

(movies2 ==0).apply(pd.Series.value_counts)

te va aparecer la misma conclusion solo que cambian los True y los False

---------------------------------------------------------------------------
NameError                                 Traceback (most recent call last)
&lt;ipython-input-183-ab109fbdc0a7&gt; in &lt;module&gt;()
      1 x.to_csv(r'C:\Users\Viviana Ruiz\Drive danfel00@gmail\x.csv',index=False)
----&gt; 2 files.download('x.csv')

NameError: name 'files' is not defined

# Los datos faltantes generan problemas con muchos algoritmos de ML. Es por esto que existen distintas estrategias para lidiar con ellos.
help(pd.Series.value_counts)
movies_v2.notnull()
movies_v2.notnull().apply(pd.Series.value_counts)
(movies_v2 != 0).apply(pd.Series.value_counts)
available = ((movies_v2 != 0) &amp; (movies_v2.notnull()))
available
available.all(axis=1).value_counts()
mask = available['worldwide_gross']
mask
movies_v2 = movies_v2[mask]
movies_v2
((movies_v2 != 0) &amp; (movies_v2.notnull())).worldwide_gross.value_counts()
movies_v2 = movies_v2.drop('movie_title',axis=1)
movies_v2 = movies_v2.drop('duration',axis=1)
movies_v2 = movies_v2.drop('gross',axis=1)
movies_v2.head()
len(movies_v2)
from sklearn.impute import SimpleImputer
imputer = SimpleImputer(missing_values=np.nan, strategy='mean')
values = imputer.fit_transform(movies_v2)
movies_v2.values
values
values = imputer.fit_transform(movies_v2)
X = pd.DataFrame(values)
X.columns = movies_v2.columns
X.index = movies_v2.index
X.head()
len(X)
X.to_csv('K:\Cursos MINTIC_Platzi\Curso_de_Machine_Learning_Aplicado_con_Python\Archivos de actividades/intermediate_results/X_opening.csv',index=False)

<movies_v2 = movies_v2.drop('movie_title',axis=1)
movies_v2 = movies_v2.drop('duration',axis=1)
movies_v2 = movies_v2.drop('gross',axis=1)>


``` no me los identifica me aparece error

KeyError                                  Traceback (most recent call last)
<ipython-input-164-9cabae975124> in <module>()
----> 1 movies_v2 = movies_v2.drop('movie_title',axis=1)
      2 movies_v2 = movies_v2.drop('duration',axis=1)
      3 movies_v2 = movies_v2.drop('gross',axis=1)
      4 

3 frames
/usr/local/lib/python3.6/dist-packages/pandas/core/indexes/base.py in drop(self, labels, errors)
   5016         if mask.any():
   5017             if errors != "ignore":
-> 5018                 raise KeyError(f"{labels[mask]} not found in axis")
   5019             indexer = indexer[~mask]
   5020         return self.delete(indexer)

KeyError: "['movie_title'] not found in axis"

que puede ser

Manejo de datos faltantes

Introducción al curso

Introducción al curso de Machine Learning Aplicado con Python

Cómo definir un problema de Machine Learning

Importancia de definir el problema en Machine Learning

Predecir el ingreso de películas de IMDB

Terminología de Machine Learning

Materiales del curso: Notebooks de Jupyter

El ciclo de ingeniería de Machine Learning

El ciclo de Machine Learning

Montar un ambiente de trabajo Pydata

Configuración del ambiente de trabajo con Google Collab

Qué es y cómo se utiliza Numpy

Arrays en Numpy

Operaciones aritméticas en Numpy

Preparación de los datos

Cargar los datos necesarios para el proyecto

Inspección de los tipos de datos

Inspección cuantitativa y de salud de los datos

Limpiar los datos