Manejo de datos nulos
Clase 15 de 24 • Curso de Manipulación y Transformación de Datos con Pandas y NumPy
Resumen
Los datos nulos son dolores de cabeza para este mundo de la ciencia de datos y se van a encontrar mucho en nuestros DataFrames
- Creamos un DataFrame con algunos valores nulos
import pandas as pd
import numpy as np
dict = {'Col1':[1,2,3,np.nan],
'Col2':[4, np.nan,6,7],
'Col3':['a','b','c', None]}
df = pd.DataFrame(dict)
---> Col1 Col2 Col3
0 1 4 a
1 2 nan b
2 3 6 c
3 nan 7 None
- Identificar valores nulos en un DataFrame
df.isnull()
----> Col1 Col2 Col3
0 false false false
1 false true false
2 false false false
3 true false true
- Identificar valores nulos con un valor numérico
df.isnull()*1
---> Col1 Col2 Col3
0 0 0 0
1 0 1 0
2 0 0 0
3 1 0 1
- Sustituir los valores nulos por una cadena
df.fillna('Missing')
---> Col1 Col2 Col3
0 1.0 4.0 a
1 2.0 Missing b
2 3.0 6.0 c
3 Missing 7.0 Missing
- Sustituir valores nulos por una medida estadística realizada con los valores de las columnas
df.fillna(df.mean())
----> Col1 Col2 Col3
0 1 4 a
1 2 5.667 b
2 3 6 c
3 2 7 None
- Sustituir valores nulos por valores de interpolación
df.interpolate()
----> Col1 Col2 Col3
0 1 4 a
1 2 5 b
2 3 6 c
3 3 7 None
- Eliminar valores nulos
df.dropna()
---> Col1 Col2 Col3
0 1 4 a
2 3 6 c
Contribución creada por: Edward Giraldo.