Resumen

Los datos nulos son dolores de cabeza para este mundo de la ciencia de datos y se van a encontrar mucho en nuestros DataFrames

  • Creamos un DataFrame con algunos valores nulos
import pandas as pd
import numpy as np

dict = {'Col1':[1,2,3,np.nan],
'Col2':[4, np.nan,6,7],
'Col3':['a','b','c', None]}
df = pd.DataFrame(dict)
---> Col1 Col2 Col3
0   1       4    a
1   2     nan    b
2   3       6    c
3  nan      7   None
  • Identificar valores nulos en un DataFrame
df.isnull()
---->    Col1   Col2   Col3
0       false   false  false
1       false   true   false
2       false   false  false
3       true    false  true
  • Identificar valores nulos con un valor numérico
df.isnull()*1
---> Col1   Col2   Col3
0       0      0       0
1       0      1       0
2       0      0       0
3       1      0       1
  • Sustituir los valores nulos por una cadena
df.fillna('Missing')
--->  Col1   Col2   Col3
0       1.0    4.0     a
1       2.0  Missing   b
2       3.0    6.0     c
3       Missing 7.0  Missing		
  • Sustituir valores nulos por una medida estadística realizada con los valores de las columnas
df.fillna(df.mean())
---->    Col1   Col2   Col3
0           1      4      a
1           2      5.667  b
2           3      6      c
3           2      7     None
  • Sustituir valores nulos por valores de interpolación
df.interpolate()
---->    Col1   Col2   Col3
0           1      4      a
1           2      5      b
2           3      6      c
3           3      7     None	  
  • Eliminar valores nulos
df.dropna()
--->  Col1   Col2   Col3
0       1      4      a
2       3      6      c

Contribución creada por: Edward Giraldo.