Resumen

Los datos nulos son dolores de cabeza para este mundo de la ciencia de datos y se van a encontrar mucho en nuestros DataFrames

  • Creamos un DataFrame con algunos valores nulos
import pandas as pd import numpy as np dict = {'Col1':[1,2,3,np.nan], 'Col2':[4, np.nan,6,7], 'Col3':['a','b','c', None]}
df = pd.DataFrame(dict) ---> Col1 Col2 Col3 0 1 4 a 1 2 nan b 2 3 6 c 3 nan 7 None
  • Identificar valores nulos en un DataFrame
df.isnull() ----> Col1 Col2 Col3 0 false false false 1 false true false 2 false false false 3 true false true
  • Identificar valores nulos con un valor numérico
df.isnull()*1 ---> Col1 Col2 Col3 0 0 0 0 1 0 1 0 2 0 0 0 3 1 0 1
  • Sustituir los valores nulos por una cadena
df.fillna('Missing') ---> Col1 Col2 Col3 0 1.0 4.0 a 1 2.0 Missing b 2 3.0 6.0 c 3 Missing 7.0 Missing
  • Sustituir valores nulos por una medida estadística realizada con los valores de las columnas
df.fillna(df.mean()) ----> Col1 Col2 Col3 0 1 4 a 1 2 5.667 b 2 3 6 c 3 2 7 None
  • Sustituir valores nulos por valores de interpolación
df.interpolate() ----> Col1 Col2 Col3 0 1 4 a 1 2 5 b 2 3 6 c 3 3 7 None
  • Eliminar valores nulos
df.dropna() ---> Col1 Col2 Col3 0 1 4 a 2 3 6 c

Contribución creada por: Edward Giraldo.