Manejo de datos nulos

Clase 15 de 24 • Curso de Manipulación y Transformación de Datos con Pandas y NumPy

Resumen

Los datos nulos son dolores de cabeza para este mundo de la ciencia de datos y se van a encontrar mucho en nuestros DataFrames

Creamos un DataFrame con algunos valores nulos

import pandas as pd
import numpy as np

dict = {'Col1':[1,2,3,np.nan],
'Col2':[4, np.nan,6,7],
'Col3':['a','b','c', None]}

df = pd.DataFrame(dict)
---> Col1 Col2 Col3
0   1       4    a
1   2     nan    b
2   3       6    c
3  nan      7   None

Identificar valores nulos en un DataFrame

df.isnull()
---->    Col1   Col2   Col3
0       false   false  false
1       false   true   false
2       false   false  false
3       true    false  true

Identificar valores nulos con un valor numérico

df.isnull()*1
---> Col1   Col2   Col3
0       0      0       0
1       0      1       0
2       0      0       0
3       1      0       1

Sustituir los valores nulos por una cadena

df.fillna('Missing')
--->  Col1   Col2   Col3
0       1.0    4.0     a
1       2.0  Missing   b
2       3.0    6.0     c
3       Missing 7.0  Missing

Sustituir valores nulos por una medida estadística realizada con los valores de las columnas

df.fillna(df.mean())
---->    Col1   Col2   Col3
0           1      4      a
1           2      5.667  b
2           3      6      c
3           2      7     None

Sustituir valores nulos por valores de interpolación

df.interpolate()
---->    Col1   Col2   Col3
0           1      4      a
1           2      5      b
2           3      6      c
3           3      7     None

Eliminar valores nulos

df.dropna()
--->  Col1   Col2   Col3
0       1      4      a
2       3      6      c

Contribución creada por: Edward Giraldo.

FELIX DAVID CORDOVA GARCIA

student•

Para borrar valores nulos de una columna en específico usamos el subset=["Name_column"] dentro del dropna

Juan Camilo Maldonado Perez

student•

¿Esta forma no es permanente?

df.dropna()

¿Segun lo que se vio la clase anterior se necesita de?

df.dropna('Colum', axis=1, inplace=True)

FELIX DAVID CORDOVA GARCIA

student•

Si quieres borrar TODOS los na de todo el dataset usas el df.dropna() , si quieres borrar los na de una columna en especifico usas el df.dropna(subset=["Columna"]) y para que los resultados queden de forma permanente puedes usar : df.dropna(subset=["Columna"], inplace=True) o sino

df= df.dropna(subset=["Columna"])

Pablo Cano Franch

student•

Para aquellos que se pregunten que diferencia hay entre NaN, None y NaT:

NaN: si una columna es de tipo numérico y falta algún valor, ese valor será NaN (Not a Number). Como curiosidad, NaN es de tipo float y, por tanto, si tienes una columna de enteros y hay un valor que falta, automáticamente toda esa columna pasa a ser de tipo float debido al NaN (se hace upcasting a cada valor).
NAT: si tienes una columna de tipo DateTime y falta algún valor, ese será NaT (Not a Time).
None: cuando tenemos una columna de tipo object (el tipo de los strings). Aunque para estas columnas podríamos encontrar cualquiera de los 3: None, NaN y NaT.

Nota aparte: np.NaN == np.NaN devuelve False, al igual que pd.NaT == pd.NaT devuelve False. Sin embargo, ``` None == None

Eduardo Peña Ramos

student•

¿Por qué np.NaN == np.NaN devuelve False, al igual que pd.NaT == pd.NaT devuelve False? 🤔

Sandra Guayambuco

student•

hola, me surgio la misma duda, y esto fue lo que encontré:

np.nan == np.nan es falso porque se definio por la especificacion de numeros flotantes que un np.nan en cualquier operacion aritmetica o de comparacion siempre es invalido aqui sale especificado si se quiere poner un valor de tipo np.nan en un condicional es mejor usar "is"

np.nan is np.nan

y asi si saldria True. Igualmente para pd.NaT.

Nicoll Idaly Angulo Mejia

student•

Retorna los row que tenga almenos 3 not-nan

df.dropna(thresh=3)

Jeinfferson Bernal G

student•

Manejo de valores nulos

Creamos un dataFrame con algunos valores nulos

import pandas as pd
import numpy as np

dict = {'Col1':[1,2,3,np.nan],
'Col2':[4, np.nan,6,7],
'Col3':['a','b','c', None]}

df = pd.DataFrame(dict)
	----> Col1 Col2 Col3
			0   1    4   a
			1   2   nan  b
			2   3    6   c
			3  nan   7  None

Identificar valores nulos en un dataFrame

df.isnull()
---->    Col1   Col2   Col3
			0 false   false  false
			1 false   true   false
			2 false   false  false
			3 true    false  true

Identificar valores nulos con un valor numerico

df.isnull()*1
---->    Col1   Col2   Col3
			0   0      0       0
			1   0      1       0
			2   0      0       0
			3   1      0       1

Sustituir los valores nulos por una cadena

df.fillna('Missing')
---->    Col1   Col2   Col3
	    0  1.0    4.0     a
			1  2.0  Missing   b
			2  3.0    6.0     c
			3 Missing 7.0  Missing

Sustituir valores nulos por una medida estadisticas realizada con los valores de las columnas

df.fillna(df.mean())
---->    Col1   Col2   Col3
      0   1      4      a
			1   2      5.667  b
			2   3      6      c
			3   2      7     None

Sustituir valores nulos por valores de interpolacion

df.interpolate()
---->    Col1   Col2   Col3
      0   1      4      a
			1   2      5      b
			2   3      6      c
			3   3      7     None

Eliminar valores nulos

df.dropna()
---->    Col1   Col2   Col3
      0   1      4      a
			2   3      6      c

Ricardo Gomez

student•

De todas manera como parte de un departamento de datos, no es solo borrar hay que analizar la información, verificarla y ver el posible impacto de eliminar datos, en mi opinión es mejor buscar una solución de llenado, dado de si son muchos es mejor buscar el origen y corregirlo

Eduardo Peña Ramos

student•

De acuerdo.

Diego Lazo Rojas

student•

Al asignar la media a los valores nulos, esta se obtiene por columna, no del dataset completo

df1.fillna(df1.mean())

Col1 Col2 Col3 0 1.0 5.0 a 1 2.0 NaN b 2 3.0 6.0 c 3 NaN 7.0 None

Col1 Col2 Col3 0 1.0 5.0 a 1 2.0 6.0 b 2 3.0 6.0 c 3 2.0 7.0 None

Pablo Cano Franch

student•

Exacto. Esto es porque mean() tiene por defecto el argumento axis=0. Podríamos usar también axis=1

Eduardo Peña Ramos

student•

No lo sabía, de hecho tiene sentido: porque cada columna podrían ser categorías o tipos de datos diferentes. Saludos! :)

Camilo Duque

student•

Comparto otros posibles approaches con estas funciones de manejo de datos nulos:

Contar valores nulos por columnas:

df.isnull().sum()
>>>
col_1    1
col_2    1
col_3    1
dtype: int64

Metodos de llenado para fillna( )

bfill / Rellena los datos tomando como base los valores posteiores de la serie, df.fillna(method='bfill')
ffill / Rellena los datos tomando como base los valores anteriores de la serie. df.fillna(method='ffill')

Parpametros para dropna( )

how='all' / elimina los valores nulos si los hay en toda la fila df.dropna(how='all')
thresh=# / elimina valores nulos si hay almenos el numero delcarado de NaNs df.dropna(thresh=2)
subset=['col1','col2'] / Elimina valores nulos basado en las columnas específicas declaradas en el subset df.dropna(subset=['col1'])

Adolfo Sebastián Jara Gavilanes

student•

Gran aporte!! Muchas gracias

Jorge Enrique Chavez Otalvaro

student•

df.notnull() -----> Para idenntificar los datos no nulos df.isnull().any() ----------> Para saber si en la Base de datos hay nulos df[df.notnull()] Nos regresa NaN donde son nulos

Juan Pablo Cuenca Ludeña

student•

Mis apuntes #16

Naren Fragozo

student•

df.dropna(thresh=2)

elimina la cantidad de valores nulos con las filas.

Andrés González Arévalo

student•

Hay que tener en cuenta que cuando se utiliza la función .dropna(), lo que hace es borrar aquellas filas que contienen un valor nulo.

Pero si solo se quiere tener en cuenta los valores nulos de una columna hay que pasarle el nombre de la columna .dropna(subset=["Columna"])

Sebastian Cobo Isaac

student•

Diferencias entre NaN y None:

NaN es un Not a Number que maneja Numpy para valores nulos y con el cual se puede operar con argumentos de las funciones que ofrece la librería Numpy como interpolate()
None es para valores nulos tipo texto y no tiene la misma operabilidad con que NaN con la libreria Numpy

Aquí explican un poco mas detallado las diferencias: https://qastack.mx/programming/17534106/what-is-the-difference-between-nan-and-none

Felix Gonzales

student•

En VCode, me sale error al ingresar la mediana: df.fillna(df.mean())

me sale lo siguiente: Output exceeds the size limit. Open the full output data in a text editor--------------------------------------------------------------------------- TypeError Traceback (most recent call last) Cell In[77], line 1 ----> 1 int(df.fillna(df.mean()))

TypeError: can only concatenate str (not "int") to str

Hillary Isabel Villarreal de Hoyos

student•

Te recomiendo lo siguiente:

df['Col1'].fillna(df['Col1'].mean(), inplace=True)
df['Col2'].fillna(df['Col2'].mean(), inplace=True)
df['Col3'].fillna('', inplace=True)
print(df)

Eliana Ossio

student•

lo mismo me ha sucedido

Pablo Alejandro Figueroa

student•

Porcentaje de elementos nulos

(df.isnull().sum() / len(df)) * 100

Baldwin Monasterio

student•

Les comento, que la versión actual de Pandas (la 2.13) me arroja un error del tamaño mamut al emitirle el comando df.fillna(df.mean()).

Entre la retaíla de líneas con problemas, la última dice así:

TypeError: can only concatenate str (not "int") to str

Por lo que esta parte de la práctica hay que hacerla de otra manera.

Santiago Londoño

student•

Pareciera que el error se produce debido a que una de tus columnas tiene data de tipo string, al aplicar la media ocurre el error.

Erik Martinez Santa

student•

con esto quedaria solucionado

df.fillna(df.mean(numeric_only=True))

Ever Orlando Reyes Ruiz

student•

Para trabajar con decimales ( definidos a nuestras necesidades) es buena idea agregar esta linea de código al inicio de nuestro .ipynb

De acuerdo a la documentación de pandas, estas son algunas ( no se si todas) las opciones disponibles.

https://pandas.pydata.org/pandas-docs/stable/user_guide/options.html

Alejandro Restrepo

student•

En caso de llenar valores nulos, recomiendo usar .median(). Con .mean() los valores pueden estar sesgados

Antonio Demarco Bonino

student•

Esta clase me VOLO la cabeza. Es ideal para todos las pruebas técnicas que mandan para trabajos en DS. Ahora y más que nunca hasta el FINAL.

Daniel Choxin

student•

Alguna referencia en linea de pruebas tecnicas?

Felipe Aníbal Torrejón Traslaviña

student•

Hola... utilicé None en una columna de valores numéricos del DataFrame y me lo asignó como un NaN, pero al colocar un valor NaN en una Serie de datos no numéricos, no ocurre los mismo.

Busqué alguna explicación y encontré en este artículo que Pandas siempre homogeniza los datos, por el hecho de que las Series tienen valores del mismo tipo.

NaN es del tipo float64 y None es un objeto de tipo NonType.
Cuando insertamos un valor None en una Serie de valores numéricos, Pandas lo transforma en NaN para ajustarlo al conjunto al que pertenece; y además, transforma la Serie a float64 para ajustarlo al tipo de NaN.
Cuando insertamos NaN en un conjunto de datos no numéricos (Strings, booleanos...), Pandas no transforma el valor a None, si no que trata los datos como objetos e inserta el valor NaN; lo mismo ocurre al incluir un valor None: todos los datos son vistos como objetos y se inserta None como tal.

La pregunta es: ¿Hay alguna diferencia en el tratamiento de datos no numéricos cuando nos enfrentamos a NaN y cuando nos enfrentamos a None ?

Alarcon7a

student•

en pandas se manejan y detectan de igual manera

Leandro Tenjo

student•

También me confundí un poco.

Y fíjate que al poner un NaN en una columna de enteros, los transforma todos a valores Float.

np.nan es tomado como ++Float++
pd.NA es tomado como ++Entero++
None es tomado como ++Texto++

↓ y a la vez todos representan ++Valores Nulos++

Pablo Alejandro Figueroa

student•

Nicolas Alpargatero

student•

interesante para poder contar los nulos asi si decidir si se elimina o no. porque en el ejemplo del profe usa dropna() pero elimina toda la fila o columna, no es la idea.

import pandas as pd
import numpy as np

dict = {'Col1':[1,2,3,np.nan],
'Col2':[4, np.nan,6,7],
'Col3':['a','b','c', None]}

df = pd.DataFrame(dict)
	----> Col1 Col2 Col3
			0   1    4   a
			1   2   nan  b
			2   3    6   c
			3  nan   7  None

Manejo de datos nulos

Librerías de manipulación de datos con Python

¿Por qué NumPy y Pandas?

NumPy

NumPy Array

Tipos de datos

Dimensiones

Creando arrays

Shape y Reshape

Funciones principales de NumPy

Copy

Condiciones

Operaciones

Pandas

Series y DataFrames en Pandas

Leer archivos CSV y JSON con Pandas

Filtrado con loc y iloc

Agregar o eliminar datos con Pandas

Manejo de datos nulos

Filtrado por condiciones

Funciones principales de Pandas

groupby

Combinando DataFrames

Merge y Concat

Join

Pivot y Melt

Apply

Cierre

Posibilidades con Pandas y NumPy