Extendiendo la API de Pandas

Curso de Manejo de Datos Faltantes: Detección y Exploración

Contenido del curso

Introducción a los valores faltantes

Manipulación inicial de valores faltantes

Búsqueda de relaciones de valores faltantes

Tratamiento de valores faltantes

Cierre de curso

21
Continúa aprendiendo sobre el manejo de valores faltantes
03:21 min

Tomar examen

Extendiendo la API de Pandas

Comentarios29

Juan Sebastian Torres Lozano

Estudiante

Yo lo estoy trabajando en VS y me daba problema correr el %run.

Esto sucedio ya que no habia instalado en mi ambiente la libreria de jupyter

Les dejo el codigo para que lo puedan solucionar

conda activate your_env pip install jupyter

jhon velasque

Estudiante

tienes que importar algo a mi no sigue salien

do error

Carlos Vargas

Estudiante

Para evitar el problema de %run en VS CODE, instala dentro del env nbformat, con el siguiente comando "pip install nbformat"

Jeinfferson Bernal G

Estudiante

Crear una nueva clase para extender Pandas

Creamos una clase y dentro de ella todos lo metodos que necesitemos. Para poder hacer accesible los metodos, utilizamos un decorador de pandas para acceder a la clase mediante una palabra clave

@pd.api.extensions.register_dataframe_accessor("missing")  #Decorador
class MissingMethods:                                      #clase
    def __init__(self, pandas_obj):
        self._df = pandas_obj

    def number_missing(self):                        #metodo para contar datos faltantes
        return self._df.isna().sum().sum()

    def number_complet(self):                        #metodo para contar datos completos
        return self._df.size - self._df.missing.number_missing()

Para acceder a los metodos se procede como sigue:

# actualizamos el dataframe para que se guarden los cambios
df = pd.DataFrame(df)

# accediendo al metodo number_missing
df.missing.number_missing()

#accediendo al metodo number_complet
df.missing.number_complet()

Ruddy Ramos

Estudiante

Gracias por el aporte.

Juan R. Vergara M.

Estudiante

Gracias.

Pável Hernández Reza

Estudiante

Hola. Nuevamente paso por aquí para los que no leyeron mi aporte en la primera clase del curso. Para los que estén experimentando problemas con el uso de la librería, hice un repositorio para poder clonarlo y tomar el curso usando VSCode. Todo ya fue probado durante todo el curso para asegurarme que funcione. Espero les evite días de frustración y directamente puedan tomar el curso sin ningún problema:

Roger Christian Cansaya Olazabal

Estudiante

Basicamente esto seria para automatizar algunos procesos en el manejo de datos, con funciones integradas dentro del mismo pandas.

Alberto Duque Villegas

Estudiante

En resumen, para extender el funcionamiento de la API de Pandas:

Crear un decorador con el accesorio para el acceso a los métodos
Crear una clase
Crear los métodos que se requieran en la clase

Pablo Alejandro Figueroa

Estudiante

Gracias..!

Alexis Aquino Noriega

Estudiante

Este man se luce pero no explica a detalle, es lo que no me gusta de este profesor.

David Montoya Perez

Estudiante

Que grande el Pandas de Jujutsu xd

david jurado

Estudiante

A opinión personal creo que es mejor usarlo sin la clase, uso los métodos de manera manual cuando los necesito (de paso practico el código, y si eres principiante es aun mejor, ya que repetir código y saber para que se usa cada cosa te ayudará a futuro), me ahorro código y tiempo, no sé. No le veo mucha utilidad, a menos de que lleves ya tiempo en esto, y estés cansado de repetir código y te lo sepas de memoria

Francisco Ponce

Estudiante

A mí me gusta mucho que usen la clase, hacen el análisis más limpio y realmente es muy útil jeje más bien lo que deberían es arreglar el entorno de deepnote.

Santiago Ahumada Lozano

Estudiante

Hola! Encontré un error en el método missing_case_summary(). Este método en esencia calcula el valor absoluto y relativo de nulos en cada fila:

def missing_case_summary(self) -> pd.DataFrame:
        return self._obj.assign(
            case=lambda df: df.index,
            n_missing=lambda df: df.apply(
                axis="columns", func=lambda row: row.isna().sum()
            ),
            pct_missing=lambda df: df["n_missing"] / df.shape[1] * 100,
        )[["case", "n_missing", "pct_missing"]]

El problema sucede cuando calculamos el porcentaje de missings

pct_missing=lambda df: df["n_missing"] / df.shape[1] * 100

Hemos creado 2 columnas de más!!! Las cuales son casey n_missing por lo que este porcentaje está subestimado. Por ejemplo. Si la fila fuese [None, 1, None, 0] El porcentaje de nulos es 50% pero este error de código arrojaría un porcentaje de 2 / 6 ≈ 33%

La solución a este bug es restar 2 al denominador:

pct_missing=lambda df: df["n_missing"] / (df.shape[1]-2) * 100,

Pablo Alejandro Figueroa

Estudiante

Tal cual...! muchas gracias..!

Jaime Lopez Hidalgo

Estudiante

Muchas gracias! Tambien puede usarse self._obj.shape[1] (el número original de columnas del DataFrame).

pct_missing=lambda df: df["n_missing"] / self._obj.shape[1] * 100

Andres Sanchez

Estudiante

5. Extendiendo la API de Pandas

Es muy buena práctica modularizar el código para mejorar el flujo de trabajo, así si quiero modificar el código de una función solo tengo que acceder al notebook de las funciones y no buscar en todo el notebook principal.
Me gusta mucho de Jesus que nos comparte las herramientas de su workflow que tiene como data scientist para facilitar el nuestro.

Pablo Alejandro Figueroa

Estudiante

Gracias Andres!

giani reyes nieto

Estudiante

Nanana, panda de jjk. Ahora tienes toda mi atención.

José Alejandro Montes Juarez

Estudiante

Creo que para el ejercicio no era tan necesario hacer clases. La mejor manera de haberlo explicado debio ser utilizando unicamente:

df.isnull().sum()

Ya que esta funcion extrae la informacion

Adolfo César De Boeck

Estudiante

Hola! Alguien pudo solucionar el problema del %run al trabajar en VS code? Da error cuando se ejecuta.

Leandro Tenjo

Estudiante

Parece que varios alumnos tuvieron el mismo problema y ya los solucionaron:

https://platzi.com/comentario/4305142/

GUSTAVO CHIAPPE

Estudiante

#python _3_11 _para Vcode SOLUCIONA EL %RUN
asttokens==2.4.1
attrs==23.2.0
colorama==0.4.6
comm==0.2.2
contourpy==1.2.0
cycler==0.12.1
debugpy==1.8.1
decorator==5.1.1
executing==2.0.1
fastjsonschema==2.19.1
fonttools==4.50.0
ipykernel==6.29.3
ipython==8.22.2
jedi==0.19.1
jsonschema==4.21.1
jsonschema-specifications==2023.12.1
jupyter_client==8.6.1
jupyter_core==5.7.2
kiwisolver==1.4.5
matplotlib==3.8.3
matplotlib-inline==0.1.6
missingno==0.5.2
multipledispatch==1.0.0
natsort==8.4.0
nbformat==5.10.3
nest-asyncio==1.6.0
numpy==1.26.4
packaging==24.0
pandas==2.2.1
pandas-flavor==0.6.0
parso==0.8.3
pillow==10.2.0
platformdirs==4.2.0
prompt-toolkit==3.0.43
psutil==5.9.8
pure-eval==0.2.2
Pygments==2.17.2
pyjanitor==0.26.0
pyparsing==3.1.2
pyreadr==0.5.0
python-dateutil==2.9.0.post0
pytz==2024.1
pywin32==306
pyzmq==25.1.2
referencing==0.34.0
rpds-py==0.18.0
scipy==1.12.0
seaborn==0.13.2
session_info==1.0.0
six==1.16.0
stack-data==0.6.3
stdlib-list==0.10.0
tornado==6.4
traitlets==5.14.2
tzdata==2024.1
UpSetPlot==0.9.0
wcwidth==0.2.13
wget==3.2
xarray==2024.2.0

Jhon Freddy Tavera Blandon

Estudiante

Pandas es una biblioteca poderosa para el análisis y manipulación de datos en Python, y ofrece muchas funcionalidades para trabajar con conjuntos de datos,

Extender la API de Pandas significa utilizar las funcionalidades avanzadas y personalizadas de Pandas para realizar operaciones más específicas y complejas en tus conjuntos de datos.

la API de Pandas para realizar tareas más avanzadas y personalizadas en tus conjuntos de datos. La versatilidad de Pandas te permite adaptar tus análisis de datos de acuerdo con tus necesidades específicas. Puedes explorar aún más las funciones y métodos avanzados de Pandas en la documentación oficial y a medida que adquieras experiencia en su uso.

Pablo Alejandro Figueroa

Estudiante

Gracias jhon!

Roy Q

Estudiante

Ojo:

Para quienes están trabajando en Jupyter Notebook en VS Code y les marca error la última funcion de la clase MissingMethods:

def missing_upsetplot(self, variables: list[str] = None, **kwargs):
	...

se trata de la version de Python, con 3.9 o mayor anda normal.

Pablo Alejandro Figueroa

Estudiante

Gracias Roy!

Julián Cárdenas

Estudiante

jajaja esa referencia a jujutsu kaisen

Mauro Benito Montoya Arenas

Estudiante

Muy buena clase. No sabia nada sobre esto, pero seguro que me va a ser muy util.

Luis Miguel Rodríguez

Estudiante

¿Cómo creo mi propio accesor en Pandas?

Para crear tu propio accesor, utilizas los decoradores @pd.api.extensions.register_dataframe_accessor o @pd.api.extensions.register_series_accessor. Primero, defines una clase en Python que reciba el objeto de Pandas (el DataFrame o la Serie) en su método __init__. Luego, agregas los métodos personalizados dentro de esa clase. Al colocar el decorador justo encima de la definición de la clase y asignarle un nombre (por ejemplo, @...("mi_accesor")), Pandas vincula automáticamente esa clase a sus estructuras de datos.

Esto significa que si tienes un DataFrame llamado df, podrás llamar a tus funciones directamente usando df.mi_accesor.mi_funcion(). Es una forma increíblemente limpia de empaquetar utilidades, como funciones específicas para detectar o visualizar valores nulos, sin tener que pasar el DataFrame como argumento a funciones sueltas en tu código.

José Alejandro Montes Juarez

Estudiante

Llevo la mitad de la clase y ya no entendi nada, creo que dimos un salto muy rapido de explicada paso por paso de como leer un archivo y luego boom clases

@pd.api.extensions.register_dataframe_accessor("missing")  #Decorador
class MissingMethods:                                      #clase
    def __init__(self, pandas_obj):
        self._df = pandas_obj

    def number_missing(self):                        #metodo para contar datos faltantes
        return self._df.isna().sum().sum()

    def number_complet(self):                        #metodo para contar datos completos
        return self._df.size - self._df.missing.number_missing()

# actualizamos el dataframe para que se guarden los cambios
df = pd.DataFrame(df)

# accediendo al metodo number_missing
df.missing.number_missing()

#accediendo al metodo number_complet
df.missing.number_complet()

def missing_case_summary(self) -> pd.DataFrame:
        return self._obj.assign(
            case=lambda df: df.index,
            n_missing=lambda df: df.apply(
                axis="columns", func=lambda row: row.isna().sum()
            ),
            pct_missing=lambda df: df["n_missing"] / df.shape[1] * 100,
        )[["case", "n_missing", "pct_missing"]]

#python _3_11 _para Vcode SOLUCIONA EL %RUN
asttokens==2.4.1
attrs==23.2.0
colorama==0.4.6
comm==0.2.2
contourpy==1.2.0
cycler==0.12.1
debugpy==1.8.1
decorator==5.1.1
executing==2.0.1
fastjsonschema==2.19.1
fonttools==4.50.0
ipykernel==6.29.3
ipython==8.22.2
jedi==0.19.1
jsonschema==4.21.1
jsonschema-specifications==2023.12.1
jupyter_client==8.6.1
jupyter_core==5.7.2
kiwisolver==1.4.5
matplotlib==3.8.3
matplotlib-inline==0.1.6
missingno==0.5.2
multipledispatch==1.0.0
natsort==8.4.0
nbformat==5.10.3
nest-asyncio==1.6.0
numpy==1.26.4
packaging==24.0
pandas==2.2.1
pandas-flavor==0.6.0
parso==0.8.3
pillow==10.2.0
platformdirs==4.2.0
prompt-toolkit==3.0.43
psutil==5.9.8
pure-eval==0.2.2
Pygments==2.17.2
pyjanitor==0.26.0
pyparsing==3.1.2
pyreadr==0.5.0
python-dateutil==2.9.0.post0
pytz==2024.1
pywin32==306
pyzmq==25.1.2
referencing==0.34.0
rpds-py==0.18.0
scipy==1.12.0
seaborn==0.13.2
session_info==1.0.0
six==1.16.0
stack-data==0.6.3
stdlib-list==0.10.0
tornado==6.4
traitlets==5.14.2
tzdata==2024.1
UpSetPlot==0.9.0
wcwidth==0.2.13
wget==3.2
xarray==2024.2.0

Extendiendo la API de Pandas

Introducción a los valores faltantes

¿Por qué explorar y lidiar con valores faltantes?

Operaciones con valores faltantes

Conociendo datasets para manejo de datos faltantes

Ejecución de Notebooks en Deepnote con %run