Aprender otro idioma no es solo aprender diferentes palabras para las mismas cosas, sino aprender otra forma de pensar sobre las cosas
En Python, None no tiene definido operaciones con valores numericos, booleanos… Ademas al comparar los None (==) ó utilizar la funcion is, arroja True
En Numpy, los valores faltantes se representan con nan y tienen definido operaciones con valores numericos ya que es de tipo float. Por otro lado, al comparar los None arroja False es decir, que no son el mismo objeto y al compararlos mediante la funcion is arroja True es decir que un nan esta contenido en otro nana. Tener cuidado
En Pandas, existen varias maneras de representar los valores faltantes (nan, <NA>, None)
Funciones para buscar valores nulos en Pandas
nombre_df.isna()nombre_df.isnull()
Buscar valores faltantes en una columna del DataFrame
nombre_df.nombre_columna.isnull()
Gracias.:!
si al importar janitor les devuelve un error 'type'
!pip uninstall pyjanitor --yes
y vuelvan a instalarlo pero agreguenle la versión
!pip install pyjanitor==0.23.1
--
ahi vulven a importar y ya en teoría les tendría que funcionar <3
Para la versión de python 3.11 sigue dando problemas la librería pyjanitor. A mi me está sirviendo en python 3.9.7
perfecto, me funciono en la terminal, ejecutando pip install pyjanitor==0.23.1
== >>True cuando son iguales.
IS >>True cuando ambos apuntan al mismo objeto.
np.nan == np.nan # is always False! Use special numpy functions instead.
Es correcto, esa linea de código, a mi también me devolvió "True".
gracias..!
Aproveche para poner en practica lo aprendido en el curso de entornos de trabajos (cookiecutter) para crear la estructura de carpetas y trabajar mis notebooks desde VSC, no tuve problemas como en deepnote
concuerdo, vengo del mismo curso y ya es intuitivo
Las operaciones con valores faltantes se refieren a las que debes tomar al trabajar con datos que contienen valores ausentes o datos acciones faltantes. Es fundamental abordar estos valores de manera adecuada para garantizar la precisión y la integridad de tus análisis y modelos estadísticos. Aquí, explicaré en detalle algunos conceptos claves relacionados con las operaciones de datos faltantes:
1. Valores faltantes (Missing Values):
Son valores que faltan o no están disponibles en un conjunto de datos en una o más ubicaciones. Pueden ser denotados por diferentes convenciones, como "NaN" (Not a Number) en Python o "NULL" en SQL.
2. Tipos de valores faltantes:
Valores faltantes completamente al azar (MCAR):
Ocurren de manera completamente aleatoria y no hay relación entre la falta de datos y ninguna otra variable o razón.
Valores faltantes aleatorios (MAR):
La falta de datos está relacionada con otras variables observadas en el conjunto de datos, pero no con los valores faltantes en sí.
Valores faltantes no aleatorios (MNAR):
La falta de datos está relacionada con los valores faltantes en sí. Esto puede deberse a factores que no están registrados en el conjunto de datos.
3. Exploración de datos faltantes:
Antes de abordar los valores faltantes, es importante realizar un análisis exploratorio para identificar la cantidad y la ubicación de los datos faltantes en tus datos.
4. Tratamiento de valores faltantes:
Hay varias estrategias para tratar los valores faltantes:
Eliminación de filas o columnas:
Puedes eliminar filas o columnas que contengan valores faltantes si la cantidad de datos faltantes es pequeña o si no son críticos para tu análisis.
Imputación:
Implica reemplazar los valores faltantes por estimaciones basadas en otros datos. Puedes utilizar estadísticas como la media, la mediana o la moda para imputar valores faltantes, o incluso modelos de regresión para predecir valores faltantes a partir de datos existentes.
Técnicas avanzadas:
También puedes utilizar técnicas más avanzadas, como la imputación múltiple, para manejar datos faltantes de manera más sofisticada.
5. Impacto en análisis y modelos:
Es importante comprender cómo los valores faltantes pueden afectar tus análisis y modelos. Pueden introducir segundos, disminuir la precisión y afectar la interpretación de los resultados.
6. Imputación de valores faltante
La imputación es el proceso de estimar o reemplazar los valores faltantes con valores calculados.
7. Evaluación del tratamiento de datos faltantes:
Después de tratar los datos faltantes, debes evaluar cómo afecta esto a tu análisis. Esto puede incluir la comparación de resultados antes y después del tratamiento y la consideración de la solidez de tus conclusiones.
8. Documentación y transparencia:
Es fundamental documentar y comunicar claramente cómo has manejado los valores faltantes en tus análisis. Esto asegura la reproducibilidad y la comprensión de tu trabajo por parte de otros.
operaciones con valores faltantes son esenciales en el análisis de datos. Debes identificar, comprender y tratar adecuadamente los valores faltantes para garantizar la calidad y la precisión de tus análisis y modelos. La elección de la estrategia de manejo de datos faltantes dependerá del contexto específico de tus datos y del objetivo de tu análisis.
Por si alguien no entiende mucho de los presets que coloca para los gráficos:
%matplotlib inline
No es necesario colocarlo ni en Google Colab, ni en Deepnote, ni incluso Visual Studio Code, ya que estos entornos lo tienen por defecto incluido, incluso así es una buena práctica colocarlo. En Jupyter Notebooks los gráficos salen como una ventana emergente, cuando colocas este código aparecen debajo de la celda que lo ejecuta (es decir como siempre lo vemos en Colab o Deepnote)
La documentación de Seaborn indica que seaborn.set podría desaparecer en el futuro y que es un alias para seaborn.set_theme. Por lo que sería más conveniente usar set_theme. Además set_theme es un método general que acepta todo (style, font, context, etc). Dicho esto, las 2 líneas de código se pueden resumir a:
Estoy usando Python 3.10.6 y usando este requirements.txt al menos me deja iniciarpyjanitor==0.26.0missingno==0.5.2numpy==1.26.4matplotlib==3.8.3pandas==2.2.1pyreadr==0.5.0seaborn==0.13.2session-info==1.0.0upsetplot==0.9.0
Estoy apenas empezando, pero debi cambiar las versiones para poder hacerlo.
quizas a alguien mas le sirva
Estas son las librerías que se utilizan en el curso.
Janitor. Lo utilizamos para limpieza de datos.
Matplotlib. Para la visualización.
Missingno. Para visualizar valores faltantes.
Numpy y pandas. Para realizar computo científico en Python.
Pyreadr. Para leer archivos.
Seaborn. Para visualización estadística.
Session_info. Para tener un registro de las librerías usadas.
Upsetplot. Para realizar gráfico.
En resumen, las operaciones con valores faltantes son esenciales en el análisis de datos. Debes identificar, comprender y tratar adecuadamente los valores faltantes para garantizar la calidad y la precisión de tus análisis y modelos. La elección de la estrategia de manejo de datos faltantes dependerá del contexto específico de tus datos y del objetivo de tu análisis.
detesto deepnote, me quedo mil veces con jupyter.
Es curso mas nuevo en mis dos años en platzi
Da muchos errores al importar las librerias, tanto en deepnote como en vsc alguien sabe solucionar los errores?
Hola muchachos, como están ?, me sale este error al tratar de instalar las librerias:
Ejecuto este código:
ERROR:Could not install packages due to an OSError:[Errno30]Read-only file system:'WHEEL'
No sé cual podría ser el inconveniente.
¿Estás en Notebook o en la Terminal?
…
Si es en Notebook, agrega un ! antes de cada instruction. Eso debería bastar.
FelixUcTech/Py-Data-Analysis les dejo mi repo, es la carpeta número A04 correspondiente a este curso tengo enriquecida todas las notas de esta clase.
Mi momento favorito de la clase 10:15
Al inicio me aparecía un error al importar janitor, pero utilizar la siguiente versión resolvió el problema :D
pyjanitor==0.26.0```pyjanitor==0.26.0
Con esto cree mi entorno virtual
\#Crear un entorno llamado detección con python 3.9
conda create --name deteccion python=3.9
\#Para que sea más rápido lo haré con mamba
mamba create --name deteccion python=3.9
\#activar el entorno
conda activate deteccion
\#instalar las dependencias desde requirements.txt
mamba install --file requirements.txt
\#crear archivo requirements.txt si no lo tengo
mamba env export > requirements.txt
Abre un bloc de notas y guarda el siguiente contenido como "requirements.txt"