Me gusta deepnote, pero me consume más recursos por lo visto. Noto la pc algo lenta. Voy a seguir el curso desde mi siempre confiable Jupyter 😄
Introducción al análisis exploratorio de datos
¿Qué es y para qué sirve el análisis exploratorio de datos?
¿Cómo hacer un análisis exploratorio de datos?
Tipos de análisis de datos
Tipos de datos y análisis de variables
Herramientas de software para el análisis exploratorio de datos
Conociendo nuestros datos: palmerpenguins
Recolección de datos, limpieza y validación
Ejercicio de validación de datos
Quiz: Introducción al análisis exploratorio de datos
Análisis univariado
Explorando una variable categórica: conteos y proporciones
Estadística descriptiva aplicada: medidas de tendencia central
Estadística descriptiva aplicada: medidas de dispersión
Ejercicio de obtención de medidas de dispersión
Estadística descriptiva aplicada: distribuciones
Estadística descriptiva aplicada: funciones de densidad de probabilidad
Bonus: Teorema del límite central
Quiz: Análisis univariado
Análisis bivariado
Estableciendo relaciones: gráficos de puntos
Estableciendo relaciones: gráficos de violín y boxplots
Estableciendo relaciones: matrices de correlación
Limitantes de los coeficientes de correlación lineal
Estableciendo relaciones: análisis de regresión simple
Limitaciones del análisis de regresión simple
Quiz: Análisis bivariado
Análisis multivariado
Análisis de regresión múltiple
Visualización del análisis de regresión múltiple
Análisis de regresión logística
Paradoja de Simpson
¿Qué hacer cuando tengo muchas variables?
Quiz: Análisis multivariado
Conclusiones
Diversidad de gráficas al explorar datos
Continúa aprendiendo sobre EDA
You don't have access to this class
Keep learning! Join and start boosting your career
Contributions 76
Questions 13
Me gusta deepnote, pero me consume más recursos por lo visto. Noto la pc algo lenta. Voy a seguir el curso desde mi siempre confiable Jupyter 😄
Me quedaré con Google Colab 😃
Personalmente uso Azure Databricks desde hace más de 8 meses (por mi trabajo como data scientist) , es un entorno cloud de Azure en los cuales puedes usar Databricks, la integracion de fuentes de datos de Azure Datalake (entre otros), asi como Azure Devops (“el git empresarial”), Todo esto es un entorno super super avanzado para ciencia de datos, data engineering e incluso machine learning.
Tienes soporte para Python, SQL, SCALA y R. y su caracteristica de los clusters (todo esto es de pago :c) deja hacer trabajos super super rapidos para BigData
Desde que empece con Platzi he utilizado
Colab
Spyder
Jupyter
Deepnote
RStudio
Si me preguntan cual es mejor diria que solamente es cuestion de cual te hace sentir mas comodo.
📌Hola, si deciden trabajar directamente dede VS Code, les reocimiendo que antes de instalas las librerias que nos proporciona el profe, crear un ambiente especial para trabajar en este proyecto, asi si vuelven a tener un proyecto similar donde utilizaran exacatamente las vesiones que manejan en este curso basta con inicialziarla. Para eso les sugiero que tomen el : “Curso de Entorno de Trabajo para Ciencia de Datos con Jupyter Notebooks y Anaconda” Que tambien lo imparte este profe (Increible curso) pero si ya lo tomaron o ya antes habian trabajado con Anaconda pero no recuerdan del todo el proceso de crear nuevos ambientes
conda create -n proyectos
conda activate proyectos
!pip install --upgrade pip
Seguido de:
!pip install palmerpenguins==0.1.4 numpy==1.23.4 pandas==1.5.1 seaborn==0.12.1 matplotlib==3.6.0 empiricaldist==0.6.7 statsmodels==0.13.5 scikit-learn==1.1.2 pyjanitor==0.23.1 session-info
conda install python=3.9
Super Cool 🎉 Todo tu entorno de trabajo segmentado en un solo lugar. Si simplemente quieres salir de este entorno de trabajo y volver al panorama general donde quizá tengas alguna otra verison de Python como la 3.5, simplemente ejecuta en la terminal:
conda deactivate
Listo, espero y les funcione esta info ⚡
yo utilizo VS Code con la extensión de Jupyter notebooks y ligados a un repositorio que controlo desde la misma terminal de VS Code, después de intentar muchas herramientas es lo que me ha funcionado mejor a mi tanto para estudiar cómo para mi entorno profesional, en el entorno profesional si necesito más recursos me conecto a un servidor de Jupyter Hub
Yo soy Team Deepnote aunque me gusta mucho usar Google Colab. Las dos me gustan mucho y me son muy sencillas de usar.
Yo particularmente uso miniconda. Pude instalarlo en la notebook del trabajo sin precisar permiso de administrador. Todos los archivos de datos los tengo locales, creo mis ambientes (que reconoce vscode) y corro un jupyter notebook en el explorador (me lo abre en la carpeta actual). Creo todos aportan algo y no encuentro alguna caracteristica especial que haga inclinar la balance en favor de alguno, pero miniconda siempre lo puedo usar. Incluso con dataframes muy grandes vs me pide cambiar la configuracion para visualizar datos grandes y con minoconda no. Otro tema para mi importante es tener los datos locales. En un reto de platzi el analisis inicial, investigacion y pruebas lo hice local con miniconda y despues subi el notebook a deepnote donde termine el proyecto con las visualizaciones.
A la pregunta sobre otras herramientas de análisis exploratorio de datos, en mi maestría utilicé Jamovi y Jasp. Ambos son interfaces gratuitas point and click que utilizan el lenguaje R y su librería ggplot2 para sacar gráficas. Medidas de tendencia central, ANOVA, correlaciones, AFE, regresiones se pueden hacer fácilmente, siendo técnicas que son muy antiguas pero muy usadas en ciencias sociales. Igual se pueden utilizar para un vistazo rápido de los datos, siempre que estos estén en formato CSV utf-8.
Permite también hacer un rudimentario análisis de clústers y de árbol de decisión.
Hay muchas herramientas de software disponibles para el análisis exploratorio de datos, aquí hay algunas de las más populares:
Otras herramientas para el análisis exploratorio de datos
Es un software de visualización de datos que permite crear visualizaciones interactivas y explicativas a partir de grandes conjuntos de datos.
Tableau es ampliamente utilizado en el sector empresarial para la exploración y visualización de datos.
Estas son solo algunas de las herramientas disponibles, y la mejor herramienta para un análisis exploratorio de datos depende de la naturaleza de los datos y los objetivos del análisis. Muchas herramientas también se integran con otras para brindar una experiencia de análisis completa.
!pip install empiricaldist
!pip install janitor
!pip install pyjanitor
!pip install palmerpenguins
!pip install session-info
import empiricaldist
import janitor as jn
import matplotlib.pyplot as plt
import numpy as np
import palmerpenguins
import pandas as pd
import scipy.stats
import seaborn as sns
import sklearn.metrics
import statsmodels.api as sm
import statsmodels.formula.api as smf
import statsmodels.stats as ss
import session_info
Si alguien trabaja en su computador con anaconda:
conda env export --from-history ✔ EDA
name: EDA
channels:
- conda-forge
- defaults
dependencies:
- numpy
- ipykernel
- pandas
- matplotlib
- seaborn
- empiricaldist
- pyjanitor
y el palmerpeguins si toco instalarlo con pip
pip install palmerpenguins
Otra herramienta buena para el análisis exploratorio de datos es el software SPSS de IBM
stata me sorprende que nadie lo haya mencionado junto a spss y R son los que se enseñan en las universidades para materias de ciencias sociales.
yo tambien uso herramientas como IDEA, alteryx o Knime
Podría incluir Databricks y hay en versión gratuita.
En mi experiencia realizando Análisis de datos he tenido la oportunidad de utilizar a parte de las nombradas Orange, la cual viene entre las herramientas opcionales de Anaconda.
Esta permite aplicar a diferentes fuentes de datos múltiples análisis mediante un sistema de flujograma muy intuitivo.
Si quieren saber mas aquí les dejo un enlace a su sitio web:
https://orangedatamining.com/
Con respecto al uso y desarrollo del curso. Yo conozco y utilizo los entornos de google colab porque es mas estetico, sencillo y va rapido. Tambien uso en algunas ocaciones el VSCODE y jupyter notebook para configurar sus elementos sin que estos me generen conflictos. El problema es configurar su red local.
Creo que era mejor separa por clase este archivo
DeepNote es hermoso, amigable e intuitivo, sin embargo para practicar lo único bueno que tiene es su interfaz, porque sino pagas es bien lento si analizas un data set pesado.
Para mi es mejor usar vscode, ya que me da muchísima libertad a realizar muchas cosas.
no pude cargar deepnote. Tocó seguir en Jupyter
En mi anterior trabajo utilizamos HEX, y es buenisima, es como un notebook de SQL y python con capacidades de BI.
Muy recomendado
Google colab
Yo por ejemplo, para estudiar colab, para mis proyectos más pesados jupyterlab. Voy a seguir aprendiendo con Deepnote y aprendo otra herramienta.
En mi trabajo uso mucho Knime, porque es una herramienta open source y permite hacer cargue, transformación, analisis y modelación de forma muy visual y low-code. Tiene muy buenas integraciones con otras plataformas para minería de datos, pero como desventaja es que depende de la capacidad de memoria local que tengas. De resto es super.
En lo personal la herramienta que mas me ha gustado hasta el momento es google collab.
Me gusta usar jupyter notebooks en VScode porque estoy mas familiarizado con ese IDE. Me parece ligero y versatil
A lo largo de mi corta carrera he utilizado VS code, colab, deepnote, todos son muy similares, y ya dependería de el requerimiento y el gusto individual, por mi parte utilizaría VS code por la personalización que le puedo dar con sus extensiones.
Como físico, durante la carrera use mucho Matlab, ahora que estoy conociendo el mundo de python, un editor parecido a Matlab es Spyder IDE, en lo personal me gusta mucho. Como mencione, es similar a Matlab.
Este es mi archivo deepnote con la programacion que ha hecho el profe en la clase:
click aqui
Para mi Jupyter sigue siendo mi mejor opción. Es mas rapido que las demas. Solo en casos especificos trabajaria en la nube.
Como estoy haciendo la carrera de Data Scientist, ya manejo Colab, Kaggle, Jupiter, Vscode, Deepnote, cada plataforma tiene sus ventajas, ya depende de tus preferencias cual escojas.
Me quedaré con mi visual 😄
Yo lo utilizo desde un entorno virtual utilizando la terminal de Ubuntu, lo abro en vs code y creo ahi un jupyter notebook
Yo he utilizado
Google Colab
Jupyter
Y concuerdo con la persona de aquí, “si me preguntan cual es mejor diria que solamente es cuestion de cual te hace sentir mas comodo”
Deepnote es mi weapon of choice, pero recientemente me encuentro trabajando local con VSCode. También, ya vi que en un curso futuro verán lo de los pips, yo uso Conda para mi ambientes virtuales y para instalar mis librerias. Como aquí usan pip, tuve la duda si podía usarlo con Conda, le pregunté a Bing y esto me dijo, espero les sirva:
Yes, you can use pip in a conda environment. However, it is recommended to use conda to install packages whenever possible to avoid conflicts between packages. If you need to use pip, it is recommended to install it within a conda environment to avoid conflicts with the system Python installation. You can do this by creating a new conda environment and then installing pip within that environment. You can then use pip to install packages within that environment12
If you have already installed packages using pip and then try to install the same packages using conda, you may run into conflicts between the two package managers. In this case, it is recommended to use pip to uninstall the packages and then use conda to install them1
Yo uso el IDE PyCharm 2018.2.1 de JetBrains , a mi parecer creo que es una herramienta muy poderosa y de calidad profesional que nos obliga a tener bastante conocimiento de lo que hacemos y de lo que queremos hacer, recuerdo que esto es solo mi juicio y por lo que he estudiado…
Gracias hasta luego…
Power Bi
Hola,
Aparte de las herramientas de codigo. Para un analisis de datos tambien se podria usar tableau
En los cursos de platzi he aprendido a usar Colab y también Deepnote
Alguna vez para un proyecto tuve que hacer EDA de datos para el area de la salud. En ese momento trabajamos con Google Colab, también he utilizado mucho Jupyter para pruebas y lectura de datos, hoy voy a probar Deepnote
Por lo regular Colab suele ser también una gran herramienta para trabajar sobre cuadernos jupyter, que, al enlazar con drive, permite compartir (en carpetas) reportes y resultados a quienes no tienen un perfil tan técnico.
Normalmente uso jupyter, me siento bien trabajando con esa, me gusta implementar las cosas poco a poco, tengo todo ordenado dentro de mi computador y las herramientas a la mano. Cuando ya tengo el proyecto listo lo paso a vs code, hasta ahora trabajo solo, pero si me gustaría explorar herramientas colaborativas
Yo uso las siguientes herramientas:
VS Code
Jupyter Notebook
Google Colab
Spyder
Pycharm
Tengo más experiencia utilizando Google Colab y Deep Note. Ambas me parecen ambas excelentes herramientas. Colab está especializado a trabajar a nivel de archivo, en cambio, Deep Note trabaja a nivel de proyecto.
Deepnote es bastante practico porque no lo tienes que configurar. El problema es que depende de la conexion a internet y tiene un uso limitado de horas. Jupyter notebook debe configurarse de manera local. Puede configurarse con VS code y su ventaja es que puedes trabajarlo de manera local en tu computador.
me gusta mas el google colab lo encuentro mas estetico y es muy parecido a el deepnote.
Estas herramientas son el EDC de cualquier profesional en análisis, ciencia, ingeniería de datos o en machine learning.
De herramientas generalmente uso el jupyter-lab, aparte del plugin de VSCode para jupyter y en su momento usaba Spyder-IDE
A mi me gusta google colab, me parece más facil y sencillo de usar y los shortcuts son más intiuitivos. Además, me permite guardar todo en google drive, es interesante para organizar lo que he aprendido hasta ahora en carpetas del drive.
Uso VSCode por su facilidad de personalización por medio de extensiones y complementos que me vuelven más productivo, sin embargo si el computador está lento, afecta por consiguiente en mis códigos aunque solo ha sido en pocas ocasiones.
Desde que aprendí a programar he utilizado R, ya posteriormente comencé con RStudio, y la verdad este último me ha llevado a otro nivel.
Uso generalmente vscode con anaconda, me ayuda mucho cuando voy a crear scripts externos y tiene su propio visualizador de notebooks.
Want to see more contributions, questions and answers from the community?