Introducción al análisis exploratorio de datos

1

¿Qué es y para qué sirve el análisis exploratorio de datos?

2

¿Cómo hacer un análisis exploratorio de datos?

3

Tipos de análisis de datos

4

Tipos de datos y análisis de variables

5

Herramientas de software para el análisis exploratorio de datos

6

Conociendo nuestros datos: palmerpenguins

7

Recolección de datos, limpieza y validación

8

Ejercicio de validación de datos

Quiz: Introducción al análisis exploratorio de datos

Análisis univariado

9

Explorando una variable categórica: conteos y proporciones

10

Estadística descriptiva aplicada: medidas de tendencia central

11

Estadística descriptiva aplicada: medidas de dispersión

12

Ejercicio de obtención de medidas de dispersión

13

Estadística descriptiva aplicada: distribuciones

14

Estadística descriptiva aplicada: funciones de densidad de probabilidad

15

Bonus: Teorema del límite central

Quiz: Análisis univariado

Análisis bivariado

16

Estableciendo relaciones: gráficos de puntos

17

Estableciendo relaciones: gráficos de violín y boxplots

18

Estableciendo relaciones: matrices de correlación

19

Limitantes de los coeficientes de correlación lineal

20

Estableciendo relaciones: análisis de regresión simple

21

Limitaciones del análisis de regresión simple

Quiz: Análisis bivariado

Análisis multivariado

22

Análisis de regresión múltiple

23

Visualización del análisis de regresión múltiple

24

Análisis de regresión logística

25

Paradoja de Simpson

26

¿Qué hacer cuando tengo muchas variables?

Quiz: Análisis multivariado

Conclusiones

27

Diversidad de gráficas al explorar datos

28

Continúa aprendiendo sobre EDA

You don't have access to this class

Keep learning! Join and start boosting your career

Aprovecha el precio especial y haz tu profesión a prueba de IA

Antes: $249

Currency
$209
Suscríbete

Termina en:

0 Días
10 Hrs
53 Min
2 Seg

Herramientas de software para el análisis exploratorio de datos

5/28
Resources

Contributions 76

Questions 13

Sort by:

Want to see more contributions, questions and answers from the community?

Me gusta deepnote, pero me consume más recursos por lo visto. Noto la pc algo lenta. Voy a seguir el curso desde mi siempre confiable Jupyter 😄

Me quedaré con Google Colab 😃

Personalmente uso Azure Databricks desde hace más de 8 meses (por mi trabajo como data scientist) , es un entorno cloud de Azure en los cuales puedes usar Databricks, la integracion de fuentes de datos de Azure Datalake (entre otros), asi como Azure Devops (“el git empresarial”), Todo esto es un entorno super super avanzado para ciencia de datos, data engineering e incluso machine learning.
Tienes soporte para Python, SQL, SCALA y R. y su caracteristica de los clusters (todo esto es de pago :c) deja hacer trabajos super super rapidos para BigData

Desde que empece con Platzi he utilizado
Colab
Spyder
Jupyter
Deepnote
RStudio
Si me preguntan cual es mejor diria que solamente es cuestion de cual te hace sentir mas comodo.

📌Hola, si deciden trabajar directamente dede VS Code, les reocimiendo que antes de instalas las librerias que nos proporciona el profe, crear un ambiente especial para trabajar en este proyecto, asi si vuelven a tener un proyecto similar donde utilizaran exacatamente las vesiones que manejan en este curso basta con inicialziarla. Para eso les sugiero que tomen el : “Curso de Entorno de Trabajo para Ciencia de Datos con Jupyter Notebooks y Anaconda” Que tambien lo imparte este profe (Increible curso) pero si ya lo tomaron o ya antes habian trabajado con Anaconda pero no recuerdan del todo el proceso de crear nuevos ambientes

  • Desde la termianal imagina que a este ambinete de traabjo le pondras “Proyectos” entonces simplemente pones el comando:
conda create -n proyectos
  • Luego de eso verás que se creo el ambiente de trabajo, apra inicialziarlo:
conda activate proyectos
  • Y Ahora asi es buen momento para insatalar las librerias que nos recoiendan:
    Empezadno por:
!pip install --upgrade pip

Seguido de:

!pip install palmerpenguins==0.1.4 numpy==1.23.4 pandas==1.5.1 seaborn==0.12.1 matplotlib==3.6.0 empiricaldist==0.6.7 statsmodels==0.13.5 scikit-learn==1.1.2 pyjanitor==0.23.1 session-info
  • Por ultimo si tu nuevo entorno de trabajo “Proyectos” no cuenta con Python simplemente ejecuta:
conda install python=3.9

Super Cool 🎉 Todo tu entorno de trabajo segmentado en un solo lugar. Si simplemente quieres salir de este entorno de trabajo y volver al panorama general donde quizá tengas alguna otra verison de Python como la 3.5, simplemente ejecuta en la terminal:

conda deactivate

Listo, espero y les funcione esta info ⚡

yo utilizo VS Code con la extensión de Jupyter notebooks y ligados a un repositorio que controlo desde la misma terminal de VS Code, después de intentar muchas herramientas es lo que me ha funcionado mejor a mi tanto para estudiar cómo para mi entorno profesional, en el entorno profesional si necesito más recursos me conecto a un servidor de Jupyter Hub

Yo soy Team Deepnote aunque me gusta mucho usar Google Colab. Las dos me gustan mucho y me son muy sencillas de usar.

Yo particularmente uso miniconda. Pude instalarlo en la notebook del trabajo sin precisar permiso de administrador. Todos los archivos de datos los tengo locales, creo mis ambientes (que reconoce vscode) y corro un jupyter notebook en el explorador (me lo abre en la carpeta actual). Creo todos aportan algo y no encuentro alguna caracteristica especial que haga inclinar la balance en favor de alguno, pero miniconda siempre lo puedo usar. Incluso con dataframes muy grandes vs me pide cambiar la configuracion para visualizar datos grandes y con minoconda no. Otro tema para mi importante es tener los datos locales. En un reto de platzi el analisis inicial, investigacion y pruebas lo hice local con miniconda y despues subi el notebook a deepnote donde termine el proyecto con las visualizaciones.

A la pregunta sobre otras herramientas de análisis exploratorio de datos, en mi maestría utilicé Jamovi y Jasp. Ambos son interfaces gratuitas point and click que utilizan el lenguaje R y su librería ggplot2 para sacar gráficas. Medidas de tendencia central, ANOVA, correlaciones, AFE, regresiones se pueden hacer fácilmente, siendo técnicas que son muy antiguas pero muy usadas en ciencias sociales. Igual se pueden utilizar para un vistazo rápido de los datos, siempre que estos estén en formato CSV utf-8.

Permite también hacer un rudimentario análisis de clústers y de árbol de decisión.

Hay muchas herramientas de software disponibles para el análisis exploratorio de datos, aquí hay algunas de las más populares:

R:

  • Es un lenguaje de programación y un entorno de desarrollo para estadísticas y análisis de datos.
  • R tiene una gran comunidad de usuarios y una amplia gama de paquetes para el análisis de datos, incluyendo ggplot2 para la visualización de datos.

Python:

  • Es un lenguaje de programación versátil y popular que también se utiliza para el análisis de datos.
  • Python tiene paquetes como Pandas, Numpy y Matplotlib para el análisis y visualización de datos.

Otras herramientas para el análisis exploratorio de datos

SAS:

  • Es un software de análisis de datos comercial que ofrece una amplia gama de funciones de análisis y visualización de datos.
  • SAS es ampliamente utilizado en empresas y organizaciones gubernamentales.

SPSS:

  • Es un software de análisis de datos que se utiliza principalmente en investigación social y psicológica.
  • SPSS ofrece una amplia gama de funciones estadísticas y de visualización de datos.

Tableau:

  • Es un software de visualización de datos que permite crear visualizaciones interactivas y explicativas a partir de grandes conjuntos de datos.

  • Tableau es ampliamente utilizado en el sector empresarial para la exploración y visualización de datos.

Estas son solo algunas de las herramientas disponibles, y la mejor herramienta para un análisis exploratorio de datos depende de la naturaleza de los datos y los objetivos del análisis. Muchas herramientas también se integran con otras para brindar una experiencia de análisis completa.

En colab:

 
!pip install empiricaldist

 
!pip install janitor

 
!pip install pyjanitor

 
!pip install palmerpenguins

 
!pip install session-info

 
import empiricaldist
import janitor as jn
import matplotlib.pyplot as plt
import numpy as np
import palmerpenguins
import pandas as pd
import scipy.stats
import seaborn as sns
import sklearn.metrics
import statsmodels.api as sm
import statsmodels.formula.api as smf
import statsmodels.stats as ss
import session_info

Si alguien trabaja en su computador con anaconda:

conda env export --from-history                                                                                                                                                                           ✔  EDA  
name: EDA
channels:
  - conda-forge
  - defaults
dependencies:
  - numpy
  - ipykernel
  - pandas
  - matplotlib
  - seaborn
  - empiricaldist
  - pyjanitor

y el palmerpeguins si toco instalarlo con pip

pip install palmerpenguins   

Otra herramienta buena para el análisis exploratorio de datos es el software SPSS de IBM

stata me sorprende que nadie lo haya mencionado junto a spss y R son los que se enseñan en las universidades para materias de ciencias sociales.

Les dejo mi repositorio con mis notas, donde enriquecí cada tema, saludos. [FelixUcTech/Py-Data-Analysis](https://github.com/FelixUcTech/Py-Data-Analysis) Carpeta A02
Hola buenos días, no encuentro los recursos de la clase donde la puedo obtener.

yo tambien uso herramientas como IDEA, alteryx o Knime

Podría incluir Databricks y hay en versión gratuita.

https://community.cloud.databricks.com/

En mi experiencia realizando Análisis de datos he tenido la oportunidad de utilizar a parte de las nombradas Orange, la cual viene entre las herramientas opcionales de Anaconda.

Esta permite aplicar a diferentes fuentes de datos múltiples análisis mediante un sistema de flujograma muy intuitivo.

Si quieren saber mas aquí les dejo un enlace a su sitio web:
https://orangedatamining.com/

Cordial saludo, considero importante explicar la configuración de la plantilla. Es decir, haber hecho la demostración en tiempo real para aprender cómo se configura la plantilla inicial.
Actualmente usamos Spyder
MATLAB es muy robusta y es muy poderosa su interfaz gráfica.
Ey que bien que no dice click aqui. si no en el boton suparior derechi.
#### **INSTALAR LIBRERÍAS NECESARIAS** **CÓDIGO:** pip install --upgrade pip pip install palmerpenguins numpy pandas seaborn matplotlib empiricaldist statsmodels sklearn pyjanitor **EXPLICACIÓN:** * **pip install --upgrade pip**: Actualiza el gestor de paquetes pip a la última versión. * **pip install**: Instala las librerías de Python listadas: * **palmerpenguins**: Dataset para análisis estadístico y aprendizaje automático. * **numpy**: Biblioteca para cálculos numéricos. * **pandas**: Para manipulación y análisis de datos. * **seaborn**: Visualización estadística de datos. * **matplotlib**: Creación de gráficos estáticos, animados e interactivos. * **empiricaldist**: Manejo de distribuciones empíricas de probabilidad. * **statsmodels**: Modelos estadísticos y herramientas. * **sklearn**: Biblioteca de aprendizaje automático. * **pyjanitor**: Mejora la limpieza y manipulación de datos. #### **IMPORTAR LIBRERÍAS** **CÓDIGO:** import empiricaldist import janitor import matplotlib.pyplot as plt import numpy as np import pandas as pd import seaborn as sns import scipy.stats import sklearn.metrics import statsmodels.api as sm import statsmodels.formula.api as smf import statsmodels.stats as ss **EXPLICACIÓN:**Este código importa las librerías instaladas anteriormente y asigna alias para facilitar su uso: * **empiricaldist**: Operaciones con distribuciones empíricas. * **janitor**: Extiende Pandas para mejorar la limpieza de datos. * **matplotlib.pyplot**: Funciones para graficar. * **numpy**: Operaciones numéricas, importada como np. * **pandas**: Librería de manipulación de datos, importada como pd. * **seaborn**: Gráficos estadísticos atractivos, importada como sns. * **scipy.stats**: Funciones estadísticas. * **sklearn.metrics**: Métricas para evaluar modelos de aprendizaje automático. * **statsmodels.api**, **statsmodels.formula.api** y **statsmodels.stats**: Para análisis, modelado estadístico y pruebas de hipótesis. #### **CONFIGURAR APARIENCIA GENERAL DE LOS GRÁFICOS** **CÓDIGO:** %matplotlib inline sns.set\_style(style='whitegrid') sns.set\_context(context='notebook') plt.rcParams\['figure.figsize'] = (11, 9.4) penguin\_color = {     'Adelie': '#ff6622ff',     'Gentoo': '#0f7173ff',     'Chinstrap': '#c65d6cff' } **EXPLICACIÓN:** * **%matplotlib inline**: Asegura que los gráficos se muestren en línea en Jupyter Notebooks. * **sns.set\_style('whitegrid')**: Configura el estilo de fondo de los gráficos con una cuadrícula blanca. * **sns.set\_context('notebook')**: Ajusta la escala y el contexto de los gráficos para notebooks. * **plt.rcParams\['figure.figsize'] = (11, 9.4)**: Establece el tamaño predeterminado de las figuras a 11 pulgadas de ancho y 9.4 de alto. * **penguin\_color**: Diccionario que define los colores para tres especies de pingüinos: Adelie, Gentoo y Chinstrap.
### **EJEMPLOS DE HERRAMIENTAS DE ANÁLISIS DE DATOS** A continuación, se mencionan algunas herramientas populares y sus características principales: 1. **Jupyter Notebook** * Popularidad: Se destaca por combinar código y texto, facilitando la creación de narrativas complejas. * Uso: Permite ejecutar fragmentos de código en diferentes órdenes, ideal para prototipos y exploraciones. 2. **R Studio** * Enfoque: Específico para el lenguaje de programación R. * Ventajas: Control completo de variables, gráficas y análisis en una interfaz integrada y sencilla. 3. **Azure Machine Learning** * Especialización: Machine Learning. * Funciones: Trabajar con notebooks y crear pipelines para experimentar y resolver problemas. 4. **Amazon SageMaker** * Característica: Integra Jupyter Notebook y R Studio para ampliar sus capacidades. * Adaptabilidad: Paga solo por los recursos que usas, ajustándose a tus necesidades. 5. **DeepNote** * Ventaja: Colaboración sencilla y edición de código en tiempo real. * Elección del curso: Es la herramienta principal que usaremos en este curso debido a su facilidad de uso y enfoque colaborativo. ### **POR QUÉ ELEGIMOS DEEPNOTE** DeepNote se ha vuelto muy popular porque facilita el trabajo colaborativo y no requiere configuraciones complejas. Puedes conectarte a internet, clonar un notebook y empezar a trabajar de inmediato. #### **PASOS PARA EMPEZAR CON DEEPNOTE:** 1. Accede al enlace proporcionado en el curso. 2. Haz clic en **"View Source"** para ver el código utilizado. 3. Duplica el proyecto haciendo clic en **"Duplicate"**. Selecciona un espacio de trabajo (privado o público) y confirma. 4. Una vez duplicado, espera a que DeepNote cargue e instale automáticamente las librerías necesarias. 5. Comienza a ejecutar el código con **Command + Enter** o **Shift + Enter**.
He trabajado con googleCollab, VisualStudio, jupyter Notebook y por ahora me quedó con Deepnote, me parece que renderiza de una forma más amigable con el usuario ayudandole a tener una mejor comprensión inicial de la información.
Puede ser impopular lo que voy a decir, pero he utilizado hojas de cálculo para el Análisis Exploratorio de Datos (Excel, GoogleSpreadSheets, etc). Son bastante sencillas de utilizar y un poco más intuitivo para una persona que no tiene un background de STEM, sin embargo, se quedan cortas en algunos aspectos y por eso importante también saber de esta herramienta que nos están ensañando en el curso.
Dónde encuentro el notebook del profe que tiene los campos en blanco? porque la notebook que duplique ya tiene todo y me gusta ir haciendo lo que hace el profe para interiorizar mejor las cosas y no solo mirar la clase
Sencillamente imposible seguir la clase en deepnote, es demasiado lento, lo voy a intentar en Google Colab
mi repositorio de Git Hub <https://github.com/DensLopez/Analisis_Exploratorio> dedicado a este curso!
Recomiendo revisar HEX otra alternativa similar.
quise usar deepnote antes pero no me dejaba ahora que puedo lo voy a utilizar para seguir aprendiendo, antes usaba Vs code todo en ubuntu
En mi caso personal, usé google colab básicamente porque fue la herramienta que nos indicaron en la universidad que íbamos a usar para el curso de análisis de datos
Bueno y aquí voy yo...soy una persona que toda la vida he trabajado con Datos, inicié con mis primeros pinitos en Q.PRO (no soy tan viejita) pero ese fué mi primer contacto con lo que era hojas de cálculo y empieza mi pasión por los DATOS, ahora conociendo PLATZI observo como si estuviese en un Telescopio el UNIVERSO tan diverso de aprendizaje. No Conozco Deepnote y estoy muy emocionada por conocer este mundo desconocido para mí.

Con respecto al uso y desarrollo del curso. Yo conozco y utilizo los entornos de google colab porque es mas estetico, sencillo y va rapido. Tambien uso en algunas ocaciones el VSCODE y jupyter notebook para configurar sus elementos sin que estos me generen conflictos. El problema es configurar su red local.

Muy interesante la herramienta Deepnote, se ve muy bien estéticamente, he estado trabajado con Jupyter y Jupyter Lab en mi pc y Google Colab para trabajo colaborativo en la nube.

Creo que era mejor separa por clase este archivo

Buenas tardes, al ejecutar el programa me da error en esta instrucción: `!pip install --upgrade pip` `Me podría alguien ayudar a solucionarlo. Gracias`

DeepNote es hermoso, amigable e intuitivo, sin embargo para practicar lo único bueno que tiene es su interfaz, porque sino pagas es bien lento si analizas un data set pesado.

Para mi es mejor usar vscode, ya que me da muchísima libertad a realizar muchas cosas.

Otras herramientas que se podrían utilizar son las enfocadas en la visualización de datos como: * Tableau * Microsoft Power Bi
Hola solo he estado introduciéndome en la herramienta de WEKA, realizando los pequeños ejercicios sugeridos dentro del mismo tutorial.

no pude cargar deepnote. Tocó seguir en Jupyter

La sección de recursos me sale vacía, alguna ayuda porfavor
con la actualizacón de la aplicación de platzi (2023-09-25) ya no se ven los elementos en los recusrsos, como: notebooks, archivos fuentes, links de interes, etc

En mi anterior trabajo utilizamos HEX, y es buenisima, es como un notebook de SQL y python con capacidades de BI.
Muy recomendado

Google colab

Yo por ejemplo, para estudiar colab, para mis proyectos más pesados jupyterlab. Voy a seguir aprendiendo con Deepnote y aprendo otra herramienta.

En mi trabajo uso mucho Knime, porque es una herramienta open source y permite hacer cargue, transformación, analisis y modelación de forma muy visual y low-code. Tiene muy buenas integraciones con otras plataformas para minería de datos, pero como desventaja es que depende de la capacidad de memoria local que tengas. De resto es super.

En lo personal la herramienta que mas me ha gustado hasta el momento es google collab.

Me gusta usar jupyter notebooks en VScode porque estoy mas familiarizado con ese IDE. Me parece ligero y versatil

A lo largo de mi corta carrera he utilizado VS code, colab, deepnote, todos son muy similares, y ya dependería de el requerimiento y el gusto individual, por mi parte utilizaría VS code por la personalización que le puedo dar con sus extensiones.

Como físico, durante la carrera use mucho Matlab, ahora que estoy conociendo el mundo de python, un editor parecido a Matlab es Spyder IDE, en lo personal me gusta mucho. Como mencione, es similar a Matlab.

Este es mi archivo deepnote con la programacion que ha hecho el profe en la clase:
click aqui

Para mi Jupyter sigue siendo mi mejor opción. Es mas rapido que las demas. Solo en casos especificos trabajaria en la nube.

Como estoy haciendo la carrera de Data Scientist, ya manejo Colab, Kaggle, Jupiter, Vscode, Deepnote, cada plataforma tiene sus ventajas, ya depende de tus preferencias cual escojas.

Me quedaré con mi visual 😄

Yo lo utilizo desde un entorno virtual utilizando la terminal de Ubuntu, lo abro en vs code y creo ahi un jupyter notebook

Yo he utilizado
Google Colab
Jupyter

Y concuerdo con la persona de aquí, “si me preguntan cual es mejor diria que solamente es cuestion de cual te hace sentir mas comodo”

Deepnote es mi weapon of choice, pero recientemente me encuentro trabajando local con VSCode. También, ya vi que en un curso futuro verán lo de los pips, yo uso Conda para mi ambientes virtuales y para instalar mis librerias. Como aquí usan pip, tuve la duda si podía usarlo con Conda, le pregunté a Bing y esto me dijo, espero les sirva:

Yes, you can use pip in a conda environment. However, it is recommended to use conda to install packages whenever possible to avoid conflicts between packages. If you need to use pip, it is recommended to install it within a conda environment to avoid conflicts with the system Python installation. You can do this by creating a new conda environment and then installing pip within that environment. You can then use pip to install packages within that environment12

If you have already installed packages using pip and then try to install the same packages using conda, you may run into conflicts between the two package managers. In this case, it is recommended to use pip to uninstall the packages and then use conda to install them1

Yo uso el IDE PyCharm 2018.2.1 de JetBrains , a mi parecer creo que es una herramienta muy poderosa y de calidad profesional que nos obliga a tener bastante conocimiento de lo que hacemos y de lo que queremos hacer, recuerdo que esto es solo mi juicio y por lo que he estudiado…
Gracias hasta luego…

Power Bi

Hola,

Aparte de las herramientas de codigo. Para un analisis de datos tambien se podria usar tableau

En los cursos de platzi he aprendido a usar Colab y también Deepnote

Alguna vez para un proyecto tuve que hacer EDA de datos para el area de la salud. En ese momento trabajamos con Google Colab, también he utilizado mucho Jupyter para pruebas y lectura de datos, hoy voy a probar Deepnote

Por lo regular Colab suele ser también una gran herramienta para trabajar sobre cuadernos jupyter, que, al enlazar con drive, permite compartir (en carpetas) reportes y resultados a quienes no tienen un perfil tan técnico.

Normalmente uso jupyter, me siento bien trabajando con esa, me gusta implementar las cosas poco a poco, tengo todo ordenado dentro de mi computador y las herramientas a la mano. Cuando ya tengo el proyecto listo lo paso a vs code, hasta ahora trabajo solo, pero si me gustaría explorar herramientas colaborativas

Yo uso las siguientes herramientas:
VS Code
Jupyter Notebook
Google Colab
Spyder
Pycharm

Tengo más experiencia utilizando Google Colab y Deep Note. Ambas me parecen ambas excelentes herramientas. Colab está especializado a trabajar a nivel de archivo, en cambio, Deep Note trabaja a nivel de proyecto.

Deepnote es bastante practico porque no lo tienes que configurar. El problema es que depende de la conexion a internet y tiene un uso limitado de horas. Jupyter notebook debe configurarse de manera local. Puede configurarse con VS code y su ventaja es que puedes trabajarlo de manera local en tu computador.

me gusta mas el google colab lo encuentro mas estetico y es muy parecido a el deepnote.

Estas herramientas son el EDC de cualquier profesional en análisis, ciencia, ingeniería de datos o en machine learning.

De herramientas generalmente uso el jupyter-lab, aparte del plugin de VSCode para jupyter y en su momento usaba Spyder-IDE

A mi me gusta google colab, me parece más facil y sencillo de usar y los shortcuts son más intiuitivos. Además, me permite guardar todo en google drive, es interesante para organizar lo que he aprendido hasta ahora en carpetas del drive.

Uso VSCode por su facilidad de personalización por medio de extensiones y complementos que me vuelven más productivo, sin embargo si el computador está lento, afecta por consiguiente en mis códigos aunque solo ha sido en pocas ocasiones.

Desde que aprendí a programar he utilizado R, ya posteriormente comencé con RStudio, y la verdad este último me ha llevado a otro nivel.

Uso generalmente vscode con anaconda, me ayuda mucho cuando voy a crear scripts externos y tiene su propio visualizador de notebooks.