Introducción al análisis exploratorio de datos

1

¿Qué es y para qué sirve el análisis exploratorio de datos?

2

¿Cómo hacer un análisis exploratorio de datos?

3

Tipos de análisis de datos

4

Tipos de datos y análisis de variables

5

Herramientas de software para el análisis exploratorio de datos

6

Conociendo nuestros datos: palmerpenguins

7

Recolección de datos, limpieza y validación

8

Ejercicio de validación de datos

Quiz: Introducción al análisis exploratorio de datos

Análisis univariado

9

Explorando una variable categórica: conteos y proporciones

10

Estadística descriptiva aplicada: medidas de tendencia central

11

Estadística descriptiva aplicada: medidas de dispersión

12

Ejercicio de obtención de medidas de dispersión

13

Estadística descriptiva aplicada: distribuciones

14

Estadística descriptiva aplicada: funciones de densidad de probabilidad

15

Bonus: Teorema del límite central

Quiz: Análisis univariado

Análisis bivariado

16

Estableciendo relaciones: gráficos de puntos

17

Estableciendo relaciones: gráficos de violín y boxplots

18

Estableciendo relaciones: matrices de correlación

19

Limitantes de los coeficientes de correlación lineal

20

Estableciendo relaciones: análisis de regresión simple

21

Limitaciones del análisis de regresión simple

Quiz: Análisis bivariado

Análisis multivariado

22

Análisis de regresión múltiple

23

Visualización del análisis de regresión múltiple

24

Análisis de regresión logística

25

Paradoja de Simpson

26

¿Qué hacer cuando tengo muchas variables?

Quiz: Análisis multivariado

Conclusiones

27

Diversidad de gráficas al explorar datos

28

Continúa aprendiendo sobre EDA

No tienes acceso a esta clase

¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera

Conociendo nuestros datos: palmerpenguins

6/28
Recursos

Aportes 34

Preguntas 11

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad?

En kaggle.com hay abuntante cantidad de datasets para practicar 🚀🔥

Algunas preguntas para analizar el dataset:

  • ¿Cuál es la vida promedio de un pingüino?
  • ¿Viven más las hembras o los machos?
  • ¿La altura es un rasgo distintivo del sexo?
  • ¿Cuál es la proporción altura/ancho de los picos?
  • ¿Correlación peso/sexo?
  • ¿Correlación especie pico?

😄 Algo curioso que encontré, es que los pingüinos no poseen dimorfismo sexual y por ello es difícil distinguir a los machos de las hembras.

  • Para diferenciarlos normalmente se fijan en la altura, aunque algunas especies se pueden diferenciar por los sonidos que emiten.
  • Viven entre 15 y 20 años en la naturaleza.
  • Existen 18 tipos de pingüinos en el mundo.
  • Mantienen una temperatura cororal de 40 grados centígrados.
  • Son monógamos.
  • Los pingüinos pueden robar los huevos de otras parejas.
  • Viven en colonias.
  • Pueden saltar muy alto (hasta 2 metros) al salir del agua.
  • Tienen una muda de su plumaje 1 vez al año en primavera.
  • Pueden beber agua salada, gracias a un órgano que elimina el exceso de sal.

Estos datos son generalizados y no aplican a todas las especies de pinguinos.

Usted es el mejor prefesor , desearia que diera un par de cursos que vi antes de esta misma ruta porque en serio me encanta que tenga todo preparadito y se nota que tiene experiencia

Tips en Deepnote

  • Ctrl + Enter para correr el codigo en windows
  • Command + Enter para correr el codigo en Mac

Observación

Por el momento estamos realizando el proceso ETL, este capítulo hicimos la Extracción de los datos de distintas maneras.

Cuando haces directamente el drag and drop del archivo .csv en Deepnote automáticamente empieza a trabajar en lenguaje SQL, esto te permite hacer Querys directamente. Por ejemplo, si quisieras saber la cantidad de pingüinos que hay según su especie podemos el siguiente Código

<SELECT species, COUNT(*)
FROM 'penguins.csv'
GROUP BY species;> 

Asi mismo puedes obtener el mismo resultado usando pandas

<preprocess = pd.read_csv('penguins.csv')
conteo_especies = preprocess.groupby('species').size()
print(conteo_especies)> 

Es un dato curioso, sinceramente pienso que trabajar en SQL se ve más organizado y es un poco más intuitivo

![](https://static.platzi.com/media/user_upload/image-88ef51d6-432a-400b-87fa-05131e0852c6.jpg) La opción 'Todas las anteriores' implica 'Ninguna de las anteriores', por lo tanto, una invalida a la otra y viceversa jajajaja

Si estan en un entorno virtual de python pueden descargar el data set con el comando:

pip install palmerpenguins

Y luego importarlos en su notebook con:

import palmerpenguins

Para agilizar los procesos, pueden dejar el click del mouse sobre el icono y así ven los atajos de teclado que tienen por defectos los software de programación, sí están en DeepNote, yo uso:

crt + j : Para añadir una nueva línea de código
crt + shit + delet : Para borrar una línea de código
crt + Enter : Para ejecutar el comando

Con esos 3 se facilita bastante el trabajo

`%%capture` `!pip install palmerpenguins` `import pandas as pd` `from palmerpenguins import load_penguins` `penguins = load_penguins()` `penguins.head()`

En mi caso estas serian mis preguntas:
¿Cuanto dura el ciclo de vida de un pinguino?
¿En que se diferencia un pinguino macho y hembra?
¿Hasta que temperatura puede aguantar un pinguino?
¿Que tipo de pinguino es el mas pesado?
¿Los huevos de pinguino estan en peligro de extinsion?

Preguntas que se me ocurren:

  • ¿Años qué viven

  • A partir de qué edad suelen tener crías

  • Época del año más favorables para la reproducción

  • Edad apta para la caza

  • Tamaño promedio en machos y hembras

  • Tamaño promedio en razas de pingüinos

  • Probabilidad de morir sin generar crías, segmentado por raza

Preguntas que tengo al respecto:

  • En cada especie ¿los machos pesan más que las hembras?
  • ¿Cuál es el peso promedio de los pinguinos?
  • ¿Hay relación entre la isla en la que vive cada especie y el peso del pinguino?
  • ¿Existe relación entre el tamaño de las alas y el sexo del pinguino?
  • ¿Qué especie de pingüino es la más alta y baja en el dataset?

Exploración General:

  • ¿Cuántas filas y columnas tiene el conjunto de datos?
  • ¿Cuáles son las columnas disponibles en el conjunto de datos?
  • ¿Cuáles son los tipos de datos de cada columna?
     

Análisis de Especies:

  • ¿Cuántas especies diferentes de pingüinos hay en el conjunto de datos?
  • ¿Cuántas muestras tenemos para cada especie?
     

Características Morfológicas:

  • ¿Cuáles son las estadísticas descriptivas para las variables numéricas como el peso, la longitud del pico, etc.?
  • ¿Cómo se distribuyen estas características morfológicas para cada especie?
  • ¿Existen correlaciones notables entre estas características?
     

Distribución por Islas:

  • ¿Cuántos pingüinos hay en cada isla?
  • ¿Cómo se distribuyen las especies en cada isla?
     

Comparación entre Géneros:

  • ¿Cómo difieren las características morfológicas entre machos y hembras?
  • ¿Hay diferencias significativas en el tamaño entre machos y hembras?
     

Visualización de Datos:

  • ¿Cómo se distribuyen las características morfológicas para cada especie en un gráfico de caja (boxplot)?
  • ¿Cómo se relacionan dos variables específicas en un gráfico de dispersión?
     

Manejo de Datos Faltantes:

  • ¿Hay valores nulos en el conjunto de datos?
  • ¿Cómo podrías manejar esos valores nulos, si los hay?
     

Comparación de Especies:

  • ¿Cuáles son las diferencias clave entre las especies en términos de características morfológicas?
     

Estacionalidad:

  • ¿Hay alguna evidencia de estacionalidad en la longitud de la aleta o en otras características a lo largo del tiempo?
     

Análisis de Edad:

  • ¿Cómo se distribuyen las características morfológicas en diferentes rangos de edad?

como aclaración creo que la columna de “Sex” no es el mejor ejemplo de la diferencia de los datos preprocesados pues también cuenta con los mismo datos faltantes en ambos df.

Con la extension datawrangle, de micrisoft tambien se puede obtener una visualizacion como la de deepnote
Y muy olorosos
Hubiera estado increíble ver las diferencias entre raw y preprocessed, creo que es algo que alguien junior haría. Por ejemplo si se eliminó alguna columna por demasiados datos faltantes, etc.
![](https://media.istockphoto.com/id/163344719/photo/antarctica-king-penguin-head.jpg?s=612x612\&w=0\&k=20\&c=VuB9z3mmq031UONGxjc5tKgRd0N3dKHJymKatIImFZo=)Los Palmer Penguins son un conjunto de datos introducido como una alternativa al muy usado conjunto de datos de Iris para tareas de clasificación y visualización en ciencia de datos. Este conjunto incluye medidas de tres especies diferentes de pingüinos encontrados en las islas Palmer, cerca de la Antártida. Las especies son: Adelie, Chinstrap, y Gentoo. Las medidas recogidas incluyen el tamaño de la aleta (flipper), la longitud del pico, la profundidad del pico, y la masa corporal de los pingüinos, además del sexo y la isla en la que fue encontrado cada ejemplar. Este conjunto de datos es particularmente útil para enseñar análisis de datos y técnicas de machine learning debido a su tamaño manejable, su estructura limpia, y porque permite la exploración de conceptos como la clasificación, la regresión y la agrupación.
Para windows es CTRL+"."y no SHIFT+"."
Preguntas para el dataset: ¿Qué variables debo tomar en cuenta para saber el sexo de un pinguino? ¿Qué variables debo tomar en cuenta para saber la especie de un pinguino?
Una de las herramientas básicas para Análisis Exploratorio de Daros que he usado es Excel. Con todo lo que se dice bueno o malo, se puede realizar hasta cierto punto para esta tarea. Puede que no sea la herramienta más robusta pero funciona para ciertos fines, sobretodo si vas comenzando en este tema.
Holaa, espero se encuentren bien, no encontré la ruta para ingresar a Deepnote, por favor me la pueden compartir. Gracias :)

Descripción Pingüino Adelia
Tamaño mediano (aprox. 70 cm de longitud acostado y 3,9 a 5,35 Kg), la hembra suele ser significativamente más pequeña. Cabeza, barbilla, garganta, partes superiores del cuerpo, espalda y cola negro-azulados. Partes inferiores y vientre blancos. Aletas negro-azuladas en su superficie dorsal, pero con un estrecho borde blanco. Cola formando una característica “cola en pincel”. Ojos marrones, rodeados por un círculo blanco distintivo. Pico negro, cubierto de plumas en la mitad de su longitud, dando apariencia de ser más corto. Patas cubiertas de plumas blancas. Pies rosados con suela negra.

Descripción Pingüino Emperador
115-120 cm de altura, peso 22 a 40 Kg. Es el más alto y pesado de todas las especies de pingüinos. Machos y hembras similares en plumaje y tamaño, aunque los machos son ligeramente más grandes. Cabeza negra, pecho amarillo pálido y parches auriculares de color amarillo brillante. Los adultos tienen el dorso gris oscuro y áreas ventrales blancas. Pico superior negro, laterales del pico inferior de rosa a naranja. Pichones color gris pálido, cabeza y pico negros, parches oculares y barbilla blancos. Los pichones pasan por dos capas de plumón antes de alcanzar su plumaje juvenil.

Descripción pingüino Rey
Es la segunda especie de pingüinos más grande (80-90 cm de altura, 14-16 Kg.). Las hembras tienden a ser más pequeñas que los machos, pero ambos sexos tienen el plumaje similar: dorso de color negro azulado, ventralmente blanco, garganta negra, parches auriculares de color naranja brillante que se extienden hacia el cuello y el pecho. La parte superior del pecho es naranja y se desvanece a amarillo y blanco hacia el vientre. El plumaje de los juveniles es similar a los adultos, pero los parches auriculares son menos brillantes. La garganta es de color blanco grisáceo, las plumas de la corona negras con puntas grises, placas mandibulares negras con rosa. Después de dos años los juveniles mudan al plumaje adulto. Los pichones nacen de color marrón grisáceo.
[Fuente: https://www.globalpenguinsociety.org/]

Columna Descripción
species La especie del pingüino, puede ser Adelie, Gentoo o Chinstrap.
island La isla en la que se encontró el pingüino.
bill_length_mm Longitud del pico en milímetros.
bill_depth_mm Profundidad del pico en milímetros.
flipper_length_mm Longitud de la aleta en milímetros.

Algunas preguntas:
Entre machos y hembras cual tiene mayor masa?
Cuales son las especies que predominan en cada isla?
Existe una relacion entre el bill lenght y el bill_depth?

  • ¿Que familia de pinguinos son los mas grendes, (pesados y altos)?
  • ¿cuanto viven en promedio los pinguinos?
  • ¿cuantos mini-pinguinos pueden tener, cuantas veces a lo largo de su vida?
    -¿el sexo de los pinguinos influye en su tamaño?
  1. ¿Cuáles son las características de tamaño más comunes de los pingüinos Adelie?

  2. ¿Hay alguna relación entre el tamaño de los pingüinos y su lugar de origen?

  3. ¿Cómo ha cambiado el tamaño de los pingüinos Adelie a lo largo del tiempo?

Diferencias geográficas: los pinguinos Adelie de diferentes lugares pueden tener características de tamaño diferentes debido a factores como la disponibilidad de alimento o las condiciones climáticas locales.

Diferencias temporales:

los pinguinos Adelie de diferentes épocas pueden tener diferencias en su tamaño debido a factores como la variación en la disponibilidad de alimento a lo largo del tiempo.

Diferencias de sexo:

los pinguinos machos y hembras pueden tener diferencias en el tamaño debido a la selección sexual y la competencia por recursos.

Que especie de pinguino tiene mayor indice de masa corporal?
Que especie de pinguino tiene mayor numero de hembras y cual de machos?
Existira diferencia entre el tamaño del pico y aletas segun su sexo ?

¿Alguna especie tendrá un rasgo significativo para diferencias mujeres y hombres? De ser así cual sería ese rasgo, o si no hay demostrar que no hay forma de diferenciarlos con las variables categóricas estudiadas.

Para poder realizar las preguntas adecuadas es superimportante conocer y leer sobre el tema.

¿El largo o ancho del pico nos puede indicar la edad o el sexo?
¿Si agrupo los pingüinos por región que características fisiológicas compartirán?

Algunas preguntas pueden ser:

  • ¿Cómo es la distribución de sexo, teniendo en cuenta la isla y especie?
  • ¿La longitud del pico es mayor en el sexo masculino o femenino?
  • ¿Qué sexo en pingüinos es más longevo?
    -¿Cuál sexo en pingüinos tiene un peso mayor?
  • ¿Cuál pesa más?
  • ¿Quién tiene mayor altura?
  • ¿El pico es el factor más importante para conocer el sexo del pinguino?