Introducción al análisis exploratorio de datos

1

¿Qué es y para qué sirve el análisis exploratorio de datos?

2

¿Cómo hacer un análisis exploratorio de datos?

3

Tipos de análisis de datos

4

Tipos de datos y análisis de variables

5

Herramientas de software para el análisis exploratorio de datos

6

Conociendo nuestros datos: palmerpenguins

7

Recolección de datos, limpieza y validación

8

Ejercicio de validación de datos

Quiz: Introducción al análisis exploratorio de datos

Análisis univariado

9

Explorando una variable categórica: conteos y proporciones

10

Estadística descriptiva aplicada: medidas de tendencia central

11

Estadística descriptiva aplicada: medidas de dispersión

12

Ejercicio de obtención de medidas de dispersión

13

Estadística descriptiva aplicada: distribuciones

14

Estadística descriptiva aplicada: funciones de densidad de probabilidad

15

Bonus: Teorema del límite central

Quiz: Análisis univariado

Análisis bivariado

16

Estableciendo relaciones: gráficos de puntos

17

Estableciendo relaciones: gráficos de violín y boxplots

18

Estableciendo relaciones: matrices de correlación

19

Limitantes de los coeficientes de correlación lineal

20

Estableciendo relaciones: análisis de regresión simple

21

Limitaciones del análisis de regresión simple

Quiz: Análisis bivariado

Análisis multivariado

22

Análisis de regresión múltiple

23

Visualización del análisis de regresión múltiple

24

Análisis de regresión logística

25

Paradoja de Simpson

26

¿Qué hacer cuando tengo muchas variables?

Quiz: Análisis multivariado

Conclusiones

27

Diversidad de gráficas al explorar datos

28

Continúa aprendiendo sobre EDA

You don't have access to this class

Keep learning! Join and start boosting your career

Aprovecha el precio especial y haz tu profesión a prueba de IA

Antes: $249

Currency
$209
Suscríbete

Termina en:

1 Días
9 Hrs
32 Min
58 Seg

Conociendo nuestros datos: palmerpenguins

6/28
Resources

Contributions 37

Questions 13

Sort by:

Want to see more contributions, questions and answers from the community?

Algunas preguntas para analizar el dataset:

  • ¿Cuál es la vida promedio de un pingüino?
  • ¿Viven más las hembras o los machos?
  • ¿La altura es un rasgo distintivo del sexo?
  • ¿Cuál es la proporción altura/ancho de los picos?
  • ¿Correlación peso/sexo?
  • ¿Correlación especie pico?

😄 Algo curioso que encontré, es que los pingüinos no poseen dimorfismo sexual y por ello es difícil distinguir a los machos de las hembras.

  • Para diferenciarlos normalmente se fijan en la altura, aunque algunas especies se pueden diferenciar por los sonidos que emiten.
  • Viven entre 15 y 20 años en la naturaleza.
  • Existen 18 tipos de pingüinos en el mundo.
  • Mantienen una temperatura cororal de 40 grados centígrados.
  • Son monógamos.
  • Los pingüinos pueden robar los huevos de otras parejas.
  • Viven en colonias.
  • Pueden saltar muy alto (hasta 2 metros) al salir del agua.
  • Tienen una muda de su plumaje 1 vez al año en primavera.
  • Pueden beber agua salada, gracias a un órgano que elimina el exceso de sal.

Estos datos son generalizados y no aplican a todas las especies de pinguinos.

Usted es el mejor prefesor , desearia que diera un par de cursos que vi antes de esta misma ruta porque en serio me encanta que tenga todo preparadito y se nota que tiene experiencia

Cuando haces directamente el drag and drop del archivo .csv en Deepnote automáticamente empieza a trabajar en lenguaje SQL, esto te permite hacer Querys directamente. Por ejemplo, si quisieras saber la cantidad de pingüinos que hay según su especie podemos el siguiente Código

<SELECT species, COUNT(*)
FROM 'penguins.csv'
GROUP BY species;> 

Asi mismo puedes obtener el mismo resultado usando pandas

<preprocess = pd.read_csv('penguins.csv')
conteo_especies = preprocess.groupby('species').size()
print(conteo_especies)> 

Es un dato curioso, sinceramente pienso que trabajar en SQL se ve más organizado y es un poco más intuitivo

Tips en Deepnote

  • Ctrl + Enter para correr el codigo en windows
  • Command + Enter para correr el codigo en Mac

Si estan en un entorno virtual de python pueden descargar el data set con el comando:

pip install palmerpenguins

Y luego importarlos en su notebook con:

import palmerpenguins
![](https://static.platzi.com/media/user_upload/image-88ef51d6-432a-400b-87fa-05131e0852c6.jpg) La opción 'Todas las anteriores' implica 'Ninguna de las anteriores', por lo tanto, una invalida a la otra y viceversa jajajaja

Observación

Por el momento estamos realizando el proceso ETL, este capítulo hicimos la Extracción de los datos de distintas maneras.

En mi caso estas serian mis preguntas:
¿Cuanto dura el ciclo de vida de un pinguino?
¿En que se diferencia un pinguino macho y hembra?
¿Hasta que temperatura puede aguantar un pinguino?
¿Que tipo de pinguino es el mas pesado?
¿Los huevos de pinguino estan en peligro de extinsion?

Para agilizar los procesos, pueden dejar el click del mouse sobre el icono y así ven los atajos de teclado que tienen por defectos los software de programación, sí están en DeepNote, yo uso:

crt + j : Para añadir una nueva línea de código
crt + shit + delet : Para borrar una línea de código
crt + Enter : Para ejecutar el comando

Con esos 3 se facilita bastante el trabajo

`%%capture` `!pip install palmerpenguins` `import pandas as pd` `from palmerpenguins import load_penguins` `penguins = load_penguins()` `penguins.head()`

Preguntas que se me ocurren:

  • ¿Años qué viven

  • A partir de qué edad suelen tener crías

  • Época del año más favorables para la reproducción

  • Edad apta para la caza

  • Tamaño promedio en machos y hembras

  • Tamaño promedio en razas de pingüinos

  • Probabilidad de morir sin generar crías, segmentado por raza

Preguntas que tengo al respecto:

  • En cada especie ¿los machos pesan más que las hembras?
  • ¿Cuál es el peso promedio de los pinguinos?
  • ¿Hay relación entre la isla en la que vive cada especie y el peso del pinguino?
  • ¿Existe relación entre el tamaño de las alas y el sexo del pinguino?
  • ¿Qué especie de pingüino es la más alta y baja en el dataset?

Exploración General:

  • ¿Cuántas filas y columnas tiene el conjunto de datos?
  • ¿Cuáles son las columnas disponibles en el conjunto de datos?
  • ¿Cuáles son los tipos de datos de cada columna?
     

Análisis de Especies:

  • ¿Cuántas especies diferentes de pingüinos hay en el conjunto de datos?
  • ¿Cuántas muestras tenemos para cada especie?
     

Características Morfológicas:

  • ¿Cuáles son las estadísticas descriptivas para las variables numéricas como el peso, la longitud del pico, etc.?
  • ¿Cómo se distribuyen estas características morfológicas para cada especie?
  • ¿Existen correlaciones notables entre estas características?
     

Distribución por Islas:

  • ¿Cuántos pingüinos hay en cada isla?
  • ¿Cómo se distribuyen las especies en cada isla?
     

Comparación entre Géneros:

  • ¿Cómo difieren las características morfológicas entre machos y hembras?
  • ¿Hay diferencias significativas en el tamaño entre machos y hembras?
     

Visualización de Datos:

  • ¿Cómo se distribuyen las características morfológicas para cada especie en un gráfico de caja (boxplot)?
  • ¿Cómo se relacionan dos variables específicas en un gráfico de dispersión?
     

Manejo de Datos Faltantes:

  • ¿Hay valores nulos en el conjunto de datos?
  • ¿Cómo podrías manejar esos valores nulos, si los hay?
     

Comparación de Especies:

  • ¿Cuáles son las diferencias clave entre las especies en términos de características morfológicas?
     

Estacionalidad:

  • ¿Hay alguna evidencia de estacionalidad en la longitud de la aleta o en otras características a lo largo del tiempo?
     

Análisis de Edad:

  • ¿Cómo se distribuyen las características morfológicas en diferentes rangos de edad?

como aclaración creo que la columna de “Sex” no es el mejor ejemplo de la diferencia de los datos preprocesados pues también cuenta con los mismo datos faltantes en ambos df.

este es el codigo para cargar los datos para los que trabajamos en colab !pip install palmerpenguinsfrom palmerpenguins import load\_penguins \# Cargar los datos en un DataFrame de Pandasdf = load\_penguins()df # Muestra las primeras filas
Deepnote claramente no está hecha para mi PC
### **HERRAMIENTAS EN DEEPNOTE :** Si deseas concentrarte mejor en el análisis, utiliza estos atajos: * **Mac:** Presiona Command + . * **Windows:** Presiona Shift + . Esto eliminará las barras laterales y facilitará tu enfoque. ### **CARGA DE DATOS:**  1. **Usando el paquete palmerpenguins:** **Datos crudos:** raw\_penguins\_df = palmerpenguins.load\_penguins\_raw() raw\_penguins\_df *  Este código importa los datos crudos desde el paquete palmerpenguins utilizando la función load\_penguins\_raw() y los almacena en una variable llamada raw\_penguins\_df. Luego, se muestran los datos crudos. **Datos previamente procesados:** preprocess\_penguins\_df = palmerpenguins.load\_penguins() preprocess\_penguins\_df *  Aquí, los datos previamente procesados se cargan utilizando la función load\_penguins() del mismo paquete y se almacenan en la variable preprocess\_penguins\_df. Esta versión de los datos ya está limpia y lista para el análisis. **Usando conjuntos de datos de seaborn:** sns.load\_dataset('penguins') 1.  Este código utiliza la función load\_dataset de la biblioteca seaborn para cargar el conjunto de datos "penguins". Este es un conjunto de datos de ejemplo proporcionado por seaborn para visualización y análisis. 2. **Usando la interfaz de DeepNote:** * **Enlaces:** Se proporcionan enlaces para descargar los conjuntos de datos crudos y previamente procesados. **Importación desde CSV:** preprocess\_penguins\_df = pd.read\_csv('penguins.csv') *  El conjunto de datos de pingüinos previamente procesados se importa desde un archivo CSV llamado penguins.csv utilizando la función read\_csv de la biblioteca pandas. Luego se almacena en la variable preprocess\_penguins\_df para su uso posterior.
## **INTRODUCCIÓN AL CONJUNTO DE DATOS DE PINGÜINOS** En este curso, trabajarás con un conjunto de datos sobre pingüinos recopilado en la Palmer Station, ubicada en la Antártida. Esta estación se dedica al estudio de la flora y fauna marina de la región. En particular, el enfoque está en los pingüinos, unos animales fascinantes y únicos. ### **¿Qué incluye el conjunto de datos?** Los investigadores crearon este conjunto de datos para realizar análisis exploratorios que incluyen: * Análisis de una o varias variables. * Comparaciones sencillas y entretenidas entre diferentes características de los pingüinos. La información se centra en tres especies principales de pingüinos: 1. **Chinstrap** 2. **Gentoo** 3. **Adelie** Aunque a simple vista estas especies parecen diferentes, identificar detalles específicos puede ser más complejo de lo que parece. ## **DIFICULTADES PARA IDENTIFICAR A LOS PINGÜINOS** ### **Identificación por Especie** Observar un pingüino no siempre permite identificar fácilmente su especie. Las diferencias físicas pueden ser sutiles y difíciles de distinguir sin una guía adecuada. ### **Determinar el Sexo de un Pingüino** Otra tarea desafiante es diferenciar entre pingüinos machos y hembras. Esto se debe a que: * A simple vista no es evidente. * Para determinar el sexo, se necesitan pruebas genéticas de sangre. ## **ANÁLISIS DE DATOS RECOLECTADOS** Los investigadores se plantearon varias preguntas para estudiar a los pingüinos: * ¿Existen características visibles que permitan diferenciar entre machos y hembras? * ¿Qué variables podrían ser útiles para identificar su sexo o especie? Para responder estas preguntas, recopilaron datos específicos: 1. **Longitud del pico:** ¿Qué tan largo o alto es? 2. **Longitud de las alas:** ¿Qué tan grandes son las alitas? 3. **Pruebas genéticas:** Para confirmar el sexo del pingüino. El objetivo de este análisis exploratorio es descubrir patrones y responder preguntas importantes sobre estos animales.
Con la extension datawrangle, de micrisoft tambien se puede obtener una visualizacion como la de deepnote
Y muy olorosos
Hubiera estado increíble ver las diferencias entre raw y preprocessed, creo que es algo que alguien junior haría. Por ejemplo si se eliminó alguna columna por demasiados datos faltantes, etc.
![](https://media.istockphoto.com/id/163344719/photo/antarctica-king-penguin-head.jpg?s=612x612\&w=0\&k=20\&c=VuB9z3mmq031UONGxjc5tKgRd0N3dKHJymKatIImFZo=)Los Palmer Penguins son un conjunto de datos introducido como una alternativa al muy usado conjunto de datos de Iris para tareas de clasificación y visualización en ciencia de datos. Este conjunto incluye medidas de tres especies diferentes de pingüinos encontrados en las islas Palmer, cerca de la Antártida. Las especies son: Adelie, Chinstrap, y Gentoo. Las medidas recogidas incluyen el tamaño de la aleta (flipper), la longitud del pico, la profundidad del pico, y la masa corporal de los pingüinos, además del sexo y la isla en la que fue encontrado cada ejemplar. Este conjunto de datos es particularmente útil para enseñar análisis de datos y técnicas de machine learning debido a su tamaño manejable, su estructura limpia, y porque permite la exploración de conceptos como la clasificación, la regresión y la agrupación.
Para windows es CTRL+"."y no SHIFT+"."
Preguntas para el dataset: ¿Qué variables debo tomar en cuenta para saber el sexo de un pinguino? ¿Qué variables debo tomar en cuenta para saber la especie de un pinguino?
Una de las herramientas básicas para Análisis Exploratorio de Daros que he usado es Excel. Con todo lo que se dice bueno o malo, se puede realizar hasta cierto punto para esta tarea. Puede que no sea la herramienta más robusta pero funciona para ciertos fines, sobretodo si vas comenzando en este tema.
Holaa, espero se encuentren bien, no encontré la ruta para ingresar a Deepnote, por favor me la pueden compartir. Gracias :)

Descripción Pingüino Adelia
Tamaño mediano (aprox. 70 cm de longitud acostado y 3,9 a 5,35 Kg), la hembra suele ser significativamente más pequeña. Cabeza, barbilla, garganta, partes superiores del cuerpo, espalda y cola negro-azulados. Partes inferiores y vientre blancos. Aletas negro-azuladas en su superficie dorsal, pero con un estrecho borde blanco. Cola formando una característica “cola en pincel”. Ojos marrones, rodeados por un círculo blanco distintivo. Pico negro, cubierto de plumas en la mitad de su longitud, dando apariencia de ser más corto. Patas cubiertas de plumas blancas. Pies rosados con suela negra.

Descripción Pingüino Emperador
115-120 cm de altura, peso 22 a 40 Kg. Es el más alto y pesado de todas las especies de pingüinos. Machos y hembras similares en plumaje y tamaño, aunque los machos son ligeramente más grandes. Cabeza negra, pecho amarillo pálido y parches auriculares de color amarillo brillante. Los adultos tienen el dorso gris oscuro y áreas ventrales blancas. Pico superior negro, laterales del pico inferior de rosa a naranja. Pichones color gris pálido, cabeza y pico negros, parches oculares y barbilla blancos. Los pichones pasan por dos capas de plumón antes de alcanzar su plumaje juvenil.

Descripción pingüino Rey
Es la segunda especie de pingüinos más grande (80-90 cm de altura, 14-16 Kg.). Las hembras tienden a ser más pequeñas que los machos, pero ambos sexos tienen el plumaje similar: dorso de color negro azulado, ventralmente blanco, garganta negra, parches auriculares de color naranja brillante que se extienden hacia el cuello y el pecho. La parte superior del pecho es naranja y se desvanece a amarillo y blanco hacia el vientre. El plumaje de los juveniles es similar a los adultos, pero los parches auriculares son menos brillantes. La garganta es de color blanco grisáceo, las plumas de la corona negras con puntas grises, placas mandibulares negras con rosa. Después de dos años los juveniles mudan al plumaje adulto. Los pichones nacen de color marrón grisáceo.
[Fuente: https://www.globalpenguinsociety.org/]

Columna Descripción
species La especie del pingüino, puede ser Adelie, Gentoo o Chinstrap.
island La isla en la que se encontró el pingüino.
bill_length_mm Longitud del pico en milímetros.
bill_depth_mm Profundidad del pico en milímetros.
flipper_length_mm Longitud de la aleta en milímetros.

Algunas preguntas:
Entre machos y hembras cual tiene mayor masa?
Cuales son las especies que predominan en cada isla?
Existe una relacion entre el bill lenght y el bill_depth?

  • ¿Que familia de pinguinos son los mas grendes, (pesados y altos)?
  • ¿cuanto viven en promedio los pinguinos?
  • ¿cuantos mini-pinguinos pueden tener, cuantas veces a lo largo de su vida?
    -¿el sexo de los pinguinos influye en su tamaño?
  1. ¿Cuáles son las características de tamaño más comunes de los pingüinos Adelie?

  2. ¿Hay alguna relación entre el tamaño de los pingüinos y su lugar de origen?

  3. ¿Cómo ha cambiado el tamaño de los pingüinos Adelie a lo largo del tiempo?

Diferencias geográficas: los pinguinos Adelie de diferentes lugares pueden tener características de tamaño diferentes debido a factores como la disponibilidad de alimento o las condiciones climáticas locales.

Diferencias temporales:

los pinguinos Adelie de diferentes épocas pueden tener diferencias en su tamaño debido a factores como la variación en la disponibilidad de alimento a lo largo del tiempo.

Diferencias de sexo:

los pinguinos machos y hembras pueden tener diferencias en el tamaño debido a la selección sexual y la competencia por recursos.

Que especie de pinguino tiene mayor indice de masa corporal?
Que especie de pinguino tiene mayor numero de hembras y cual de machos?
Existira diferencia entre el tamaño del pico y aletas segun su sexo ?

¿Alguna especie tendrá un rasgo significativo para diferencias mujeres y hombres? De ser así cual sería ese rasgo, o si no hay demostrar que no hay forma de diferenciarlos con las variables categóricas estudiadas.

Para poder realizar las preguntas adecuadas es superimportante conocer y leer sobre el tema.

¿El largo o ancho del pico nos puede indicar la edad o el sexo?
¿Si agrupo los pingüinos por región que características fisiológicas compartirán?

Algunas preguntas pueden ser:

  • ¿Cómo es la distribución de sexo, teniendo en cuenta la isla y especie?
  • ¿La longitud del pico es mayor en el sexo masculino o femenino?
  • ¿Qué sexo en pingüinos es más longevo?
    -¿Cuál sexo en pingüinos tiene un peso mayor?
  • ¿Cuál pesa más?
  • ¿Quién tiene mayor altura?
  • ¿El pico es el factor más importante para conocer el sexo del pinguino?