Estableciendo relaciones: análisis de regresión simple

Clase 20 de 28 • Curso de Análisis Exploratorio de Datos

Contenido del curso

Introducción al análisis exploratorio de datos

Análisis univariado

Análisis bivariado

Análisis multivariado

Conclusiones

Tomar examen

Alfonso Andres Zapata Guzman

student•

Tengo una duda desde hace ya como mas de 10 clases de este curso, y es respecto al analisis que estamos realizando del dataset en su conjunto, ya descubrimos hace mucho que hay tendencia cuando analizamos de manera separada por especie de pinguino, incluso tambien descubrimos que habian distribuciones normales cuando separamos por especie, mas tenemos una binomial cuando analizamos en conjunto.

Mi duda:

Es el flujo normal y profesional de trabajo llevar hasta el final el EDA, a pesar de haber hallado y descubierto esta informacion, y luego hacernos otras preguntas, volver al inicio tal como se describio al principio del curso?

O ante la suposicion de que este fuera un caso de la vida real y laboral y descubrir algo tan obvio en nuestro dataset, podriamos de una vez pasar a analizarlo por especie?

Pregunto porque se que es un analisis en un ambiente controlado y que quizas para hacerlo mas didactico y evitar quejas como en el anterior o que la gente se pierda se estara realizando asi, pero yo quiero poner el chip de las buenas practicas profesionales de una vez y siento que hay pasos que estan redundando y/o que podrian omitirse.

Erick Rosero

student•

Es lo bonito del EDA. Para responder a tu pregunta:

Depende de lo que necesites hacer, todo se basa en tus preguntas del análisis. Por ejemplo si solo necesitas saber cuanto en promedio pesa un pingüino no vas a realizar todo un EDA. Pero si necesitas saber cuales son las diferencias entre especies, tienes que llevarlo a profundidad.
Muchas veces el llevar todos estos procesos te pueden llevar a descubrir insights únicos de cada dataset. Como por ejemplo: Llevando los análisis de las islas y especies, una especie vive en todas las islas pero cada isla tiene su especie en particular. Eso me llevo a otras preguntas que podría investigar como en la isla donde están los pingüinos con más masa muscular que tipo de clima o comida tienen para que se haya dado ese patrón. Otro ejemplo sería, ¿si existe una catástrofe en esa isla?, ¿a que isla debería mudar esa especie?.

Una Excelente frase que encontré en un libro decía: Si un médico analizará tu salud en datos, ¿Qué buscaría? Los días que estuviste bien, mal o toda la información, en búsqueda de los patrones de comportamiento de una posible enfermedad. Todo depende de lo que se necesite

Alfonso Andres Zapata Guzman

student•

En efecto, te entiendo perfectamente, en el caso ideal de contar con tiempo, equipo y recursos ilimitados yo y muchos otros claramente nos tomariamos quizas dias, semanas, meses, años. decadas, siglos, milenios, en un solo analisis, la cuestion es que la mayoria de los casos de analisis no parten de un caso ideal en que podamos invertir tanto tiempo explorando un solo caso a profundidad, siempre es mejor tener una hipotesis en base a menos exploracion (entiendase menos informacion como el 99.99% de informacion hacia abajo) que ninguna hipotesis. Por eso debe haber una manera organica en que se consiga un punto optimo en cuanto a productividad por tiempo invertido en el analisis.

https://platzi.com/clases/1749-gestion-tiempo/24664-soy-productivo/

Estableciendo relaciones: análisis de regresión simple

Introducción al análisis exploratorio de datos

¿Qué es y para qué sirve el análisis exploratorio de datos?

¿Cómo hacer un análisis exploratorio de datos?

Tipos de análisis de datos

Tipos de datos y análisis de variables

Herramientas de software para el análisis exploratorio de datos

Conociendo nuestros datos: palmerpenguins

Recolección de datos, limpieza y validación

Ejercicio de validación de datos

Análisis univariado

Explorando una variable categórica: conteos y proporciones

Estadística descriptiva aplicada: medidas de tendencia central

Estadística descriptiva aplicada: medidas de dispersión

Ejercicio de obtención de medidas de dispersión

Estadística descriptiva aplicada: distribuciones

Estadística descriptiva aplicada: funciones de densidad de probabilidad

Bonus: Teorema del límite central

Análisis bivariado

Estableciendo relaciones: gráficos de puntos

Estableciendo relaciones: gráficos de violín y boxplots

Estableciendo relaciones: matrices de correlación

Limitantes de los coeficientes de correlación lineal