QUÉ ES EDA: EXPLORATORY DATA ANALYSIS
Es la visualizaciòn de los datos antes de aplicar las formulas estadísticas
.
En tu imaginaciòn
.
En la realidad
Bienvenida e introducción
Todo lo que aprenderás sobre el lenguaje R
Programación y Data Science
R y proyecto economía naranja.
Instalando nuestras herramientas
Variables, tipos de datos y estructuras
Los primeros cálculos con R y variables
Tipos de datos
Estructura del dataset del proyecto
Vectores
Matrices
Ejercicios con matrices
Operadores para comparar y ubicar datos
Factores, listas y echar un vistazo al dataset
EDA: Exploratory data analysis
Qué es EDA: Exploratory Data Analysis
Gráficas de dispersión e histogramas.
Box Plot y su interpretación
EDA con dataset proyecto - Gráficas de dispersión.
EDA con histogramas.
EDA con dataset proyecto - histogramas - ggplot2
EDA con box plot- ggplot2
EDA con dataset proyecto - box plot- ggplot2 - dplyr
EDA con gráficas de dispersión con más de dos variables - ggplot2
EDA con dataset proyecto usando gráficas de dispersión con más de dos variables - ggplot2 - plotly
La estadística de los datos
Buscando correlaciones con pairs
Confirmando correlaciones con la función cor
Buscando correlaciones con pairs en dataset proyecto
Confirmando correlaciones con la función cor en dataset proyecto.
Protegiéndonos de los peligros del promedio.
Eliminando los NA's para hacer los cálculos.
Estadística y visualización aplicada a análisis de datos de mercadeo.
Ajustando los datos
Generando tablas, filtrando y seleccionando datos - dplyr-Parte 1
Generando tablas, filtrando y seleccionando datos - dplyr-Parte 2
Mejorando la visualización
Viendo más información con facet wrap - Parte 1
Viendo más información con facet wrap - Parte 2
Organizar visualizaciones y código con R Markdown
Conociendo R Markdown y organizando los hallazgos del análisis en un documento PDF.
Conclusiones Finales
Invitación a continuar recorriendo el mundo del data science.
No tienes acceso a esta clase
¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera
Sonia Ardila
Aportes 17
Preguntas 2
QUÉ ES EDA: EXPLORATORY DATA ANALYSIS
Es la visualizaciòn de los datos antes de aplicar las formulas estadísticas
.
En tu imaginaciòn
.
En la realidad
Platzi debería tener mas contenido de R, es un lenguaje maravilloso.
Les recomienod ver este video
https://www.youtube.com/watch?v=W1_eCwuYkAI&t=316s
El cuarteto de Anscombe comprende cuatro conjuntos de datos que tienen las mismas propiedades estadísticas, pero que evidentemente son distintas al inspeccionar sus gráficos respectivos.
Cada conjunto consiste de once puntos (x, y) y fueron construidos por el estadístico F. J. Anscombe. El cuarteto es una demostración de la importancia de mirar gráficamente un conjunto de datos antes de analizarlos.
En el ejemplo se ve la misma correlacion, desviaciòn estandar y recta de regresiòn en los cuatro dataset
.
ESTADISTICAS DESCRIPTIVAS
Correlation
Std. Dev
Regression
Lo que pauta que el comportamiento de los clientes en las cuatro tiendas es el mismo y eso es imposible porque son supermercados ubicados en diferentes puntos de la ciudad
.
Para aclarar…
.
PIDE DATOS CRUDOS
Pedir un dataset crudo es una solicitud rutinaria para ver los datos en plano y comprobar interrogantes del momento
Y veras que no hay filas iguales, que no ves siempre los mismos datos en las X ni los mismos datos en las Y
.
Visualiza los datos 👁
.
CON CUARTETO DE ASCOMBE
En donde si, esta la misma recta de regresiòn pero los puntos tienen formas diferentes. Es decir el comportamiento de los datos es diferente para cada dataset
Tipos de visualización en EDA
Histograma:
En estadística, un histograma es una representación gráfica de una variable en forma de barras, donde la superficie de cada barra es proporcional a la frecuencia de los valores representados. Sirve para ver la distribución de las frecuencias de una variable. Las barras van pegadas y el orden en el eje X es ascendente. En un histograma se presenta lo que hay y también lo que no hay.
Diagrama de dispersión (Scatterplot):
Un diagrama de dispersión o gráfica de dispersión o gráfico de burbujas es un tipo de diagrama matemático que utiliza las coordenadas cartesianas para mostrar los valores de dos variables para un conjunto de datos. Las variables deben ser continuas o numéricas, los puntos no se pueden unir como si se hace en las gráficas de líneas
Diagrama de caja (Boxplot):
También conocido como diagrama de caja y bigote, box plot, box-plot o boxplot. Es un método estandarizado para representar gráficamente una serie de datos numéricos a través de sus cuartiles. De esta manera, el diagrama de caja muestra a simple vista la mediana y los cuartiles de los datos, pudiendo también representar los valores atípicos de estos.
Comparto mis notas del curso utilizando la versión 4.0.2 de R y windows 10, espero les sean de utilidad dado que con el tiempo cambian algunas cosas, dejo los datasets y los scripts en el mismo repositorio
https://github.com/rb-one/Fundamentos_R/blob/master/Notes/notes.md
Muy interesante EDA.
interesante!
Buenisimo eso del Anscombe’s quartet 😄
EDA = Exploratory data Analysis
He trabajado mucho tiempo con datos y este concepto del Cuarteto de Anscombe es realmente muy interesante
Interesante y brillante punto de vista, ya que sugiere lo que en un libro de estadística no, que es la llana presentación de las formas lineales o no lineales de los datos. Concepto importantes para aquel que sólo confía en los cálculos estadísticos
EDA consisten en visualizar los datos antes de enfocarnos en las fórmulas estadísticas. Eso nos da pistas de los datos y es importante para la interpretación.
Cuando la profesora es mujer hay mas participación de mujeres en los comentarios, curioso
Primero hay que vizualizar los dato, para ver el comportamiento de tus datos
¿Quieres ver más aportes, preguntas y respuestas de la comunidad?