Scatterplot o diagrama de dispersion, nos ayuda a entender como están relacionados dos variables con esto podemos identificar si existe alguna una correlación.
¿Para qué sirve la estadística descriptiva?
Estadística descriptiva vs. inferencial
Flujo de trabajo en data science
Plan del curso
Estadística descriptiva para analítica
¿Cómo usar Deepnote?
Tipos de datos
Medidas de tendencia central
Metáfora de Bill Gates en un bar
Medidas de tendencia central en Python
Medidas de dispersión
Desviación estándar
Medidas de dispersión en Python
Exploración visual de los datos
Diagramas de dispersión en el análisis de datos
Estadística en la ingesta de datos
Pipelines de procesamiento para variables numéricas
Transformación no lineal
Procesamiento de datos numéricos en Python
Pipelines de procesamiento para variables categóricas
Procesamiento para variables categóricas con Python
Correlaciones
Matriz de covarianza
Proyecto de aplicación
Cálculo de valores propios de una matriz
PCA: análisis de componentes principales
Reducción de dimensionalidad con PCA
Despedida
Conclusiones
Aún no tienes acceso a esta clase
Crea una cuenta y continúa viendo este curso
Aportes 20
Preguntas 0
Scatterplot o diagrama de dispersion, nos ayuda a entender como están relacionados dos variables con esto podemos identificar si existe alguna una correlación.
Esta plataforma https://www.data-to-viz.com/ también está genial para seleccionar visualizaciones. Además, vienen los códigos de Python y R necesarios para llevarlos a cabo.
Te dejo esta imagen para que te sea mas facil identificar cual es el grafico que tenes que usar
Boxplot de Año vs precio
Uno de mis favoritos para comparaciones, Heatmap o mapa de calor.
Acá comparamos precios de varios modelos de Ford en los últimos 10 años.
Acá el código:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from matplotlib import cm
import seaborn as sns
df = pd.read_csv('cars.csv')
# Mapa de calor con pivot (Ford)
ford = df[(df['manufacturer_name']=='Ford') & (df['year_produced']>2010)]
pivot_ford = ford.pivot_table(values='price_usd', index='model_name', columns='year_produced', aggfunc=np.sum)
plt.figure(figsize=(12, 8))
sns.heatmap(pivot_ford, cmap='hot')
Este curso necesita quizzes 😃
Mi diagrama de dispersión de año vs precio
Sencillamente espectacular esta clase ❤️.
Increíble https://datavizproject.com/, desde ahora una de las fuentes que utilizare para mis visualizaciones de datos.
⚠️Recordemos que una correlación no significa una relación de causalidad. Por ejemplo, en el siguiente gráfico, vemos cómo la tasa de divorcio en Maine se correlaciona con el consumo per cápita de margarina.
Hay correlación, pero no ninguna es causa de la otra.
Les recomiendo utilizar los argumentos height
y aspect
en sus graficos para que no salgan ilegibles.
Tambien pueden usar la funcion sns.relplot para generar gráficos separados por categorías. Les dejo un ejemplo:
sns.relplot(
data=df, y="price_usd", x='year_produced',
row="engine_type",
kind="scatter"
)
Para un poco más de análisis exploratorio con seaborn, pueden ver Simplificando el análisis exploratorio de datos con python IV: Seaborn para analizar datos
Aqui les comparto un deepnote que encontré sobre las funciones de visualización que estamos revisando en clases
https://deepnote.com/@daniela-concha/AY2-Visualizacion-Big-Data-RsA33FmTSICKV5zl9rvJtw
Les recomiendo esta página https://www.python-graph-gallery.com/, tiene muchos ejemplos y cómo escribirlos en Python. Además existe una versión para aquellos que prefieran R. En lo personal me ha ayudado muchísimas veces.
Excelente clase, el curso que viene más adelante en la ruta de data Science asociado a Visualización de datos complementa bien lo visto en esta clase donde se indica en general cuando se utiliza una u otro tipo de los principales gráficos.
Scatterplot para entender la correlación de las variables
Resumen de la clase:
La estadística descriptiva se divide en 2 bloques:
• El analítico: medidas de tendencia centrar y medidas de dispersión
• La gráfica: diagrama de caja, histograma.
La gráfica, el tipo de visualización, a usar depende de la situación a describir ( pastel para votación electoral, de dispersión para ver correlación, etc.)
La siguiente app web nos muestra los tipos de visualización y una explicación de ellos:
https://datavizproject.com/
.
Entre graficas comunes tenemos:
.
Hasta ahora hemos realizado análisis univariado: analizar la media, la mediana, etc. De una columna de un conjunto de datos.
Hemos visto como se comporta una variable numérico respecto a una categórica .
Trabajaremos para observar como se comporta una variable numérica respecto a otra numera por lo cual usaremos las gráficas de dispersión que ayudan a visualizar la correlación.
Correlación es un concepto a usar con mucho cuidado.
Tomen el curso de Tableau aquí en Platzi para aprender mas sobre data visualization
Gracias, buen contenido
¿Quieres ver más aportes, preguntas y respuestas de la comunidad? Crea una cuenta o inicia sesión.