Gráfica de dispersión

Clase 12 de 31Curso de Principios de Visualización de Datos para Business Intelligence (2021)

Contenido del curso

Introducción: fundamentos de la visualización de datos

Resumen

Comprender la relación entre dos variables es una de las tareas más frecuentes en business intelligence y ciencia de datos. La gráfica de dispersión, conocida como scatter plot, es la herramienta visual que permite lograrlo de forma intuitiva al posicionar puntos en un plano según el cruce de dos variables.

¿Qué es un scatter plot y por qué es tan utilizado?

Un scatter plot es, en esencia, un posicionamiento de puntos en un plano que resulta de la intersección entre dos variables [0:14]. En el eje x se representa una variable y en el eje y otra. Cada punto del gráfico corresponde a un evento u observación, y su ubicación revela cómo se comportan ambas variables de forma conjunta.

Esta representación es valiosa porque, al observar la distribución completa de los puntos, es posible identificar si las variables guardan algún tipo de correlación. En otras palabras, permite detectar patrones que de otro modo quedarían ocultos en tablas de números.

¿Qué tipos de correlación se pueden identificar?

La posición y la tendencia general de los puntos en el plano revelan tres escenarios principales [1:18]:

  • Correlación positiva: los puntos se distribuyen de abajo hacia arriba en la escala, lo que indica que cuando una variable aumenta, la otra también lo hace.
  • Correlación negativa: la dispersión va de arriba hacia abajo, es decir, cuando una variable crece, la otra disminuye.
  • Sin correlación: no se aprecia una tendencia clara en la nube de puntos, lo que sugiere que las dos variables no están relacionadas entre sí.

Reconocer estos patrones es fundamental para tomar decisiones basadas en datos y para construir modelos predictivos más robustos.

¿Qué buenas prácticas seguir al crear un scatter plot?

Al diseñar una gráfica de dispersión conviene prestar atención a varios elementos de data visualization [0:56]:

  • Colores: elegir una paleta que facilite distinguir grupos o categorías sin saturar la vista.
  • Dispersión: lo más importante es observar cómo se distribuyen los puntos en el plano, ya que esa distribución es la que comunica la relación entre las variables.
  • Escala coherente: asegurarse de que los ejes reflejen rangos adecuados para que la tendencia sea legible.

¿Qué errores evitar en una gráfica de dispersión?

Uno de los problemas más comunes es el uso excesivo de anotaciones [2:04]. Dado que el scatter plot suele mostrar una gran cantidad de puntos muy próximos entre sí, las etiquetas tienden a superponerse unas con otras. Esto obstaculiza la lectura de la nube de puntos, que es precisamente el elemento central del gráfico.

La recomendación es mantener el gráfico lo más limpio posible y, si es necesario anotar, hacerlo solo en puntos destacados o usar técnicas interactivas como tooltips al pasar el cursor.

¿Cómo poner en práctica el análisis de dispersión?

El siguiente paso es construir tu propio scatter plot con datos reales. Al hacerlo, identifica qué tipo de relación muestran tus variables —positiva, negativa o inexistente— y reflexiona sobre lo que eso implica para el contexto de tu análisis [2:26]. Comparte tu gráfica y tu interpretación; esa práctica refuerza la comprensión de la correlación y mejora tus habilidades de comunicación visual de datos.