Gráficos Básicos en Python con Matplotlib: Líneas y Dispersión
Clase 23 de 32 • Curso de Python para Ciencia de Datos
Resumen
¿Por qué Matplotlib es una herramienta esencial para el análisis de datos?
Matplotlib se ha consolidado como una de las bibliotecas más esenciales para la visualización de datos en Python. Desde su creación en 2003 por John D. Hunter, se ha convertido en el estándar para gráficos de alta calidad en disciplinas que van desde la ciencia hasta las finanzas. Este robusto conjunto de herramientas permite a los analistas de datos y científicos del ámbito tecnológico no solo presentar la información de manera visual, sino también explorar complejas relaciones dentro de los datos, facilitando análisis más profundos. Además, su integración con bibliotecas como NumPy y Pandas simplifica el análisis y presentación de datos de diversas maneras.
¿Cómo instalar y configurar Matplotlib?
Aunque trabajamos en Google Collaboratory, donde Matplotlib ya viene preinstalado, es útil recordar cómo se puede instalar utilizando la herramienta pip
, especialmente si estás trabajando en entornos virtuales o en Visual Studio Code. La instalación se realiza con el comando:
pip install matplotlib
Este comando asegura que la biblioteca esté disponible para ser utilizada, lo que es crucial si estás trabajando en un entorno que no sea Google Collaboratory.
¿Cómo crear gráficos básicos con Matplotlib?
Gráfico de líneas
Los gráficos de líneas son usualmente utilizados para mostrar tendencias a lo largo del tiempo o cambios continuos en los datos. Para comenzar, es necesario importar NumPy
y Matplotlib
, específicamente el módulo PyPlot
.
import numpy as np
import matplotlib.pyplot as plt
Supongamos que queremos graficar las ventas mensuales de un producto. Podrías crear los datos de los meses y las ventas de la siguiente manera:
meses = np.array(['E', 'F', 'M', 'A', 'M'])
ventas = np.array([20, 25, 30, 28, 35])
Con los datos listos, configuramos y mostramos el gráfico:
plt.figure(figsize=(8, 6))
plt.plot(meses, ventas, marker='o', color='blue')
plt.title('Ventas mensuales de un producto')
plt.xlabel('Meses')
plt.ylabel('Ventas (en miles de unidades)')
plt.show()
Esta representación visual nos permite identificar patrones o estacionalidades que podrían ser relevantes para decisiones de negocio.
Gráfico de dispersión
Un gráfico de dispersión es ideal para visualizar la relación entre dos variables. Por ejemplo, podrías estar interesado en saber cómo la cantidad de horas estudiadas afecta el rendimiento en un examen. De esta forma, podrías estructurar tus datos en listas:
horas_estudio = [1, 2, 3, 4, 5, 6, 7, 8]
puntaje_examen = [55, 60, 65, 70, 75, 80, 85, 90]
Para crear y mostrar el gráfico de dispersión:
plt.figure(figsize=(8, 6))
plt.scatter(horas_estudio, puntaje_examen, color='green')
plt.title('Relación entre horas estudiadas y el puntaje')
plt.xlabel('Horas de estudio')
plt.ylabel('Puntaje del examen')
plt.show()
Este gráfico es vital para detectar si existe una correlación positiva o negativa entre las variables en estudio, lo cual es útil en estudios experimentales o correlacionales.
¿Qué seguir después de los gráficos básicos?
Con los fundamentos de los gráficos de línea y dispersión cubiertos, el próximo paso es personalizar estos gráficos. Personalizaciones como el ajuste de ejes, el uso de estilos de marcador diferentes, y la inclusión de leyendas o texturas pueden mejorar la claridad y efectividad de la visualización. Esta personalización mejora la precisión y percepción de los datos, habilidades que desarrollaremos aún más en clases posteriores.
En resumen, Matplotlib es una herramienta poderosa para dar vida a los datos de diferentes sectores, y con cada sesión de práctica, tu habilidad para presentar visualmente se profundizará. ¡Continúa practicando y personalizando!