Mario Alexander Vargas Celis
La Reducción de Dimensionalidad con Análisis de Componentes Principales (PCA, por sus siglas en inglés) es una técnica ampliamente usada en Machine Learning y análisis de datos para simplificar datasets con muchas variables, manteniendo la mayor cantidad de información posible. Aquí te explico los fundamentos clave:
🔍 ¿Qué es PCA (Principal Component Analysis)?
PCA es un método lineal que transforma un conjunto de variables posiblemente correlacionadas en un conjunto más pequeño de variables no correlacionadas llamadas componentes principales.
🎯 Objetivos principales de PCA:
- Reducir la dimensionalidad del conjunto de datos.
- Eliminar redundancia (variables altamente correlacionadas).
- Mejorar la visualización de datos en 2D o 3D.
- Aumentar eficiencia computacional para algoritmos de aprendizaje.
🧮 ¿Cómo funciona PCA?
- Estandarización: se escalan los datos para que cada variable tenga media 0 y varianza 1 (usando en scikit-learn).
StandardScaler - Cálculo de la matriz de covarianza.
- Obtención de los autovalores y autovectores de la matriz de covarianza.
- Selección de los componentes principales: se ordenan según la varianza explicada.
- Proyección de los datos originales en el nuevo espacio de características.
📊 Varianza explicada
La varianza explicada acumulada te indica cuántos componentes necesitas para capturar un porcentaje determinado (por ejemplo, 95%) de la información del dataset.
📌 Ejemplo básico con Scikit-learn
from sklearn.decomposition import PCA from sklearn.preprocessing import StandardScaler import pandas as pd
# Cargar y estandarizar datos X = pd.read_csv("tus_datos.csv") X_scaled = StandardScaler().fit_transform(X)
# Aplicar PCA pca = PCA(n_components=2) # Reducimos a 2 dimensiones X_pca = pca.fit_transform(X_scaled)
# Ver varianza explicada print(pca.explained_variance_ratio_)
🧠 Cuándo usar PCA
✅ Cuando tienes muchas variables (alta dimensionalidad). ✅ Cuando hay colinealidad entre variables. ✅ Para visualización en 2D/3D de clusters o clasificación. 🚫 No se recomienda si las variables no tienen una relación lineal o si se requiere interpretabilidad directa de las variables originales.
