Bienvenido a Platzi

Mario Alexander Vargas Celis

Mario Alexander Vargas Celis

student
hace 9 meses

La Reducción de Dimensionalidad con Análisis de Componentes Principales (PCA, por sus siglas en inglés) es una técnica ampliamente usada en Machine Learning y análisis de datos para simplificar datasets con muchas variables, manteniendo la mayor cantidad de información posible. Aquí te explico los fundamentos clave:

🔍 ¿Qué es PCA (Principal Component Analysis)?

PCA es un método lineal que transforma un conjunto de variables posiblemente correlacionadas en un conjunto más pequeño de variables no correlacionadas llamadas componentes principales.

🎯 Objetivos principales de PCA:

  1. Reducir la dimensionalidad del conjunto de datos.
  2. Eliminar redundancia (variables altamente correlacionadas).
  3. Mejorar la visualización de datos en 2D o 3D.
  4. Aumentar eficiencia computacional para algoritmos de aprendizaje.

🧮 ¿Cómo funciona PCA?

  1. Estandarización: se escalan los datos para que cada variable tenga media 0 y varianza 1 (usando
    StandardScaler
    en scikit-learn).
  2. Cálculo de la matriz de covarianza.
  3. Obtención de los autovalores y autovectores de la matriz de covarianza.
  4. Selección de los componentes principales: se ordenan según la varianza explicada.
  5. Proyección de los datos originales en el nuevo espacio de características.

📊 Varianza explicada

La varianza explicada acumulada te indica cuántos componentes necesitas para capturar un porcentaje determinado (por ejemplo, 95%) de la información del dataset.

📌 Ejemplo básico con Scikit-learn

from sklearn.decomposition import PCA from sklearn.preprocessing import StandardScaler import pandas as pd

# Cargar y estandarizar datos X = pd.read_csv("tus_datos.csv") X_scaled = StandardScaler().fit_transform(X)

# Aplicar PCA pca = PCA(n_components=2) # Reducimos a 2 dimensiones X_pca = pca.fit_transform(X_scaled)

# Ver varianza explicada print(pca.explained_variance_ratio_)

🧠 Cuándo usar PCA

✅ Cuando tienes muchas variables (alta dimensionalidad). ✅ Cuando hay colinealidad entre variables. ✅ Para visualización en 2D/3D de clusters o clasificación. 🚫 No se recomienda si las variables no tienen una relación lineal o si se requiere interpretabilidad directa de las variables originales.

No hay respuestas
Curso Profesional de Machine Learning con Scikit-Learn

Curso Profesional de Machine Learning con Scikit-Learn

Desarrolla proyectos de Machine Learning profesionalmente con Scikit-Learn. Aprende desde la configuración del entorno, a implementar algoritmos de clasificación, regresión, clustering y optimización. Lleva tu modelo a producción con una API Flask.

Curso Profesional de Machine Learning con Scikit-Learn
Curso Profesional de Machine Learning con Scikit-Learn

Curso Profesional de Machine Learning con Scikit-Learn

Desarrolla proyectos de Machine Learning profesionalmente con Scikit-Learn. Aprende desde la configuración del entorno, a implementar algoritmos de clasificación, regresión, clustering y optimización. Lleva tu modelo a producción con una API Flask.