Reducción de Dimensionalidad con Análisis de Componentes Principales

Clase 9 de 37 • Curso Profesional de Machine Learning con scikit-learn

Contenido del curso

Aprender los conceptos clave

1
Curso Completo de Machine Learning con Scikit-learn para Principiantes
07:31 min
2
Tipos de Aprendizaje en Machine Learning: Supervisado, No Supervisado y por Refuerzo
04:18 min
3
Problemas de Clasificación, Regresión y Clustering con Scikit-learn
06:13 min
4
Fundamentos Matemáticos para Machine Learning Avanzado
04:52 min

Iniciar un proyecto con sklearn

Optimización de features

Regresiones robustas

Métodos de ensamble aplicados a clasificación

Clustering

Optimización paramétrica

Salida a producción

Tomar examen

Resumen

Trabajar con datasets que contienen decenas o cientos de variables puede convertirse en un problema real para tus modelos de machine learning. No todas esas variables aportan información útil, y muchas veces sus relaciones internas son tan complejas que dificultan el entrenamiento. Aquí es donde entra en juego el PCA (Principal Component Analysis), también conocido como Análisis de Componentes Principales, uno de los algoritmos de reducción de la dimensionalidad más utilizados en la industria.

¿Cuándo necesitas reducir la dimensionalidad de tu dataset?

Antes de aplicar cualquier técnica, es fundamental reconocer las señales que indican que tu modelo podría beneficiarse de un paso previo de reducción. Estas son las situaciones más comunes [0:37]:

Tu dataset tiene un número muy grande de features y no estás seguro de que todos sean útiles para predecir la variable de salida.
Las relaciones entre variables no son linealmente separables o presentan una alta correlación entre sí.
Ya entrenaste tu modelo y detectaste overfitting, es decir, el modelo memoriza los datos de entrenamiento en lugar de generalizar. Una de las soluciones posibles es reducir la complejidad del modelo extrayendo solo la información relevante [1:19].
Tu modelo funciona bien en términos de precisión, pero el costo computacional es demasiado alto. Usar menos features puede mantener el desempeño mientras mejora el rendimiento en tiempo de ejecución [1:42].

¿Cuál es el principio detrás de PCA?

Aunque el algoritmo tiene una base matemática compleja, su idea central es bastante intuitiva. PCA busca combinar diferentes features del dataset en nuevos features artificiales que conserven la mayor cantidad de información posible, específicamente la varianza entre las variables originales [2:08].

Imagina un conjunto de puntos graficados en un plano bidimensional. Cada punto necesita una coordenada en el eje X y otra en el eje Y. Ahora, ¿qué sucede si mediante una operación matemática proyectas todos esos puntos sobre una sola línea recta que capture la distribución de los datos? Pasarías de dos dimensiones a una sola, y la información importante, la varianza, quedaría preservada [2:30].

¿Qué pasos matemáticos sigue PCA para encontrar esa información?

El proceso se desarrolla en etapas bien definidas [3:08]:

Calcular la matriz de covarianza: esta matriz compara cada feature con los demás para determinar qué tanto se relacionan entre sí. La covarianza mide cómo cambian dos variables juntas, lo que permite identificar redundancias.
Obtener los valores y vectores propios: a partir de la matriz de covarianza se calculan los eigenvalues (valores propios) y eigenvectors (vectores propios). Estos indican la magnitud y dirección de la varianza en los datos, revelando cuáles relaciones son más fuertes y contienen más información.
Ordenar de forma descendente: los componentes se organizan de mayor a menor según su valor propio. Los que tienen mayor peso representan la mayor cantidad de información para el modelo. De esta forma se generan features artificiales que no existían en el dataset original, pero que concentran lo esencial [3:40].

¿Qué variantes de PCA ofrece Scikit Learn?

Una ventaja significativa de trabajar con Scikit Learn es que ya incluye implementaciones listas para distintos escenarios [4:20]:

Incremental PCA: ideal cuando trabajas en equipos con recursos computacionales limitados, poca memoria RAM o procesadores modestos. Permite procesar los datos por lotes en lugar de cargar todo el dataset en memoria.
Kernel PCA: diseñado para datos con estructuras no lineales. Utiliza funciones de kernel para capturar relaciones complejas que el PCA estándar no puede manejar.

Estas variantes amplían el alcance del algoritmo y lo hacen adaptable a prácticamente cualquier tipo de problema, desde datasets pequeños y lineales hasta conjuntos masivos con patrones complejos.

Si ya identificaste alguna de estas señales en tus proyectos, el siguiente paso natural es llevar PCA a la práctica con código. Comparte en los comentarios cuál ha sido tu experiencia al trabajar con datasets de alta dimensionalidad.

Comentarios

Miguel Angel Velazquez Romero

student•

Introducción al algoritmo PCA (Principal Component Analysis)

¿Por qué usaríamos este algoritmo?

Porque en machine learning es normal encontrarnos con problemas donde tengamos una enorme cantidad de features en donde hay relaciones complejas entre ellos y con la variable que queremos predecir.

Pistas donde se puede utilizar un algoritmo PCA:

Nuestro dataset tiene un número alto de features y no todos sean significativos.
Hay una alta correlación entre los features.
Cuando hay overfiting.
Cuando implica un alto coste computacional.

¿En que consiste el algoritmo PCA?

Básicamente en reducir la complejidad del problema:

1.- Seleccionando solamente las variables relevantes. 2.- Combinándolas en nuevas variables que mantengan la información más importante (varianza de los features).

¿Cuales son pasos para llevar a cabo el algoritmo PCA?

1.- Calculamos la matriz de covarianza para expresar las relaciones entre nuestro features. 2.- Hallamos los vectores propios y valores propios de esta matriz, para medir la fuerza y variabilidad de estas relaciones. 3.- Ordenamos y escogemos los vectores propios con mayor variabilidad, esto es, aportan más información.

¿Qué hacer si tenemos una PC de bajos recursos?

Si tenemos un dataset demasiado exigente, podemos usar una variación como IPCA.
Si nuestros datos no tienen una estructura separable linealmente, y encontramos un KERNEL que pueda mapearlos podemos usar KPCA.

Marlon Yuleison Mosquera Sánchez

student•

Excelente!, Gracias por el aporte!

Juan R. Vergara M.

student•

Gracias por el resumen 📝

María José Medina

student•

🔹 Usar PCA cuando:

Se tenga un dataset con muchos features.
Las relaciones entre las variables no sean linealmente separables o se tenga una alta correlación entre ellas.
El modelo presenta características de overfitting. (El PCA puede ser una posible solución).
Se tiene un buen modelo con buenos resultados pero su costo computacional es alto.

👉 El PCA principalmente selecciona variables relevantes y las combina en una nueva feature, que mantiene la información más importante y útil para el modelo. Ejemplo:

📌 Nota: En el Curso de Álgebra Lineal Aplicada para Machine Learning se explican y se aplican muy bien estos conceptos.

Julián Cárdenas

student•

Así es!

Cesar Augusto Morales Godoy

student•

Después de terminar el curso vuelvo a esta clase en respuesta a un proyecto real de trabajo en el cual tengo demasiados features en mi data frame y el modelo que hice no predice correctamente los objetivos.

Definitivamente era esto lo que me faltaba, que curso tan genial! 📝😃

Rodrigo Urquizo Yepez

student•

Esto es lo que no se hablo en el curso de Algebra Lineal

Miguel Angel Velazquez Romero

student•

Seguro viste el de fundamentos, porque en el de Curso de Álgebra Lineal Aplicada para Machine Learning si explican de forma mas detallada estos conceptos.

Emanuel Daniel Yaselga Alvarado

student•

Cuál es la diferencia entre IPCA y PCA

Ariel Sharpe

student•

IPCA se usa cuando tenemos equipos con poco poder de computo.

++que hace?++

manda los datos que le pasamos para entrenar en 'capsulas', osea que no manda todos los datos de una como PCA sino que manda por ejemplo dos capsulas de datos la primera con un 50% de los datos y la otra con el otro 50%.

IPCA es con figurable, esto permite que puedas elegir el numero de capsulas/batches que quieres mandar.

a fines prácticos el resultado es casi el mismo, no te preocupes lo único es que si tu pc no es muy buena con IPCA le vas a dar mas rendimiento.

Bryan

student•

Si su computador no tiene mucho poder de procesamiento, pueden usar Google Colab y Deepnote. Son jupiter notebooks pero desde el navegador lo ejecutamos

Luis Mario Rivas Hernández

student•

Colab es una herramienta grandiosa

Diego Cesar Lerma Torres

student•

Nunca antes en mi vida me había visto en la necesidad de poner un video a velocidad 0.85x para seguir el razonamiento de un profesor😅 ¡Este curso es increíble!

¡Muchas gracias por tanto, Platzi!

José Pablo Cabrera Romo

student•

Ahora entiendo por qué las columnas (features) procesadas por PCA tienen valores diferentes al de las columnas originales. Una duda que traía arrastrando.

Mario Alexander Vargas Celis

student•

La Reducción de Dimensionalidad con Análisis de Componentes Principales (PCA, por sus siglas en inglés) es una técnica ampliamente usada en Machine Learning y análisis de datos para simplificar datasets con muchas variables, manteniendo la mayor cantidad de información posible. Aquí te explico los fundamentos clave:

🔍 ¿Qué es PCA (Principal Component Analysis)?

PCA es un método lineal que transforma un conjunto de variables posiblemente correlacionadas en un conjunto más pequeño de variables no correlacionadas llamadas componentes principales.

🎯 Objetivos principales de PCA:

Reducir la dimensionalidad del conjunto de datos.
Eliminar redundancia (variables altamente correlacionadas).
Mejorar la visualización de datos en 2D o 3D.
Aumentar eficiencia computacional para algoritmos de aprendizaje.

🧮 ¿Cómo funciona PCA?

Estandarización: se escalan los datos para que cada variable tenga media 0 y varianza 1 (usando StandardScaler en scikit-learn).
Cálculo de la matriz de covarianza.
Obtención de los autovalores y autovectores de la matriz de covarianza.
Selección de los componentes principales: se ordenan según la varianza explicada.
Proyección de los datos originales en el nuevo espacio de características.

📊 Varianza explicada

La varianza explicada acumulada te indica cuántos componentes necesitas para capturar un porcentaje determinado (por ejemplo, 95%) de la información del dataset.

📌 Ejemplo básico con Scikit-learn

from sklearn.decomposition import PCA from sklearn.preprocessing import StandardScaler import pandas as pd

# Cargar y estandarizar datos X = pd.read_csv("tus_datos.csv") X_scaled = StandardScaler().fit_transform(X)

# Aplicar PCA pca = PCA(n_components=2) # Reducimos a 2 dimensiones X_pca = pca.fit_transform(X_scaled)

# Ver varianza explicada print(pca.explained_variance_ratio_)

🧠 Cuándo usar PCA

✅ Cuando tienes muchas variables (alta dimensionalidad). ✅ Cuando hay colinealidad entre variables. ✅ Para visualización en 2D/3D de clusters o clasificación. 🚫 No se recomienda si las variables no tienen una relación lineal o si se requiere interpretabilidad directa de las variables originales.

Daniel Moreno

student•

IPCA y KPCA son técnicas de reducción de dimensionalidad utilizadas en el campo del aprendizaje automático y el análisis de datos. Aquí te explico cada uno:

IPCA (Incremental Principal Component Analysis):
- El IPCA es una variante de la Principal Component Analysis (PCA) diseñada para manejar grandes conjuntos de datos que no caben en memoria.
- PCA es una técnica que se utiliza para reducir la dimensionalidad de un conjunto de datos al encontrar las direcciones (llamadas componentes principales) que maximizan la varianza de los datos.
- IPCA realiza el cálculo de los componentes principales de forma incremental, lo que significa que procesa el conjunto de datos en pequeños lotes, en lugar de cargar todo el conjunto de datos en la memoria a la vez.
- Esta técnica es útil cuando se trabaja con grandes conjuntos de datos que no pueden ajustarse en la memoria RAM de una computadora.
KPCA (Kernel Principal Component Analysis):
- KPCA es una extensión no lineal de PCA que utiliza trucos del kernel para manejar datos no lineales.
- Mientras que PCA funciona bien para datos lineales, KPCA puede capturar estructuras no lineales al mapear los datos a un espacio de características de mayor dimensión utilizando funciones kernel (como el kernel Gaussiano o el kernel polinomial).
- Una vez que los datos se han mapeado a un espacio de mayor dimensión, KPCA encuentra los componentes principales en este nuevo espacio.
- KPCA es útil cuando se trabaja con conjuntos de datos que no pueden ser linealmente separables en su forma original.

En resumen, IPCA es una variante de PCA diseñada para manejar grandes conjuntos de datos de forma incremental, mientras que KPCA es una extensión no lineal de PCA que utiliza funciones kernel para manejar datos no lineales. Ambas técnicas son útiles para reducir la dimensionalidad de los datos y extraer características importantes para el análisis y la modelización.

Jhon Freddy Tavera Blandon

student•

PCA Su objetivo principal es transformar un conjunto de datos de alta dimensionalidad en un espacio de menor dimensionalidad, mientras se retiene la mayor cantidad posible de información relevante. PCA es una herramienta poderosa para simplificar la complejidad de los datos y mejorar la eficiencia y precisión de los modelos.

Como Funciona PCA:

El PCA busca encontrar las direcciones (vectores) en las que los datos tienen la mayor varianza. Estas direcciones se llaman "componentes principales". El primer componente principal es la dirección en la que los datos tienen la mayor variación, el segundo componente principal es la dirección ortogonal al primero y en la que los datos tienen la siguiente mayor variación, y así sucesivamente.

Juan Nuñez

student•

En la clase de estadística descriptiva de Francisco Camacho se hace un PCA desde cero explicando como se hace la matriz de covarinza y luego se sacan los eigen valores y vectores.

IVAN CARAPIA BARAJAS

student•

Sebastian Manassero

student•

Osea, no es siempre bueno aplicar PCA ?

Thomas Gonzalez Rodrigues

student•

solo cuando lo necesites si tu modelo esta funcionando bien para ti no seria necesario

Daniel Santana

student•

Hola, alguien sabe que curso o donde puedo encontrar información sobre Kernels desde 0. Gracias

Antonio Demarco Bonino

student•

ara estos problemas, el PCA te ayuda de la siguiente manera:

Número alto de features: Reduce dimensionalidad manteniendo la mayor cantidad de variabilidad.
Alta correlación entre features: Elimina la redundancia combinando variables correlacionadas en componentes principales ortogonales.
Overfitting: Simplifica el modelo reduciendo la cantidad de variables, disminuyendo la posibilidad de sobreajuste.
Alto coste computacional: Disminuye el número de variables que el modelo necesita procesar, mejorando la eficiencia computacional.

Daniel Moreno

student•

"Linealmente separables" es un término utilizado en el contexto del aprendizaje automático y la clasificación para describir conjuntos de datos que pueden ser divididos perfectamente por una línea recta (en el caso de datos bidimensionales) o un hiperplano (en dimensiones superiores).

En otras palabras, si los puntos de datos en un conjunto de datos pueden ser claramente separados por una única línea recta o hiperplano en el espacio de características, entonces se dice que los datos son linealmente separables.

Por ejemplo, en un conjunto de datos de dos dimensiones con dos clases diferentes, si todas las muestras de una clase están en un lado de una línea y todas las muestras de la otra clase están en el otro lado, entonces los datos se consideran linealmente separables.

Es importante tener en cuenta que no todos los conjuntos de datos son linealmente separables. En casos donde los datos no pueden ser separados por una línea recta o un hiperplano, se necesitan técnicas más avanzadas, como las máquinas de vectores de soporte (SVM) con kernels no lineales, para clasificar correctamente los datos.

Thomas Gonzalez Rodrigues

student•

les recomiendo este video para entender al matematica detras de PCA

Cesar supo

student•

Este video me sirvió bastante para entender el PCA: Análisis de componentes principales (PCA)

German Homero Moran Figueroa

student•

Reducción de la dimensionalidad de variables en ML

Reducción de Dimensionalidad con Análisis de Componentes Principales

Aprender los conceptos clave

Curso Completo de Machine Learning con Scikit-learn para Principiantes

Tipos de Aprendizaje en Machine Learning: Supervisado, No Supervisado y por Refuerzo

Problemas de Clasificación, Regresión y Clustering con Scikit-learn

Fundamentos Matemáticos para Machine Learning Avanzado

Iniciar un proyecto con sklearn

Configuración Profesional de Entorno de Trabajo para Python

Instalación y configuración de librerías para Python

Análisis de Datos para el Bienestar y la Felicidad Humana

Optimización de features

Selección de Variables en Modelos de Aprendizaje Automático