Análisis de Componentes Principales (PCA) y Proyección de Vectores
Clase 22 de 25 • Curso de Matemáticas para Data Science: Estadística Descriptiva
Contenido del curso
- 4
Uso de Deepnote para Jupyter Notebooks en Ciencia de Datos
01:19 - 5

Tipos de Datos en Ciencia de Datos: Categóricos y Numéricos
16:06 - 6

Medidas de Tendencia Central: Media, Mediana y Moda
09:47 - 7

Media vs. Mediana: Diferencias y Aplicaciones Prácticas
17:17 - 8

"Estadística Descriptiva con Pandas: Medidas de Tendencia Central"
20:58 - 9

Rango y Rango Intercuartil en Medidas de Dispersión
05:25 - 10

Desviación Estándar y Varianza en Estadística Descriptiva
14:29 - 11

Cálculo y Visualización de Medidas de Dispersión en Python
11:14 - 12

Visualización de Datos: Catálogo y Uso de Diagramas en Python
08:48 - 13

Diagramas de Dispersión y su Análisis con Seaborn
12:32
- 14

Escalamiento Lineal de Datos Numéricos para Machine Learning
10:54 - 15

Transformaciones No Lineales para Datos Sesgados en Machine Learning
08:51 - 16

Procesamiento y Escalamiento de Datos Numéricos en Python
14:55 - 17

Mapeo de Variables Categóricas en Python: Dumi y OneHot
05:00 - 18

Codificación de Variables Categóricas en Python con Pandas y Scikit-Learn
12:58 - 19

Correlación y covarianza en análisis de datos
09:09 - 20

Construcción y Análisis de la Matriz de Covarianza en Python
13:09
¿Qué es el análisis de componentes principales o PCA?
El Análisis de Componentes Principales (PCA) es una técnica fundamentalmente dirigida a reducir la dimensionalidad de grandes conjuntos de datos, permitiendo simplificar su estructura sin perder información relevante. En el contexto del machine learning, muchos conjuntos de datos contienen numerosas variables, algunas de las cuales pueden estar correlacionadas o no ser significativas para el modelo. Así, PCA se convierte en una herramienta esencial al permitirnos identificar y retener solo aquellas variables que concentran la información mínima necesaria.
¿Cómo se relaciona el álgebra lineal con PCA?
El PCA se fundamenta en conceptos de álgebra lineal, esencialmente en la proyección de vectores y en el cálculo de varianzas en diversas direcciones. La proyección de un vector sobre otro se refiere a la "sombra" o representación de un vector en la dirección de otro. Por ejemplo, considerando los vectores a = (2, 2) y b = (1, 0), la proyección de a sobre b resulta en el vector (2, 0). Este concepto es elemental para determinar cómo las variables de un conjunto de datos se distribuyen en diferentes direcciones.
a_p = (a · b) / |b|
a_p = (2 * 1 + 2 * 0) / 1
a_p = 2, resultando en la dirección de b, es decir, (2, 0)
¿Cómo se capturan las varianzas en un conjunto de datos?
Para entender mejor el papel del álgebra lineal en PCA, consideremos cómo se captura la varianza de los datos en diversas direcciones. Cada dirección de proyección puede servir para abordar cómo varían los datos, y hay direcciones que capturan mejor esa varianza. Si se coloca un vector a lo largo de la tendencia de un conjunto de datos dispersos, su proyección maximizará las varianzas observadas en esa dirección.
El cálculo de la varianza a lo largo de una dirección implica el uso de la matriz de covarianza del conjunto de datos. De forma matemática, se puede expresar como:
Varianza_dirección = (b^T) * Covarianza * b
Donde b es la dirección de interés. Descomponiendo la matriz de covarianza en términos de valores y vectores propios, se puede obtener un entendimiento profundo de cómo se distribuyen las varianzas a través de las componentes principales, capturando la mayor información posible con la menor cantidad de variables.
¿Qué papel juegan los valores y vectores propios en PCA?
En el PCA, los valores propios nos indican cuánta varianza tiene cada vector propio. Estos vectores y valores propios determinan las direcciones y magnitudes respectivas en las cuales se capturan la varianza principal de los datos. La matriz de covarianza, al descomponerse en valores y vectores propios, nos ayuda a identificar dónde se concentra la mayor cantidad de información del conjunto de datos.
Covarianza = P * Λ * P^T
Donde Λ es la matriz diagonal de valores propios y P es la matriz de vectores propios. Cada componente principal del PCA equivale a un vector propio, representando una dirección en la cual se maximiza la varianza.
¿Cómo se aplica PCA para la reducción de dimensionalidad?
El PCA se emplea para identificar componentes principales de los datos, asegurando una representación simplificada. Por ejemplo, si tenemos dos variables x1 y x2 que están alineadas diagonalmente, y tras calcular sus vectores y valores propios, determinamos que una dirección particular contiene la mayoría de la varianza, podríamos representar estas dos variables usando una sola componente nueva, reduciendo la dimensionalidad del problema.
En el próximo encuentro con Python, llevaremos estas matemáticas a la práctica, simplificando cálculos complejos y enfatizando el poder del PCA para reducir dimensionalidad. A través de unos cuantificados comandos de Python, lograremos realizar este análisis y traducir grandes cantidades de datos en información compacta y significativa. ¡Espero verte en nuestro próximo paso hacia la implementación del PCA!