Análisis de Componentes Principales (PCA) y Proyección de Vectores

Clase 22 de 24 • Curso de Matemáticas para Data Science: Estadística Descriptiva

Resumen

¿Qué es el análisis de componentes principales o PCA?

El Análisis de Componentes Principales (PCA) es una técnica fundamentalmente dirigida a reducir la dimensionalidad de grandes conjuntos de datos, permitiendo simplificar su estructura sin perder información relevante. En el contexto del machine learning, muchos conjuntos de datos contienen numerosas variables, algunas de las cuales pueden estar correlacionadas o no ser significativas para el modelo. Así, PCA se convierte en una herramienta esencial al permitirnos identificar y retener solo aquellas variables que concentran la información mínima necesaria.

¿Cómo se relaciona el álgebra lineal con PCA?

El PCA se fundamenta en conceptos de álgebra lineal, esencialmente en la proyección de vectores y en el cálculo de varianzas en diversas direcciones. La proyección de un vector sobre otro se refiere a la "sombra" o representación de un vector en la dirección de otro. Por ejemplo, considerando los vectores a = (2, 2) y b = (1, 0), la proyección de a sobre b resulta en el vector (2, 0). Este concepto es elemental para determinar cómo las variables de un conjunto de datos se distribuyen en diferentes direcciones.

a_p = (a · b) / |b|
a_p = (2 * 1 + 2 * 0) / 1
a_p = 2, resultando en la dirección de b, es decir, (2, 0)

¿Cómo se capturan las varianzas en un conjunto de datos?

Para entender mejor el papel del álgebra lineal en PCA, consideremos cómo se captura la varianza de los datos en diversas direcciones. Cada dirección de proyección puede servir para abordar cómo varían los datos, y hay direcciones que capturan mejor esa varianza. Si se coloca un vector a lo largo de la tendencia de un conjunto de datos dispersos, su proyección maximizará las varianzas observadas en esa dirección.

El cálculo de la varianza a lo largo de una dirección implica el uso de la matriz de covarianza del conjunto de datos. De forma matemática, se puede expresar como:

Varianza_dirección = (b^T) * Covarianza * b

Donde b es la dirección de interés. Descomponiendo la matriz de covarianza en términos de valores y vectores propios, se puede obtener un entendimiento profundo de cómo se distribuyen las varianzas a través de las componentes principales, capturando la mayor información posible con la menor cantidad de variables.

¿Qué papel juegan los valores y vectores propios en PCA?

En el PCA, los valores propios nos indican cuánta varianza tiene cada vector propio. Estos vectores y valores propios determinan las direcciones y magnitudes respectivas en las cuales se capturan la varianza principal de los datos. La matriz de covarianza, al descomponerse en valores y vectores propios, nos ayuda a identificar dónde se concentra la mayor cantidad de información del conjunto de datos.

Covarianza = P * Λ * P^T

Donde Λ es la matriz diagonal de valores propios y P es la matriz de vectores propios. Cada componente principal del PCA equivale a un vector propio, representando una dirección en la cual se maximiza la varianza.

¿Cómo se aplica PCA para la reducción de dimensionalidad?

El PCA se emplea para identificar componentes principales de los datos, asegurando una representación simplificada. Por ejemplo, si tenemos dos variables x1 y x2 que están alineadas diagonalmente, y tras calcular sus vectores y valores propios, determinamos que una dirección particular contiene la mayoría de la varianza, podríamos representar estas dos variables usando una sola componente nueva, reduciendo la dimensionalidad del problema.

En el próximo encuentro con Python, llevaremos estas matemáticas a la práctica, simplificando cálculos complejos y enfatizando el poder del PCA para reducir dimensionalidad. A través de unos cuantificados comandos de Python, lograremos realizar este análisis y traducir grandes cantidades de datos en información compacta y significativa. ¡Espero verte en nuestro próximo paso hacia la implementación del PCA!

Miguel Angel Velazquez Romero

student•

Recomendación

En el curso de Curso de Álgebra Lineal Aplicada para Machine Learning se ven más a fondo las bases de álgebra lineal y además al final se hace un proyecto aplicado a imágenes donde aplicando PCA con 44 componentes logramos capturar el 80 de la información. Les dejo el curso para que lo cursen, 100% recomendado:

Curso de Álgebra Lineal Aplicada para Machine Learning

Uriel Alfonso Velandia Donado

student•

Hola Miguel, tomaré tu recomendación, por otra parte, ¿Cómo hiciste para colocar un título en los comentarios?

Miguel Angel Velazquez Romero

student•

Usé Markdown

Sebastian Calderón Araque

student•

Recomiendo a todos que vean estos videos que han sido compartidos previamente acá en los comentarios. Son super útiles para entender los detalles de esta clase:

https://www.youtube.com/watch?v=AniiwysJ-2Y&ab_channel=LuisSerrano

https://www.youtube.com/watch?v=FgakZw6K1QQ&ab_channel=StatQuestwithJoshStarmer

Daniel Osorno

student•

Tal vez el mejor video que he visto muchisimas gracias

KEVIN ANDRES ROMERO ELIZALDE

student•

Simplemente el mejor! Gracias.

Antonio Demarco Bonino

student•

Lo que voy entendiendo a lo largo del curso es que lo que tenemos que saber es el proceso lógico porque la "fuerza bruta" de las matemáticas la pone Python.

Andres López

student•

En el minuto 13:31 Pacho señala a un Slide, pero en la pantalla no aparece nada

Felipe Arias Rubiano

student•

Es muy cierto, falta que lo corrijan, al igual en caso de ser necesario en los slides del curso el PDF que nos comparten al principio aparece este slide para mayor comprensión.

Jason Nicolas Arias

student•

Aunque la explicación de la proyección de un vector es correcta, el dibujo no corresponde con las escalas numéricas de los vectores, lo que puede generar un poco de confusión, por lo que hice por mi cuenta el dibujo del inicio a escala para que quede un poco más claro.

Una de las cosas que podemos ver más claramente con esta gráfica es que la proyección de un vector sobre otro puede ser más grande que el vector sobre el que está siendo proyectado, la única condición que debe seguir si o si el vector proyectado es que debe ir en la misma dirección que el vector sobre el cual se está proyectando.

Gabriela Obregón Ortiz

student•

Muchas gracias por aclararlo. Tuve exactamente la misma inquietud.

Brayam Esparza

student•

cuando hacia mi demostracion me quedaba la misma duda,

Miguel Angel Velazquez Romero

student•

Dato curioso:

Les comparto unas variaciones que pueden ser utilidad de PCA:

PCA para compresión
PCA aleatorio
PCA incremental
Kernel PCA

Jhon Freddy Tavera Blandon

student•

¿Que es un PCA?

El análisis de componentes principales (Principal Component Analysis) o PCA es una herramienta para el análisis exploratorio de los datos que permite visualizar la variación presente de un set de datos con muchas variables.
De manera general, el PCA es un tipo de transformación lineal de un set de datos con un cierto número de variables. Dicha transformación ajusta el est de datos a un nuevo sistema de coordenadas de manera que la mayor propoción de la varianza se explica en la primera coordenada y cada coordenada subsiguiente es ortogonal a la anterior y explica una menor variabilidad.

¿Cuando se usa un PCA?

Una de las principales aplicaciones de PCA es la reducción de dimensionalidad (es decir, variables): cuando contamos con un gran número de variables cuantitativs posiblemente correlacionadas (indicativo de exstencia de información redundante), un PCA permite “reducirlas” a un número menor de variables transformadas (componentes principales) que expliquen gran parte de la variabilidad de los datos.

Jafet Calderon

student•

Debo de pasar por el curso de algebra lineal antes de continuar con estos videos, ya me siento perdido

Juan David Suarez

student•

https://www.youtube.com/watch?v=5o4YncQeieU Video para los que necesitan entender lo de valores propios paso por paso.

DANIELA GRANADA

student•

al principio no entendí, al final tampoco 😂

clint martinez

student•

Me llevo esto PCA es reducción de variables sin perder mucha información en sus componentes principales ej. Si tengo por decir 5 variables:

Numero de habitaciones
Numero de baños
Área de la casa (m2)
Nivel de delincuencia
colegios cercanos se pueden reducir en 2 variables: 1.- Tamaño 2.- Ubicación De esta manera el PCA aplica esto mismo a un conjunto de datos dado con muchas variables para reducirlo a sus componentes principales, es como simplificar desde el punto de vista matemático, cuando se tiene un número y se reduce a sus mínimo común divisores

Martha Helena Acevedo Naranjo

student•

tema complejo

Mauricio Estrada

student•

En mi opinión, este curso no debería abarcar esta lección, ya que es requisito indispensable saber álgebra lineal, sin embargo, en la ruta que estoy tomando, álgebra lineal se verá hasta dentro de 8 cursos más.

Tocará regresar cuando haya aprendido álgebra lineal.

Hugo Fernandez Quiroz

student•

Visualización PCA

Encontré esta página que ayuda a visualizar como varían los componentes del PCA según la distribución de los datos https://setosa.io/ev/principal-component-analysis/

JULIAN ANDRES TEJADA CHICA

student•

Muy ladrilluda esta clase

Gabriela Andreina García Uzcategui

student•

Esta clase me hizo abandonar la ruta de ciencia de datos, luego de varios cursos de matemáticas aquì estoy finalmente entendiendo todo.

Esmeralda Palacios

student•

acá están los Slides del curso, muchachos, ahí aparece la imagen que el profesor menciona

https://static.platzi.com/media/public/uploads/slides-curso-estadistica-descriptiva_abd97c00-3898-41f0-9b54-bfe5fdc5ae54.pdf

Brian Reina

student•

Recuerdo hacer este tipo de ejercicios en un examen de Álgebra Lineal y resultaban bastante extensos en la resolución del mismo, normalmente no daba el tiempo de resolverlos todos.

Jose Luis Higuera Caraveo

student•

Que significa que un vector sea transpuesto?

Orlando Ramirez

student•

Hola amigo, significa que el vector si estaba en fila ahora será un vector columna o si era un vector columna ahora será un vector en fila.

Jose Luis Higuera Caraveo

student•

Perfectamente entendido. Muchas gracias por el aporte!

Matías Collado

student•

El profesor es muy hábil explicando pero pareciera que le presionaron para que resuma todo en pocos minutos dejando una ensalada de conceptos que terminan confundiendo mas que explicando.

Análisis de Componentes Principales (PCA) y Proyección de Vectores

¿Para qué sirve la estadística descriptiva?

Fundamentos de Estadística Descriptiva y sus Aplicaciones Prácticas

Estadística Descriptiva en el Flujo de Ciencia de Datos

Estadística Descriptiva Aplicada a Ciencia de Datos

Estadística descriptiva para analítica

Uso de Deepnote para Jupyter Notebooks en Ciencia de Datos

Tipos de Datos en Ciencia de Datos: Categóricos y Numéricos

Medidas de Tendencia Central: Media, Mediana y Moda

Media vs. Mediana: Diferencias y Aplicaciones Prácticas

"Estadística Descriptiva con Pandas: Medidas de Tendencia Central"

Rango y Rango Intercuartil en Medidas de Dispersión

Desviación Estándar y Varianza en Estadística Descriptiva

Cálculo y Visualización de Medidas de Dispersión en Python

Visualización de Datos: Catálogo y Uso de Diagramas en Python

Diagramas de Dispersión y su Análisis con Seaborn

Estadística en la ingesta de datos

Escalamiento Lineal de Datos Numéricos para Machine Learning

Transformaciones No Lineales para Datos Sesgados en Machine Learning

Procesamiento y Escalamiento de Datos Numéricos en Python

Mapeo de Variables Categóricas en Python: Dumi y OneHot

Codificación de Variables Categóricas en Python con Pandas y Scikit-Learn

Correlación y covarianza en análisis de datos

Construcción y Análisis de la Matriz de Covarianza en Python

Proyecto de aplicación

Álgebra Lineal: Vectores y Valores Propios de una Matriz