No tienes acceso a esta clase

¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera

PCA: análisis de componentes principales

22/25
Recursos

Aportes 43

Preguntas 5

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad?

Recomendación

En el curso de Curso de Álgebra Lineal Aplicada para Machine Learning se ven más a fondo las bases de álgebra lineal y además al final se hace un proyecto aplicado a imágenes donde aplicando PCA con 44 componentes logramos capturar el 80 de la información. Les dejo el curso para que lo cursen, 100% recomendado:

Si desean ver detalles matemáticos del teorema que describe la varianza de un conjunto de datos con varias variables en términos de la matriz de covarianza, pueden revisar la pagina 149 del libro guía del curso:

https://cims.nyu.edu/~cfgranda/pages/stuff/probability_stats_for_DS.pdf

Les dejo este video que me permitió entender el concepto de PCA
https://www.youtube.com/watch?v=FgakZw6K1QQ

En el minuto 13:31 se explica una slide que nunca aparece en pantalla. Para mejor comprensión les comparto la slide que fue tomada de los apuntes pdf que nos compartió el profesor en la primera clase:

Recomiendo a todos que vean estos videos que han sido compartidos previamente acá en los comentarios. Son super útiles para entender los detalles de esta clase:

https://www.youtube.com/watch?v=AniiwysJ-2Y&ab_channel=LuisSerrano

https://www.youtube.com/watch?v=FgakZw6K1QQ&ab_channel=StatQuestwithJoshStarmer

En el minuto 13:31 Pacho señala a un Slide, pero en la pantalla no aparece nada

Lo que voy entendiendo a lo largo del curso es que lo que tenemos que saber es el proceso lógico porque la “fuerza bruta” de las matemáticas la pone Python.

Dato curioso:


Les comparto unas variaciones que pueden ser utilidad de PCA:

  • PCA para compresión

  • PCA aleatorio

  • PCA incremental

  • Kernel PCA

Aunque la explicación de la proyección de un vector es correcta, el dibujo no corresponde con las escalas numéricas de los vectores, lo que puede generar un poco de confusión, por lo que hice por mi cuenta el dibujo del inicio a escala para que quede un poco más claro.

Una de las cosas que podemos ver más claramente con esta gráfica es que la proyección de un vector sobre otro puede ser más grande que el vector sobre el que está siendo proyectado, la única condición que debe seguir si o si el vector proyectado es que debe ir en la misma dirección que el vector sobre el cual se está proyectando.

¿Que es un PCA?

  • El análisis de componentes principales (Principal Component Analysis) o PCA es una herramienta para el análisis exploratorio de los datos que permite visualizar la variación presente de un set de datos con muchas variables.

  • De manera general, el PCA es un tipo de transformación lineal de un set de datos con un cierto número de variables. Dicha transformación ajusta el est de datos a un nuevo sistema de coordenadas de manera que la mayor propoción de la varianza se explica en la primera coordenada y cada coordenada subsiguiente es ortogonal a la anterior y explica una menor variabilidad.

¿Cuando se usa un PCA?

  • Una de las principales aplicaciones de PCA es la reducción de dimensionalidad (es decir, variables): cuando contamos con un gran número de variables cuantitativs posiblemente correlacionadas (indicativo de exstencia de información redundante), un PCA permite “reducirlas” a un número menor de variables transformadas (componentes principales) que expliquen gran parte de la variabilidad de los datos.

Debo de pasar por el curso de algebra lineal antes de continuar con estos videos, ya me siento perdido

tema complejo

https://www.youtube.com/watch?v=5o4YncQeieU
Video para los que necesitan entender lo de valores propios paso por paso.

Me llevo esto PCA es reducción de variables sin perder mucha información en sus componentes principales ej.
Si tengo por decir 5 variables:

  1. Numero de habitaciones
  2. Numero de baños
  3. Área de la casa (m2)
  4. Nivel de delincuencia
  5. colegios cercanos
    se pueden reducir en 2 variables:
    1.- Tamaño
    2.- Ubicación
    De esta manera el PCA aplica esto mismo a un conjunto de datos dado con muchas variables para reducirlo a sus componentes principales, es como simplificar desde el punto de vista matemático, cuando se tiene un número y se reduce a sus mínimo común divisores

Muy ladrilluda esta clase

al principio no entendí, al final tampoco 😂

Esta clase me hizo abandonar la ruta de ciencia de datos, luego de varios cursos de matemáticas aquì estoy finalmente entendiendo todo.

Visualización PCA

Encontré esta página que ayuda a visualizar como varían los componentes del PCA según la distribución de los datos https://setosa.io/ev/principal-component-analysis/

Recuerdo hacer este tipo de ejercicios en un examen de Álgebra Lineal y resultaban bastante extensos en la resolución del mismo, normalmente no daba el tiempo de resolverlos todos.

Este video es bastante interesante:
https://www.youtube.com/watch?v=AniiwysJ-2Y

Este video ayuda machismo a entender estos conceptos de una manera mas digerible

https://www.youtube.com/watch?v=AniiwysJ-2Y

Un buen video para complementar lo visto en clase

https://www.youtube.com/watch?v=AniiwysJ-2Y

He visto que varias personas han compartido videos para poder entender de una mejor manera la regresión lineal y cómo se aplica.

Me gustaría complementar con este Video de Dot CSV que explica de una manera muy didactica la regresión lineal ✨

👾

Buena clase.

En el caso deseen profundizar un poco más sobre Proyección de un vector, les dejo este video https://www.youtube.com/watch?v=99ToTe0fGUs

acá están los Slides del curso, muchachos, ahí aparece la imagen que el profesor menciona

https://static.platzi.com/media/public/uploads/slides-curso-estadistica-descriptiva_abd97c00-3898-41f0-9b54-bfe5fdc5ae54.pdf

Creo que le faltó un detalle a la formula de la proyección y es que la norma del vector sobre el que vamos a proyectar debe estar al cuadrado. el ejemplo que muestra el profesor da la casualidad que el resultado que obtenemos está bien ya que 1 = 1², pero ya cuando probamos con otros valores la formula presentada falla
.

Para los que se les complica un poco de la idea principal sobre PCA, les dejo este video muy intuitivo.

https://www.youtube.com/watch?v=HMOI_lkzW08

En mi opinión, este curso no debería abarcar esta lección, ya que es requisito indispensable saber álgebra lineal, sin embargo, en la ruta que estoy tomando, álgebra lineal se verá hasta dentro de 8 cursos más.

Tocará regresar cuando haya aprendido álgebra lineal.

Reduccion de Variables -> PCA

  • Proyección de un vector sobre la dirección de otro: mientras mayor sea la proyección, mayor varianza conservamos, está relacionada directamente al producto punto o interno de los vectores mencionados, en otras palabras, mientra mayor sea este producto mayor es la varianza.
  • Podemos demostrar que la varianza calculada a lo largo de un vector es igual a la descomposicion de la matriz de covarianza por este vector.
  • En conclusión los vectores propios son las componenetes principales del connjunto de datos, es decir que son los que mayor información tienen

Los valores propios y los vectores propios caracterizan completamente la varianza de un conjunto de datos.

Estás con cosas que están más relacionadas con Machine Learning, cómo se podrían aplicar a Data analyst una matriz de covarianza es muy útil por ejemplo pero simplemente es para la visualazación!

Es interesante el uso del PCA. No sabia que el uso de los vectores pudiera hacer eso. Ahora a ver el resultado en python.

**Les comparto el siguiente video tutorial para afianzar tus conociminetos de esta clase y la siguiente, comienza con una buena introduccion , esta muy bena** [**https://www.youtube.com/watch?v=x-7BHjMA15M**](https://www.youtube.com/watch?v=x-7BHjMA15M)
Wow, La sufri desde el inicio y la sufri mucho al final. Creo que Data Science e requiere de mucho tiempo de dedicacion.
En la explicacion esta proyectando alreves... debe proyectar los puntos sobre el vector de la direccion de la varianza entre min 6:30 y 7:00

Esta explicación también está muy buena:

https://www.youtube.com/watch?v=g-Hb26agBFg

oye !! si no mal recuerdo en mis clases de matemáticas
la formula de proyección entre los vectores, el denominador no debería ser u*u (también |u|^2 ) en lugar de |u| y el vector u no necesariamente debería ser unitario

Información resumida de esta clase
#EstudiantesDePlatzi

  • Es importante aprender sobre algebra lineal

  • Es importante tener claro como crear la proyección de un vector

  • Con Python todo es más fácil 😃

Hice una “simulacion” de la paradoja de Monty Hall:
Monty Hall Simulation

Error minuto 13:31