Introducción al algoritmo PCA (Principal Component Analysis)
¿Por qué usaríamos este algoritmo?
- Porque en machine learning es normal encontrarnos con problemas donde tengamos una enorme cantidad de features en donde hay relaciones complejas entre ellos y con la variable que queremos predecir.
Pistas donde se puede utilizar un algoritmo PCA:
- Nuestro dataset tiene un número alto de features y no todos sean significativos.
- Hay una alta correlación entre los features.
- Cuando hay overfiting.
- Cuando implica un alto coste computacional.
¿En que consiste el algoritmo PCA?
Básicamente en reducir la complejidad del problema:
1.- Seleccionando solamente las variables relevantes.
2.- Combinándolas en nuevas variables que mantengan la información más importante (varianza de los features).
¿Cuales son pasos para llevar a cabo el algoritmo PCA?
1.- Calculamos la matriz de covarianza para expresar las relaciones entre nuestro features.
2.- Hallamos los vectores propios y valores propios de esta matriz, para medir la fuerza y variabilidad de estas relaciones.
3.- Ordenamos y escogemos los vectores propios con mayor variabilidad, esto es, aportan más información.
¿Qué hacer si tenemos una PC de bajos recursos?
- Si tenemos un dataset demasiado exigente, podemos usar una variación como IPCA.
- Si nuestros datos no tienen una estructura separable linealmente, y encontramos un KERNEL que pueda mapearlos podemos usar KPCA.
¿Quieres ver más aportes, preguntas y respuestas de la comunidad?