Contenido del curso
Contenido del curso
Bryan Castano
Daniel Erazo
Alex Xiomar Rubio Lopez
Diego Silvera
Gabriel Obregón
Hola Chicos,
Yo he cambiado el PCA(n_components =1 )
Ejecutado el codigo de nuevo.
La Varianza es 0.53 consevando una sola componente principal .
Eigenvalores (varianza explicada): [1.71] Eigenvectores (componentes principales): [[0.58 0.11 0.81]]
Auqnue el porcentaje de varianza > 50%
No es Prudente perder una dimension PC2. ya qye nos quedamos con un poco mas de la informacion relevante en una sola dimension que desprecia la infromacion que teniamos de la segunda dimension que eliminamos , anteriro era 83% porl oque estariamos perdiendo un 30% de vairanza de nuestros datos si cambiamos de dos dimesiones a una unica dimensión.
Qué gran aporte, tienes razón no tiene caso perder tanta varianza cuando con dos dimensiones ya capturamos la gran mayoría de ella.
Al cmabiar la dimension a 1 los resultados brindados fueron los siguientes:
Una varianza de 0.53 conservando un solo componente
Un detalle, la distancia promedio no crece exponencialmente si no como $\Theta(\sqrt(dim))$.
import numpy as np import matplotlib.pyplot as plt dim = 50 n = 1e2 mean = np.arange(dim, dtype=float) for i in range(dim): arr = np.random.uniform(-1, 1, size=(i, int(n))) dist = np.linalg.norm(arr[:, :, None] - arr[:, None, :], axis=0) dist = dist[np.triu_indices_from(dist, k=1)] mean[i] = np.mean(dist) y = np.sqrt(2 * np.arange(dim, dtype=float) / 3) plt.plot(mean, label="Distancia media real") plt.plot(y, label="Distancia media teórica") plt.legend() plt.show()
📊 PCA y reducción de dimensionalidad en Machine Learning
🧠 IDEA CLAVE
➡️ Más dimensiones ≠ mejores modelos
Cuando aumentan las dimensiones:
· Los datos se dispersan
· Las distancias dejan de ser útiles
· Los modelos sobreajustan
👉 Para resolverlo, usamos PCA.
⚠️ MALDICIÓN DE LA DIMENSIONALIDAD
❓ ¿Qué es?
Un problema que aparece al trabajar en espacios de alta dimensión, donde los datos se comportan de forma poco intuitiva.
🔍 ¿Por qué afecta a los modelos?
· 📏 La distancia promedio entre puntos crece
· 🎭 Todos los puntos parecen igualmente lejanos
· 🧩 Fallan los algoritmos basados en cercanía
📉 CONSECUENCIAS PRINCIPALES
🔹 Datos escasos
👤 Cada punto queda aislado
🔹 Distancias sin significado
📐 En muchas dimensiones, casi todas las distancias son iguales
🔹 Overfitting
🐢 Entrenamiento lento
❌ Mala generalización
✅ BENEFICIOS DE REDUCIR DIMENSIONES
✔️ Visualización clara
👁️ Estructuras y clusters visibles en 2D o 3D
✔️ Mayor eficiencia
⚡ Modelos más rápidos
✔️ Menos ruido
🧹 Se eliminan variables irrelevantes
🔄 PCA — ANÁLISIS DE COMPONENTES PRINCIPALES
🎯 ¿Qué hace PCA?
Reduce dimensiones conservando la mayor varianza posible.
💡 Idea central
🔁 PCA realiza un cambio de base hacia las direcciones donde los datos varían más.
🧩 CONCEPTOS CLAVE
🧭 Eigenvectores
➡️ Direcciones de máxima varianza
📊 Eigenvalores
➡️ Cantidad de varianza en cada dirección
📈 Varianza explicada
➡️ Porcentaje de información conservada
🔁 PCA COMO CAMBIO DE BASE
🔄 Pasamos de:
· Ejes originales: x, y, z a
· Nuevos ejes: PC1, PC2, …
📍 Proyectar = calcular nuevas coordenadas
⭐ Conservar primeros componentes = conservar información