Eigenfaces: reconstruye rostros con PCA

Curso Avanzado de Álgebra Lineal y Machine Learning: PCA y SVD

Contenido del curso

Preparación y Transformaciones Lineales

Eigen-Análisis

Reducción de Dimensionalidad con PCA

Descomposición en Valores Singulares (SVD)

Tomar examen

Eigenfaces: reconstruye rostros con PCA

Resumen

Reconstruir un rostro humano usando solo una fracción de la información original es posible gracias a los eigenfaces, una aplicación directa de PCA que permite comprimir imágenes faciales conservando sus rasgos más distintivos. Esta técnica es la base del reconocimiento facial moderno y de la compresión de imágenes, y resulta clave para quienes trabajan con visión por computadora o aprendizaje automático.

¿Qué son los eigenfaces y por qué funcionan?

Cuando aplicas PCA a un conjunto de imágenes de rostros, los componentes principales que encuentra el algoritmo no son ejes abstractos: son literalmente caras fantasmas. El primer componente suele capturar la iluminación general, mientras que los siguientes describen rasgos como la forma de la nariz, la línea de la mandíbula o la posición de los ojos [00:24].

La idea central es que cualquier rostro puede representarse como una combinación ponderada de estas eigenfaces. Si usas solo las más relevantes, puedes reconstruir la imagen original con muchísima menos información.

¿Qué es una eigenface? Es un componente principal obtenido al aplicar PCA sobre un conjunto de imágenes de rostros. Cada eigenface representa un patrón de variación visual común entre todas las caras del dataset.

¿Cómo aplicar PCA al dataset de Olivetti Faces?

El dataset Olivetti Faces de scikit-learn contiene 400 imágenes de rostros humanos en escala de grises, cada una de 64 por 64 píxeles, lo que equivale a 4096 píxeles por imagen [02:08]. Esa es la dimensionalidad que vas a reducir.

Los pasos en Google Colab son directos:

Importar fetch_olivetti_faces desde sklearn.datasets y cargar el dataset con shuffle=True para obtener imágenes aleatorias.
Extraer la matriz X = faces_data.data, que tiene forma 400 por 4096.
Guardar las dimensiones de cada imagen con H, W = faces_data.images.shape[1], faces_data.images.shape[2].
Crear la instancia con pca = PCA(n_components=150) y entrenarla con pca.fit(X).

El método fit encuentra los 150 componentes principales sobre todo el conjunto de datos. Luego, con pca.transform(cara_original) aplicas esa transformación a una sola imagen [04:36]. Esa separación entre fit y transform es importante: no usas fit_transform porque ya tienes los componentes calculados y solo quieres proyectar una cara nueva.

¿Cómo reconstruir una imagen con menos componentes?

La parte más visual del proceso es comparar reconstrucciones con distinto número de componentes. Para eso, defines una función reconstruir_con_componentes(K) que toma los primeros K valores de la cara comprimida y rellena el resto con ceros usando np.zeros((1, 150 - K)) y np.c_[cara_reducida, padding] [06:12].

Después aplicas pca.inverse_transform(cara_reducida) para volver al espacio de píxeles originales y un reshape(H, W) para visualizar el resultado con imshow y cmap='gray'.

Los resultados visuales hablan por sí solos:

Con K = 10 la cara se reconoce, pero se pierden detalles como la barba, el bigote o los lentes.
Con K = 50 ya distingues bastantes rasgos, aunque la imagen sigue siendo borrosa.
Con K = 150 la reconstrucción se parece muchísimo a la original, usando apenas una fracción de los 4096 píxeles iniciales.
Con K = 300 prácticamente no notas diferencia con la imagen original [09:48].

¿Por qué se rellena con ceros al usar menos componentes? Porque inverse_transform espera un vector con la misma cantidad de componentes que se usaron en el fit. Rellenar con ceros equivale a anular la contribución de los componentes que no quieres considerar.

¿Qué tan eficiente es esta compresión?

Pasar de 4096 píxeles a 150 componentes representa una reducción cercana al 96% del tamaño original conservando una calidad visual notable. Esa eficiencia es la que hace de PCA una herramienta tan usada en compresión de imágenes y en sistemas de reconocimiento facial.

¿Qué errores comunes evitar al programar eigenfaces?

Durante la implementación es fácil cometer descuidos que rompen el flujo. Dos para tener presentes:

Confundir un punto con una coma al concatenar matrices con np.c_, lo que provoca un AttributeError sobre el padding.
Olvidar actualizar el parámetro n_components cuando cambias el número objetivo, por ejemplo al pasar de 150 a 300 sin reentrenar el modelo.

Reentrenar el PCA con el nuevo valor y volver a ejecutar el transform resuelve ambos casos.

¿Cómo practicar con tus propios datos?

Un buen ejercicio es tomar un dataset distinto: rostros de tus amigos, de tu familia o cualquier conjunto público de caras. Aplica el mismo flujo y observa qué detalles se pierden con 10, 50 o 100 componentes, y si 150 son suficientes para tu caso. Comparte tus hallazgos en los comentarios.

¿Cuál fue el componente mínimo con el que aún reconociste la cara? Cuéntalo abajo.

Gabriel Obregón

Estudiante

📘PCA & EIGENFACES

🎯 ❓ Pregunta clave

➡️ ¿Se puede representar un rostro con mucha menos información sin perder su esencia?

✅ Sí, usando PCA y eigenfaces.

🧠 💡 Idea central

🧩 Un rostro puede expresarse como una combinación ponderada de eigenfaces.

✔️ Menos datos

✔️ Misma identidad

✔️ Estructura facial conservada

➡️ Base del reconocimiento facial y la compresión de imágenes.

👻 🧩 ¿Qué son los eigenfaces?

👤 Los eigenfaces son los componentes principales obtenidos al aplicar PCA a un conjunto de rostros.

Representan patrones comunes del conjunto:

🌗 Iluminación general (primer componente)
👁️ Posición de los ojos
👃 Forma de la nariz
🦷 Línea de la mandíbula

🧠 Cada eigenface es una “cara fantasma” que captura una parte de la variación total.

🔢 🧠 Representación de un rostro

📌 Un rostro se reconstruye así:

➕ Se combinan eigenfaces
⚖️ Cada una tiene un peso
🧮 La suma ponderada forma el rostro final

🔍 Efecto del número de componentes:

🔹 Pocos → se pierde textura fina (barba, lentes)
🔹 Muchos → imagen muy cercana al original

📉 🎯 ¿Por qué usar PCA?

✔️ Reduce dimensionalidad

✔️ Elimina redundancia

✔️ Mantiene la estructura esencial

📊 De 4096 píxeles → 150 valores con alta fidelidad.

🗂️ 📦 Dataset: Olivetti Faces

👥 400 imágenes de rostros 📐 Tamaño: 64 × 64 píxeles 🔢 4096 características por imagen 🧪 Dataset incluido en Scikit-learn

🛠️ 🧰 Herramientas usadas

🧮 NumPy → manejo de datos
📈 Matplotlib → visualización
🤖 Scikit-learn → PCA y dataset
☁️ Google Colab → entorno de trabajo

🔄 🔧 Flujo de trabajo con PCA

➡️ 1️⃣ Cargar imágenes

➡️ 2️⃣ Ajustar PCA (fit)

➡️ 3️⃣ Comprimir rostro (transform)

➡️ 4️⃣ Reconstruir rostro (inverse_transform)

➡️ 5️⃣ Visualizar y comparar resultados

⚠️ Si se usan menos componentes:

➕ Se completa con ceros (padding) antes de reconstruir

### Importación de Bibliotecas y Carga de Imágenes
import numpy as np
import matplotlib.pyplot as plt
from sklearn.decomposition import PCA
from PIL import Image

img = Image.open('../varian-halcyon.jpg')

# Convertir a array de numpy
img_array = np.array(img)

print(img_array.shape) 
# Suponiendo que img_array es (alto, ancho, 3)
(854, 1280, 3)
alto, ancho, canales = img_array.shape

''' Ya que PCA de Scikit-Learn solo acepta arreglos 2D, cambiamos la forma de 3D a 2D
(alto, ancho * 3(canales)) para que cada fila sea un píxel con sus 3 valores RGB'''
img_reshape = img_array.reshape(alto, ancho * canales)

pca = PCA(n_components=100) # Ajusta n_components según lo que querramos conservar
pca.fit(img_reshape)
def reconstruir_con_k_componentes(k):
    # Proyectamos los datos originales a los primeros k componentes
    # En lugar de hacer slice manual y padding, usamos transform e inverse_transform
    
    # 1. Transformar la imagen original a sus componentes principales
    proyeccion = pca.transform(img_reshape) 
    
    # 2. Creamos una copia donde borramos (ponemos a 0) los componentes > k
    proyeccion_reducida = proyeccion.copy()
    proyeccion_reducida[:, k:] = 0
    
    # 3. Reconstruir al espacio original (alto * ancho * 3)
    reconstruccion = pca.inverse_transform(proyeccion_reducida)
    
    # 4. Volver a la forma de imagen original (con los 3 canales)
    return reconstruccion.reshape(alto, ancho, canales).astype(int)
fig, axes = plt.subplots(1, 4, figsize=(16, 5))

# Imagen Original (Asegúrate de pasarle los 3 canales si es color)
axes[0].imshow(img_reshape.reshape(alto, ancho, canales))
axes[0].set_title('Original')

# Reconstrucciones
for i, k_val in enumerate([10, 50, 100], 1):
    axes[i].imshow(reconstruir_con_k_componentes(k=k_val))
    axes[i].set_title(f'k={k_val}')

plt.show()

### Importación de Bibliotecas y Carga de Imágenes
import numpy as np
import matplotlib.pyplot as plt
from sklearn.decomposition import PCA
from PIL import Image

img = Image.open('../varian-halcyon.jpg')

# Convertir a array de numpy
img_array = np.array(img)

print(img_array.shape) 
# Suponiendo que img_array es (alto, ancho, 3)
(854, 1280, 3)
alto, ancho, canales = img_array.shape

''' Ya que PCA de Scikit-Learn solo acepta arreglos 2D, cambiamos la forma de 3D a 2D
(alto, ancho * 3(canales)) para que cada fila sea un píxel con sus 3 valores RGB'''
img_reshape = img_array.reshape(alto, ancho * canales)

pca = PCA(n_components=100) # Ajusta n_components según lo que querramos conservar
pca.fit(img_reshape)
def reconstruir_con_k_componentes(k):
    # Proyectamos los datos originales a los primeros k componentes
    # En lugar de hacer slice manual y padding, usamos transform e inverse_transform
    
    # 1. Transformar la imagen original a sus componentes principales
    proyeccion = pca.transform(img_reshape) 
    
    # 2. Creamos una copia donde borramos (ponemos a 0) los componentes > k
    proyeccion_reducida = proyeccion.copy()
    proyeccion_reducida[:, k:] = 0
    
    # 3. Reconstruir al espacio original (alto * ancho * 3)
    reconstruccion = pca.inverse_transform(proyeccion_reducida)
    
    # 4. Volver a la forma de imagen original (con los 3 canales)
    return reconstruccion.reshape(alto, ancho, canales).astype(int)
fig, axes = plt.subplots(1, 4, figsize=(16, 5))

# Imagen Original (Asegúrate de pasarle los 3 canales si es color)
axes[0].imshow(img_reshape.reshape(alto, ancho, canales))
axes[0].set_title('Original')

# Reconstrucciones
for i, k_val in enumerate([10, 50, 100], 1):
    axes[i].imshow(reconstruir_con_k_componentes(k=k_val))
    axes[i].set_title(f'k={k_val}')

plt.show()

Eigenfaces: reconstruye rostros con PCA

Preparación y Transformaciones Lineales

Cómo descomponer matrices con PCA y SVD

Cómo leer una matriz como transformación geométrica

Eigen-Análisis

Eigenvectores y eigenvalores con NumPy

Matriz de covarianza y eigenvectores en PCA

Reducción de Dimensionalidad con PCA

Reducción de dimensiones con PCA en Python

Cómo implementar PCA desde cero con NumPy