Análisis de Componentes Principales en Imágenes: Reducción Dimensional

Curso de Álgebra Lineal Aplicada para Machine Learning

Contenido del curso

Transformaciones lineales y descomposición de matrices

Aplicaciones de SVD a una imagen

Aplicando Álgebra Lineal: Análisis de Componentes Principales (PCA)

Tomar examen

Análisis de Componentes Principales en Imágenes: Reducción Dimensional

Resumen

¿Qué es el análisis de componentes principales?

El análisis de componentes principales (PCA, por sus siglas en inglés) es una técnica invaluable en el mundo del procesamiento de datos para reducir la cantidad de dimensiones con las que trabajamos. Frecuentemente, enfrentamos conjuntos de datos con muchas variables, y PCA nos ayuda a conservar el 80% de la información más relevante con menos variables. En síntesis, simplifica nuestros datos sin perder demasiada información esencial.

¿Cómo preparar datos de imágenes para PCA?

Para ilustrar cómo aplicar PCA, veamos un ejemplo con imágenes. Utilizaremos un conjunto de datos de rostros del laboratorio Olivetti, creado entre 1992 y 1994 en los laboratorios de Cambridge.

Paso 1: Importar librerías necesarias

Utilizaremos librerías de Python como numpy, matplotlib, y pandas para realizar las operaciones requeridas:

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

Paso 2: Leer y normalizar las imágenes

Primero, cargamos las imágenes desde un directorio específico. Luego, normalizamos los valores de las imágenes dividiéndolos por 255, el valor máximo posible en una imagen en escala de grises.

image = np.random.rand(112, 92)  # ejemplo de una imagen
image_normalizada = image / 255.0

Paso 3: Visualización sin ejes

Para graficar estas imágenes sin mostrar los ejes cartesianos, los configuramos así:

fig, axs = plt.subplots(1, 2, figsize=(12, 12))
axs[0].imshow(image, cmap='gray')
axs[1].imshow(image_normalizada, cmap='gray')

for ax in axs:
    ax.set_xticks([])
    ax.set_yticks([])
plt.show()

¿Cómo gestionar múltiples imágenes?

Paso 1: Leer múltiples imágenes

Configuramos un DataFrame para conservar los datos de cada imagen a medida que las leemos. Esto requiere recorrer los archivos de imágenes disponibles.

from glob import glob

imagenes = glob('imagenes/*')
caras = pd.DataFrame()

for archivo in imagenes:
    img = plt.imread(archivo).flatten()  # aplanar la imagen
    caras = caras.append([img], ignore_index=True)

Paso 2: Visualización de un subconjunto de imágenes

Podemos mostrar un conjunto de imágenes seleccionando un número de individuos y el número de tomas para cada uno:

fig, axs = plt.subplots(5, 10, figsize=(15, 8))

for i, ax in enumerate(axs.flatten()):
    img = caras.iloc[i].values.reshape(112, 92)  # reconstruir la forma original
    ax.imshow(img, cmap='gray')
    ax.set_xticks([])
    ax.set_yticks([])

plt.subplots_adjust(wspace=0.1, hspace=0.01)
plt.show()

Este setup nos permite tener una vista preliminar del conjunto de datos con el que trabajaremos en PCA.

Reflexiones finales

El análisis de componentes principales se convertirá en un aliado fundamental para el análisis y procesamiento de datos, especialmente cuando se trabaja con imágenes o datasets de alta dimensionalidad. Además, el uso correcto de librerías como numpy y pandas optimiza la preparación y limpieza de datos. ¡Vamos a seguir explorando el potencial de estas herramientas y a comprender a fondo sus aplicaciones!

johan Stever Rodriguez Molina

Estudiante

la mejor manera de conseguir el data set es:

import sklearn.datasets
 data= sklearn.datasets.fetch_olivetti_faces()

automaticamente se descarga el dataset.

Luis Raúl González Romo

Estudiante

¿Podrìas orientarme como cargarlo? Por favor.

Agregue esta parte:

from sklearn.datasets import fetch_olivetti_faces

y luego:

data = fetch_olivetti_faces()

im = imageio.imread(data)
im = im.astype(np.uint8)

print(im)

No entiendo que salió mal. como que me carga el dataset y no las imágenes

Luis Angel José Portillo Arévalo

Estudiante

Para los que no saben usar el dataset, no hay necesidad de usar imageio para cargar las imagenes, porque ya al hacer:

import sklearn.datasets
data= sklearn.datasets.fetch_olivetti_faces()

Alli se descarga automaticamente como dice johanR todo el dataset en la variable data

tampoco es necesario normalizar los valores porque ya en el dataset estan normalizados, lo unico que se necesitaria es consumirlos.

la variable data contiene el dataset, pero los valores estarian dentro de data.data.

Ademas, data.data es un array almacena individualmente cada imagen en cada posicion del mismo.

La imagen esta almacenada como una tira de valores (todos los valores en una sola dimension), como necesitamos es una matriz, le aplicaremos un reshape.

Las imagenes tienen 4096 valores en una dimension, el cual es un tamaño de 64 x 64 en dos dimensiones, entonces por ejemplo hariamos algo asi:

imagen_1 = data.data[0].reshape(64, 64)
imagen_2 = data.data[1].reshape(64, 64)

De esa forma estarian manipulando la misma matriz normalizada del profesor, por ejemplo para mostrar la imagen numero 6 del dataset seria asi:

plt.imshow(data.data[5].reshape(64,64), cmap='gray')

Rodrigo Josue Goitia Quiroga

Juan R. Vergara M.

Wilson Fernando Antury Torres

Nicolás Rodas Rios

Mauro Benito Montoya Arenas

NICOLAS ZAPATA RAMIREZ

María José Medina

Cristian David Alegria Cardona

Isaac Bryan Ascanoa Roncall

María Eugenia Pereira Chévez

Rodrigo Urquizo Yepez

Carli Code

Profesor

Diego González Castellanos

Israel Guevara

Daniel Andres Rojas Paredes

Paolo Joaquin Pinto Perez

BRANDO JESUS AUCANCELA LOZANO

Carlos José Manosalva

Mario Alexander Vargas Celis

Franco Sosa

Yonaikel M. Delgado N.

Dionicio Perez

Análisis de Componentes Principales en Imágenes: Reducción Dimensional

Transformaciones lineales y descomposición de matrices

Este curso tiene una versión actualizada.

Descomposición de Matrices y Su Aplicación en Machine Learning

Transformaciones Lineales con Matrices en Python: Visualización y Análisis

Autovalores y autovectores en transformaciones lineales

Cálculo de Autovalores y Autovectores con NumPy en Python

Descomposición de matrices: valores y vectores propios

Descomposición de Matrices en Valores Singulares

Transformaciones Lineales con Matrices: Efectos en el Círculo Unitario

Descomposición SVD: Transformaciones de Matrices y Círculo Unitario

Impacto de los Valores Singulares en Transformaciones Matriciales

Aplicaciones de SVD a una imagen

Procesamiento de Imágenes: Escala de Grises y Normalización

Descomposición de imágenes: reducción de tamaño y reconstrucción eficaz

Compresión de Imágenes Usando Descomposición en Valores Singulares

Cálculo de la seudo inversa de Moore-Penrose en Python

Solución de Sistemas Sobredeterminados con Pseudo-Inversa y Python

Aplicando Álgebra Lineal: Análisis de Componentes Principales (PCA)

Reducción de Dimensionalidad en Análisis de Datos: PCA Aplicado

Análisis de Componentes Principales en Imágenes: Reducción Dimensional

Reducción de Dimensiones en Imágenes con PCA

Reducción de Dimensiones con Descomposición de Matrices

Resumen