Uso de MobileNet y TensorFlow JS para Clasificación de Imágenes

Clase 19 de 21 • Curso de TensorFlow.js

Contenido del curso

Entender el concepto de Red Neuronal y Aprendizaje Profundo

Conocer qué es TensorFlow y TensorFlow.js

Entender cuáles son los componentes básicos de una Red Neuronal y cómo entrenarla

Entender cual es la forma común de utilizar un modelo de Red Neuronal

Diseñar un modelo de Regresión Lineal

Crear una aplicación en JavaScript que utilice un modelo de clasificación de Imágenes

Conclusión

21
Resumen Final del Curso de TensorFlow JS
06:47 min

Tomar examen

Resumen

Construir un clasificador de imágenes funcional en el navegador es más accesible de lo que parece. Con TensorFlow JS y el modelo preentrenado MobileNet, es posible identificar objetos en fotografías sin necesidad de entrenar una red neuronal desde cero. Todo el proceso ocurre en unas pocas líneas de código y abre la puerta a técnicas avanzadas como la transferencia de conocimiento.

¿Cómo cargar MobileNet y TensorFlow JS en una página web?

El punto de partida es importar dos librerías: TensorFlow JS, que proporciona la infraestructura para ejecutar modelos de machine learning en JavaScript, y MobileNet, un clasificador de imágenes ya entrenado por Google con millones de imágenes [0:08].

Para trabajar con una imagen externa se utiliza la etiqueta <img> con un atributo clave: crossorigin. Este atributo es indispensable cuando la imagen no reside en el propio servidor. Sin él, el navegador permite visualizarla, pero bloquea su uso dentro del modelo por restricciones de seguridad [0:35].

html <img id="img" crossorigin src="https://..." width="227" />

Una vez confirmado que la imagen se despliega correctamente y las librerías cargan sin errores, el siguiente paso es preparar el modelo.

¿Qué significa cargar un modelo preentrenado en el navegador?

Se declara una función asíncrona porque tanto la descarga del modelo como las predicciones son operaciones que no se ejecutan de forma inmediata. Bloquear la aplicación mientras se descargan varios megabytes de parámetros sería inaceptable para el usuario [1:42].

javascript const img = document.getElementById('img'); let net;

async function app() { net = await mobilenet.load(); } app();

Al invocar mobilenet.load(), el navegador descarga múltiples shards de datos binarios que contienen todos los parámetros aprendidos durante el entrenamiento original. También se descarga una representación textual de la arquitectura de la red neuronal [2:22]. Estos archivos juntos conforman el modelo listo para inferencia.

¿Por qué es obligatorio usar await en la clasificación?

Un error frecuente es olvidar la palabra reservada await antes de net.classify(img). Sin ella, la variable de resultado almacena una promise en lugar del arreglo de predicciones [3:00]. El clasificador necesita tiempo para procesar la imagen y devolver las probabilidades.

javascript const result = await net.classify(img); console.log(result);

El resultado es un arreglo de objetos que indica qué elementos identificó en la imagen y con qué porcentaje de certeza corresponde cada clasificación. Por ejemplo, ante la foto de un perro, el modelo devuelve varias razas posibles ordenadas por probabilidad [3:30].

¿Cómo actualizar predicciones de forma dinámica con cada nueva imagen?

Para convertir el experimento en algo interactivo se agrega un botón que cambia la imagen y dispara una nueva predicción. Se crea un <div> con un identificador donde se despliega la descripción en formato JSON [4:05].

javascript async function displayImagePrediction() { const result = await net.classify(img); document.getElementById('descripcion').innerText = JSON.stringify(result); }

La función cambiarImagen modifica dinámicamente el atributo src de la imagen usando un servicio que devuelve fotografías aleatorias. Un contador se incrementa en cada clic para evitar que el navegador sirva la misma imagen desde caché [5:15].

javascript let count = 0; function cambiarImagen() { count += 1; img.src = https://...?random=${count}; img.onload = displayImagePrediction; }

¿Qué tan preciso es MobileNet con imágenes aleatorias?

Los resultados son reveladores: MobileNet acierta con claridad en objetos comunes como un notebook o una laptop, pero confunde un atrapasueños con un basketball [6:02]. A pesar de haberse entrenado con una cantidad enorme de datos, ningún modelo generaliza perfectamente ante cualquier escenario. Esta limitación es precisamente lo que motiva el siguiente paso: aplicar transferencia de conocimiento para enseñarle al modelo a reconocer categorías nuevas, como señas u objetos específicos, sin reentrenar toda la red desde cero [6:30].

¿Has probado MobileNet con tus propias imágenes? Comparte qué predicciones inesperadas obtuviste y cómo planeas usar la transferencia de conocimiento en tus proyectos.

Comentarios

Alejandro Santamaria

student•

Demo: https://alex112.gitlab.io/transferencia-de-conocimiento-tensorflowjs

Repositorio: https://gitlab.com/alex112/transferencia-de-conocimiento-tensorflowjs.git

Sergio Correa Lopez

student•

archivo index_imagen.html

<!DOCTYPE html>

<html lang="es">
<head>
    <meta charset="UTF-8">
            
    <title> Modelo Regresion </title>

    <!-- Importar TensorFlow.js -->
    <script src="https://cdn.jsdelivr.net/npm/@tensorflow/tfjs"></script>
    <script src="https://cdn.jsdelivr.net/npm/@tensorflow-models/mobilenet"></script>
 
</head>

<body>
    <img id="img" crossorigin src="https://i.imgur.com/JlUvsxa.jpg" width="227" heigh="227">
    <div id="descripcion_imagen"></div>
    
    <button onclick="cambiarImagen();">Cambiar imagen</button>
    <!-- Importar el archivo principal -->
    <script src="scripts.js"></script>
</body>
</html>

luego aqui esta el archivo scripts.js

let net;

const imgEl = document.getElementById('img');
const descEl = document.getElementById('descripcion_imagen');

async function app(){

    net = await mobilenet.load();

    var result = await net.classify(imgEl);
    console.log(result);
    displayImagePrediction();
}

imgEl.onload = async function(){
    displayImagePrediction();
}

async function displayImagePrediction(){
    try{
        result = await net.classify(imgEl);
        descEl.innerHTML = JSON.stringify(result);
    }catch(error){

    }
};

count = 0;
             
async function cambiarImagen(){
    count = count + 1 
    imgEl.src = "https://picsum.photos/200/300?random=" + count;

}

app();

Javier Fuentes Mora

teacher•

Mi pregunta es como funciono count si ni siquiera lo definio ¡? jaja

Javier Fuentes Mora

teacher•

Aqui otra manera de escribir el codigo usando ECMA6 y quitando unas cosas que no se usan

let net;
const imgEl = document.getElementById('img')
const descripcion = document.getElementById('descripcion_imagen')

const app = async () => {
    net = await mobilenet.load()
    displayImagePrediction()
}

imgEl.onload = async () => {
    displayImagePrediction()
}

const cambiarImagen = async ()=>{
    let count = 0;
    count++
    imgEl.src = 'https://picsum.photos/200/300?random=' + count
}
const displayImagePrediction = async () => {
    try {
        const result = await net.classify(imgEl)
        console.log(result)

        descripcion.innerHTML = JSON.stringify(result)
    } catch (error) {
        console.log(error)
    }
}
app()

Enmanuel Castillo

student•

Esta clase me gustó muchísimo, creo que voy entendiendo un poco más sobre el curso y respecto a mi comentario anterior de que estaba perdido, al parecer era yo mismo, creo que he venido tomando las clases con la energía errónea y eso ha generado que no entienda muy bien al profesor. Gracias por leerme :3

Marcos Plata

student•

Muy buena clase, y en mi opinión, esto es lo mas útil de tensorflow.js, es decir, utilizar modelos entrenados en ambientes mas controlados o con mas recursos (python, nodejs), para poder consumirlos en el navegador y ofrecerle al usuario experiencias increíbles basadas en inteligencia artificial.

Mateo Aquino

student•

Es posible generar transferencia de conocimiento con mi google fotos para que logre detectar a familia, amigos y a mí?

Alejandro Santamaria

student•

Si es posible pero identificar personas tiene varios retos que debes resolver de manera incremental, por ejemplo, si quisieras hacer un ejemplo tan sencillo como el que hicimos, tendrías que asegurarte de que las fotos siempre fueran de una sola persona, de otra manera tendrías que utilizar antes un modelo de detección de caras y encima de ese probar el de transferencia de conocimiento que vimos aquí. En general para la identificación de personas hay modelos más avanzados que pueden detectar primero las caras, luego obtener la orientación aproximada de la cara (hacia dónde está volteando) y en base a ello generan un vector que después puede compararse mucho con el que usamos con el knnClassifier y que te dirá a cuál de las etiquetas que inicialmente usaste para el entrenamiento corresponde cada cara. Esos modelos son especializados y pueden generar vectores mucho más precisos que el que obtenemos con Mobilenet (el modelo que estamos usando para transferencia del conocimiento), ya que mobilenet permite clasificar objetos en general, te dejo un artículo donde describen el proceso completo de manera sencilla, parte de lo que usan es una red neuronal convolucional que puede mapear cualquier rostro con un vector y después aplicarle un algoritmo de búsqueda (en el artículo mencionan el SVM). Pero el principio es muy parecido al que utilizamos sin embargo escala de manera más sencilla (puede manejara y distinguir diferencias más sutiles entre unas imágenes y otras)

Daniel Méndez Amutari

student•

alguien conoce un proyecto para el reconocimiento de lenguaje de señas, quiero hacer uno y busque en internet pero tengo problemas con el codigo que descargue

FELIX DAVID CORDOVA GARCIA

student•

Me parece que en el nuevo curso Profesional de TensorFlow hay un proyecto de ese tema

Alejandro Santamaria

student•

échale un ojo a este repo en github: https://github.com/syauqy/handsign-tensorflow-gatsby

Javier Fuentes Mora

teacher•

a alguien mas le sale que no encuentra la libreria ? de tensorflow ??

DevTools failed to load SourceMap: Could not load content for https://cdn.jsdelivr.net/npm/@tensorflow/tf.min.js.map: HTTP error: status code 404, net::ERR_HTTP_RESPONSE_CODE_FAILURE

Alejandro Santamaria

student•

:O lo acabo de probar pero no me sale el error, me puedes platicar un poco sobre el entorno donde lo estás corriendo y quizás mandarme un screenshot? Te dejo mi dirección de correo: alexsmx+platzi@gmail.com

Saludos!

Kengya Moncada

student•

y para los que le da error con la primera carga de la imagen o sea que no se muestra sino despues del click coloqué esto: <img id="img" crossorigin src="https://picsum.photos/200/300" width="227" height="227">```js <img id="img" crossorigin src="https://picsum.photos/200/300" width="227" height="227">

Kengya Moncada

student•

Hola Gente!!!

Hice el ejercicio guiado del profesor pero persistia un problema con el net y classify. investigué mi codigo quedó asi.

let imgEl = document.getElementById("img");
let descEl = document.getElementById("descripcion_imagen");

async function app() {
  try {
    console.log("Loading Model...");
    const net = await mobilenet.load();
    console.log(net, "Modelo cargado correctamente");

    imgEl.onload = async function () {
      const result = await net.classify(imgEl);
      displayImagePrediction(result);
    };

    if (imgEl.complete) {
      const result = await net.classify(imgEl);
      displayImagePrediction(result);
    }
  } catch (err) {
    console.error("Error al cargar el modelo:", err);
  }
}

async function displayImagePrediction(result) {
  if (result) {
    descEl.innerHTML = JSON.stringify(result, null, 2);
    console.log(result);
  } else {
    console.log(
      "El modelo no se cargó o el método classify no está disponible"
    );
  }
}

let count = 0;

async function cambiarImagen() {
  count = count + 1;
  imgEl.src = "https://picsum.photos/200/300?random=" + count;
}

app();

José Luis Marrugo Madrid

student•

Creo que en este no se está aplicando el transfer learning, estamos es probando la MobileNet. Para el transferLearning debemos reentrenar la ultima capa de clasificación. De todas formas muy sencilla y rápida la implementación.

José Luis Marrugo Madrid

student•

En la clase siguiente lo explican Xd

<!DOCTYPE html>

<html lang="es">
<head>
    <meta charset="UTF-8">
            
    <title> Modelo Regresion </title>

    <!-- Importar TensorFlow.js -->
    <script src="https://cdn.jsdelivr.net/npm/@tensorflow/tfjs"></script>
    <script src="https://cdn.jsdelivr.net/npm/@tensorflow-models/mobilenet"></script>
 
</head>

<body>
    <img id="img" crossorigin src="https://i.imgur.com/JlUvsxa.jpg" width="227" heigh="227">
    <div id="descripcion_imagen"></div>
    
    <button onclick="cambiarImagen();">Cambiar imagen</button>
    <!-- Importar el archivo principal -->
    <script src="scripts.js"></script>
</body>
</html>

let net;

const imgEl = document.getElementById('img');
const descEl = document.getElementById('descripcion_imagen');

async function app(){

    net = await mobilenet.load();

    var result = await net.classify(imgEl);
    console.log(result);
    displayImagePrediction();
}

imgEl.onload = async function(){
    displayImagePrediction();
}

async function displayImagePrediction(){
    try{
        result = await net.classify(imgEl);
        descEl.innerHTML = JSON.stringify(result);
    }catch(error){

    }
};

count = 0;
             
async function cambiarImagen(){
    count = count + 1 
    imgEl.src = "https://picsum.photos/200/300?random=" + count;

}

app();

let net;
const imgEl = document.getElementById('img')
const descripcion = document.getElementById('descripcion_imagen')

const app = async () => {
    net = await mobilenet.load()
    displayImagePrediction()
}

imgEl.onload = async () => {
    displayImagePrediction()
}

const cambiarImagen = async ()=>{
    let count = 0;
    count++
    imgEl.src = 'https://picsum.photos/200/300?random=' + count
}
const displayImagePrediction = async () => {
    try {
        const result = await net.classify(imgEl)
        console.log(result)

        descripcion.innerHTML = JSON.stringify(result)
    } catch (error) {
        console.log(error)
    }
}
app()

let imgEl = document.getElementById("img");
let descEl = document.getElementById("descripcion_imagen");

async function app() {
  try {
    console.log("Loading Model...");
    const net = await mobilenet.load();
    console.log(net, "Modelo cargado correctamente");

    imgEl.onload = async function () {
      const result = await net.classify(imgEl);
      displayImagePrediction(result);
    };

    if (imgEl.complete) {
      const result = await net.classify(imgEl);
      displayImagePrediction(result);
    }
  } catch (err) {
    console.error("Error al cargar el modelo:", err);
  }
}

async function displayImagePrediction(result) {
  if (result) {
    descEl.innerHTML = JSON.stringify(result, null, 2);
    console.log(result);
  } else {
    console.log(
      "El modelo no se cargó o el método classify no está disponible"
    );
  }
}

let count = 0;

async function cambiarImagen() {
  count = count + 1;
  imgEl.src = "https://picsum.photos/200/300?random=" + count;
}

app();

Uso de MobileNet y TensorFlow JS para Clasificación de Imágenes

Entender el concepto de Red Neuronal y Aprendizaje Profundo

TensorFlow JS: Introducción y Creación de Modelos Básicos

Fundamentos de Redes Neuronales y Aprendizaje de Máquina

Aprendizaje Profundo: Redes Neuronales y Back Propagation

Conocer qué es TensorFlow y TensorFlow.js

Introducción a TensorFlow y TensorFlow JS: Creación de Redes Neuronales

Introducción a TensorFlow JS para Aplicaciones Web

Aprendizaje de Máquina en el Navegador con TensorFlow JS

Entender cuáles son los componentes básicos de una Red Neuronal y cómo entrenarla

Creación de Modelos con TensorFlow JS usando API de Layers

Entrenamiento de Modelos con TensorFlow JS y API de Layers

Entrenamiento de Redes Neuronales en Navegadores Web

Almacenamiento y Carga de Modelos en TensorFlow JS

Entender cual es la forma común de utilizar un modelo de Red Neuronal

Optimización de Modelos de Aprendizaje en TensorFlow JS

Utilización de Modelos de Aprendizaje de Máquina: Pasos Clave

Transferencia de Aprendizaje en Modelos Preentrenados

Diseñar un modelo de Regresión Lineal

Programación de Modelos de Regresión Lineal con TensorFlow JS

Regresión Lineal con TensorFlow JS: Creación y Visualización de Modelos

Normalización de Datos para Redes Neuronales con TensorFlow

Guardado y carga de modelos de regresión en HTML y JavaScript

Crear una aplicación en JavaScript que utilice un modelo de clasificación de Imágenes

Diseño de Modelos de Clasificación de Imágenes

Uso de MobileNet y TensorFlow JS para Clasificación de Imágenes

Transferencia de Conocimiento en TensorFlow para Clasificación de Imágenes

Conclusión

Resumen Final del Curso de TensorFlow JS