Reconocimiento Visual

Clase 21 de 25 • Curso de Inteligencia Artificial con IBM Watson

Contenido del curso

Aprende a usar Manejo de Lenguaje Natural con Watson

Bases para el curso

Aprende el manejo del lenguaje natural con Watson

Watson Studio: Ciencia de Datos y Más

Integración

Tomar examen

Resumen

Entrenar un modelo de reconocimiento de imágenes propio ya no requiere meses de trabajo ni infraestructura costosa. Con Visual Recognition de IBM Cloud, es posible consumir modelos preentrenados o crear clasificadores personalizados usando algoritmos de deep learning, todo desde una interfaz gráfica o mediante llamadas curl al API.

¿Qué es Visual Recognition y qué modelos ofrece?

Visual Recognition es el servicio de IBM Cloud que permite analizar imágenes de escenas, objetos y prácticamente cualquier contenido visual [0:10]. Funciona con dos grandes categorías: modelos preentrenados y modelos personalizados.

Los modelos preentrenados disponibles son:

Modelo general (default): clasifica cualquier imagen en múltiples categorías como animal, objeto, color dominante.
Modelo explícito: determina si una imagen es apta para uso general, detectando violencia o desnudos.
Modelo de comida: identifica elementos alimenticios y los clasifica por tipo.

Dentro de los modelos personalizados existen dos modalidades: clasificación de imágenes y detección de objetos [1:15]. La clasificación asigna etiquetas a la imagen completa, mientras que la detección de objetos localiza elementos específicos dentro de ella.

¿Cuáles son las limitaciones técnicas y buenas prácticas para entrenar modelos?

Antes de subir imágenes, es fundamental conocer las restricciones del servicio [1:30]:

Máximo 10,000 imágenes o 100 MB por cada archivo ZIP.
Mínimo 10 imágenes por ZIP para que funcione.
Máximo 256 MB por entrenamiento.
Calidad mínima recomendada: 32 x 32 píxeles.

Para el consumo, una vez desplegado el modelo, se puede enviar una imagen individual de hasta 100 MB o un ZIP con hasta 20 imágenes [2:10].

¿Cómo mejorar la certeza del clasificador?

Las buenas prácticas recomendadas marcan una diferencia significativa en los resultados [2:30]:

Usar imágenes de al menos 224 x 224 píxeles.
Incluir al menos 50 imágenes por clase positiva.
El rango óptimo es entre 150 y 200 imágenes, que ofrece un buen balance entre tiempo de procesamiento y certeza.
Igualar el número de clases negativas con las positivas. Por ejemplo, al clasificar perros y gatos, agregar una clase negativa de iguanas.
Utilizar fondos realistas similares al entorno real de clasificación. Si se clasifica fruta, no poner manzanas con fondo blanco profesional, sino manzanas en una mano, en un mercado o en una canasta [3:20].
El objeto a clasificar debe ocupar al menos un tercio del tamaño total de la imagen.

¿Cómo consumir los modelos preentrenados y crear uno personalizado?

Para consumir los modelos preentrenados se utiliza una llamada curl tipo POST con el API key y la URL del servicio [5:00]. El classifier ID del modelo general es default, no "general" como podría intuirse. Al probar una imagen de un chihuahua con el modelo general, el servicio devolvió: perro con 90% de certeza, canino con 75%, carnívoro con 75% y hasta identificó la raza [7:00].

Al probar un taco con el modelo general, lo clasificó correctamente con 80% de certeza. Pero al cambiar al modelo de comida, el resultado fue más detallado: identificó la lechuga y sugirió que podría ser una ensalada [8:30].

¿Cómo entrenar un clasificador personalizado paso a paso?

Desde Watson Studio se accede a la opción de crear modelo [9:30]. El caso de uso presentado consiste en un clasificador de turismo que distingue entre la pirámide de Kukulkán en Chichén Itzá y la zona arqueológica de Tulum. La idea es que, dentro de una app de asistente de viajes, baste con tomar una foto para saber en qué lugar turístico se encuentra el usuario [10:20].

El proceso es directo:

Se suben archivos ZIP con imágenes de cada clase.
El nombre del ZIP se convierte automáticamente en el nombre de la clase.
Se presiona Train Model y el entrenamiento toma entre 5 y 10 minutos [12:00].

En las pruebas, el modelo clasificó correctamente Chichén Itzá con 90% de certeza y Tulum con 92% [13:10]. Incluso una imagen parcialmente obstruida fue identificada correctamente. Sin embargo, al probar con la imagen del perro, el modelo la asignó a Kukulkán porque no existía una clase negativa que permitiera descartar imágenes irrelevantes [14:00].

Esta prueba demuestra la importancia de incluir clases negativas en los clasificadores personalizados. Si tu caso de uso lo requiere, puedes replicar la misma llamada POST utilizando el model ID personalizado y tu API key para integrar el reconocimiento visual en cualquier aplicación. ¿Ya tienes en mente un caso de uso para tu propio clasificador? Comparte tus ideas y resultados.

Comentarios

Jhon Jaiver Supelano Rojas

student•

Me entro la curiosidad, le pase mi foto y segun Watson soy un doctor en medicina y científico. Esto va estar divertido aqui el JSON que dio con mi foto

{
    "images": [
        {
            "classifiers": [
                {
                    "classifier_id": "default",
                    "name": "default",
                    "classes": [
                        {
                            "class": "rheumatologist (doctor)",
                            "score": 0.558,
                            "type_hierarchy": "/person/medical specialist/rheumatologist (doctor)"
                        },
                        {
                            "class": "medical specialist",
                            "score": 0.622
                        },
                        {
                            "class": "person",
                            "score": 0.778
                        },
                        {
                            "class": "scientist",
                            "score": 0.527,
                            "type_hierarchy": "/person/scientist"
                        },
                        {
                            "class": "adult person",
                            "score": 0.514,
                            "type_hierarchy": "/person/adult person"
                        },
                        {
                            "class": "obstetrician (doctor)",
                            "score": 0.5,
                            "type_hierarchy": "/person/medical specialist/obstetrician (doctor)"
                        },
                        {
                            "class": "ivory color",
                            "score": 0.916
                        },
                        {
                            "class": "alabaster color",
                            "score": 0.53
                        }
                    ]
                }
            ],
            "image": "JhonSupelano.jpg"
        }
    ],
    "images_processed": 1,
    "custom_classes": 0
}```

Edwin Jorge Arroyo

student•

Interesante compañero, ¿y si eres doctor? jajajaja

Eric Bula Tapias

student•

Interesante la clasificacion que te dio. Quizás en tu foto tendrías camisa blanca (por aquello que sea similar a una bata) o lentes o diplomas colgados al fondo (como en los consultorios) ?

Jimmy Buriticá Londoño

student•

Visual Recognition analiza imágenes de escenas, objeto,y otros contenidos. Seleccione un modelo predefinido o cree su propio clasificador personalizado. Desarrolle aplicaciones inteligentes que analizan el contenido visual de imágenes o fotogramas para comprender lo que sucede en una escena.

Juan Valentin Perdomo Bonilla

student•

probe con una empanada y no funciono, que falta de respeto ome :( jajajaj

"images": [
        {
            "image": "empanada.jpg",
            "error": {
                "code": 404,
                "description": "No classifiers found"
            }
        }
    ],
    "images_processed": 1```

Juan David Arias González

student•

Hola Me esta pidiendo ingresar el password para el usuario del api key. No encontre nada de documentacion sobre una contrasena.

Edwin Jorge Arroyo

student•

Hola, podrías por favor compartir alguna imagen de tu problema para ser más específico con mi respuesta en caso de que pueda ayudarte con tu inconveniente :)

Isaac Carrada

teacher•

Hola!

siempre que te pidan usuario y contraseña es:

usuario: apikey contraseña: el valor del apikey

Saludos!

Daniel Fernando Murcia Perdomo

student•

De los mejores cursos de la linea de inteligencia artificial. Muchas gracias profesor.

Usuario anónimo

user•

Me gusta mas esta forma de evaluar el reconocimiento de imágenes. Ya es explorar como integrarlo con otros servicios propios.

Usuario anónimo

user•

¿En este caso no se estaría generando un overfitting?, al evaluar el modelo con las imágenes que se utilizaron para entrenar a este.

David Jaramillo Saldarriaga

student•

Muy buena esta aplicación de reconocimiento de imágenes

David Jaramillo Saldarriaga

student•

¿Con este servicio se pueden reconocer varios objetos sobre una misma imagen?... En caso aformativo, ¿cómo sería el entrenamiento del modelo?

William Schnaider Torres Bermon

student•

Puedes resivar esta publicación.

Hugo Montoya Diaz

student•

Rafael Vilches

student•

Ya no está disponible 😥

Julian Henao Henao

student•

Utilicé esta imagen -> https://ibb.co/Jzys4pL con mi gata y el aquí el resultado

{
    "images": [
        {
            "classifiers": [
                {
                    "classifier_id": "default",
                    "name": "default",
                    "classes": [
                        {
                            "class": "person",
                            "score": 0.793
                        },
                        {
                            "class": "tomcat",
                            "score": 0.656,
                            "type_hierarchy": "/animal/mammal/carnivore/feline/cat/domestic cat/tomcat"
                        },
                        {
                            "class": "domestic cat",
                            "score": 0.852
                        },
                        {
                            "class": "cat",
                            "score": 0.882
                        },
                        {
                            "class": "feline",
                            "score": 0.895
                        },
                        {
                            "class": "carnivore",
                            "score": 0.917
                        },
                        {
                            "class": "mammal",
                            "score": 0.918
                        },
                        {
                            "class": "animal",
                            "score": 0.92
                        },
                        {
                            "class": "Angora cat",
                            "score": 0.536,
                            "type_hierarchy": "/animal/mammal/carnivore/feline/cat/domestic cat/Angora cat"
                        },
                        {
                            "class": "kitty-cat",
                            "score": 0.501,
                            "type_hierarchy": "/animal/mammal/carnivore/feline/cat/domestic cat/kitty-cat"
                        },
                        {
                            "class": "ferret",
                            "score": 0.5,
                            "type_hierarchy": "/animal/mammal/carnivore/ferret"
                        },
                        {
                            "class": "azure color",
                            "score": 0.915
                        }
                    ]
                }
            ],
            "image": "vaca_yo_140988.jpg"
        }
    ],
    "images_processed": 1,
    "custom_classes": 0
}

Luis Alejandro Hernández Contreras

student•

Alguna idea de como funciona con reconocimiento facial?

Jesus Romero Palacio

student•

Sugerencias

Guillermo Parejo

student•

La clase estuvo genial realizada toda la practica

Estefanía David Rodríguez

student•

Se ve tan "sencillo", en la práctica si será así :)

Rafael Antonio Chica Pretelt

student•

Útil para facebook

Usuario anónimo

user•

Cada vez más interesantes

Usuario anónimo

user•

Gracias!

Usuario anónimo

user•

que genial la clase

{
    "images": [
        {
            "classifiers": [
                {
                    "classifier_id": "default",
                    "name": "default",
                    "classes": [
                        {
                            "class": "rheumatologist (doctor)",
                            "score": 0.558,
                            "type_hierarchy": "/person/medical specialist/rheumatologist (doctor)"
                        },
                        {
                            "class": "medical specialist",
                            "score": 0.622
                        },
                        {
                            "class": "person",
                            "score": 0.778
                        },
                        {
                            "class": "scientist",
                            "score": 0.527,
                            "type_hierarchy": "/person/scientist"
                        },
                        {
                            "class": "adult person",
                            "score": 0.514,
                            "type_hierarchy": "/person/adult person"
                        },
                        {
                            "class": "obstetrician (doctor)",
                            "score": 0.5,
                            "type_hierarchy": "/person/medical specialist/obstetrician (doctor)"
                        },
                        {
                            "class": "ivory color",
                            "score": 0.916
                        },
                        {
                            "class": "alabaster color",
                            "score": 0.53
                        }
                    ]
                }
            ],
            "image": "JhonSupelano.jpg"
        }
    ],
    "images_processed": 1,
    "custom_classes": 0
}```

"images": [
        {
            "image": "empanada.jpg",
            "error": {
                "code": 404,
                "description": "No classifiers found"
            }
        }
    ],
    "images_processed": 1```

{
    "images": [
        {
            "classifiers": [
                {
                    "classifier_id": "default",
                    "name": "default",
                    "classes": [
                        {
                            "class": "person",
                            "score": 0.793
                        },
                        {
                            "class": "tomcat",
                            "score": 0.656,
                            "type_hierarchy": "/animal/mammal/carnivore/feline/cat/domestic cat/tomcat"
                        },
                        {
                            "class": "domestic cat",
                            "score": 0.852
                        },
                        {
                            "class": "cat",
                            "score": 0.882
                        },
                        {
                            "class": "feline",
                            "score": 0.895
                        },
                        {
                            "class": "carnivore",
                            "score": 0.917
                        },
                        {
                            "class": "mammal",
                            "score": 0.918
                        },
                        {
                            "class": "animal",
                            "score": 0.92
                        },
                        {
                            "class": "Angora cat",
                            "score": 0.536,
                            "type_hierarchy": "/animal/mammal/carnivore/feline/cat/domestic cat/Angora cat"
                        },
                        {
                            "class": "kitty-cat",
                            "score": 0.501,
                            "type_hierarchy": "/animal/mammal/carnivore/feline/cat/domestic cat/kitty-cat"
                        },
                        {
                            "class": "ferret",
                            "score": 0.5,
                            "type_hierarchy": "/animal/mammal/carnivore/ferret"
                        },
                        {
                            "class": "azure color",
                            "score": 0.915
                        }
                    ]
                }
            ],
            "image": "vaca_yo_140988.jpg"
        }
    ],
    "images_processed": 1,
    "custom_classes": 0
}

Reconocimiento Visual

Aprende a usar Manejo de Lenguaje Natural con Watson

Bases para el curso

Introducción de Watson

Configuración del entorno de trabajo

Instalar cURL en Windows

Arquitectura REST

Aprende el manejo del lenguaje natural con Watson

Uso de Watson Personality Insights via CURL

Uso de Watson Personality Insights via SDK

Watson Natural Language Classifier

Watson Natural Language Understanding

Discovery

Introducción a Watson Knowledge Studio

Entrenamiento de Watson Knowledge Studio

Introducción a Watson Assistant

Implementación de Watson Assistant

Funciones en Javascript

Watson Speech to Text

Watson Text to Speech

Watson Voice Agent

Watson Studio: Ciencia de Datos y Más

Introducción a Machine Learning y Watson Studio

Entrenamiento de modelo en Watson Studio

Entrenamiento de clusterización en Watson Studio

Reconocimiento Visual

Integración

Functions + Cloudant

Exposición de funciones a través de una API

Proyecto final

Conclusiones