Flamingo 🦩, AI que responde preguntas con base a lo que “ve”

Curso de Fundamentos de Redes Neuronales con Python y Keras

COMPARTE ESTE ARTÍCULO Y MUESTRA LO QUE APRENDISTE

Existen modelos capaces de generar imágenes como DALLE-2 de OpenAI o Imagen de Google, gracias a los datasets con información de imágenes y texto que describen o identifican lo que representa dicha imagen. Gracias a esto tenemos resultados muy interesantes como el siguiente paisaje.

¿Qué es Flamingo?

Flamingo🦩 es una inteligencia artificial creada por el equipo de DeepMind y que cuenta con 80 billones de parámetros. Es capaz de tomar una imagen o video como entrada/input y con base en esta tener una conversación con un humano mediante un módulo de chat y responder preguntas o entregar contexto de lo que muestra esta entrada de manera muy certera 🤯

Veamos algunos ejemplos:

¿Qué puedes lograr con una AI como Flamingo?

1. Detectar contexto social

Reconoce que la persona en la foto es Barack Obama. ✅
Identifica que hay, al menos, 5 personas en la foto. ✅
Identifica correctamente que el sitio donde se tomo la foto es una escuela. ✅
Reconoce al menos 2 espejos en la imagen. ✅
A la pregunta sobre si “sabe dónde está parada la persona” responde “en una alfombra”. ❌
Es corregido y comprende el contexto de qué es una báscula. ✅
Identifica que el pie de Obama se encuentra en la báscula y eso incrementa el peso. ✅
Es capaz de reconocer que la risa de los demás se debe a esto. ✅

2. Inputs de Dall-e 2

En este caso el input es una imagen creada por Dall-e 2 la cual consiste en un plato de sopa con un monstruo:

Identifica correctamente la imagen del plato con el monstruo ✅
Cree que el monstruo está hecho de vegetales ❌
Se le corrige indicando que es alguna especie de tela, a lo que responde que efectivamente es lana ✅

3. Lectura

Reconoce que es una manzana con un sticker ✅
Identifica lo que está escrito ✅
Reconoce el ambiente o locación de la foto, aun con poca información de este ✅
Identifica que es una escritura a mano y el color del sticker ✅

¿Cómo funciona Flamingo?

Muy a alto nivel y como la gran mayoría de modelos de este estilo, el secreto está en los transformers y las redes pre entrenadas, lo que ayuda al medio ambiente al hacer un reciclado de modelos.

En este caso redes pre entrenadas para el manejo de codificadores de imágenes que convierten la imagen entregada en un vector y son ajustados en una capa implementada por el equipo de DeepMind llamara resampler, que funciona sin importar el tamaño o calidad de la imagen.

Así mismo, las secuencias de texto también son basadas a decodificadores, codificadores y capas de atención propias de los transformers para obtener en el entrenamiento los resultados vistos.

Flamingo fue entrenado con MultiModal MassiveWeb(M3W) un dataset de aproximadamente 43 millones de sitios web en el que capturaban todo el contenido.

De igual manera, filtraban por imágenes y texto antes y después de estas, obteniendo alrededor de 185 millones de imágenes y 82 GB de texto y datasets para computer vision como ALIGN con 1.8 billones de imágenes emparejadas con texto, LTIP (Long Text& Image Pairs) con 312 millones de imagenes, y VTP (Video & Text Pairs) un dataset con alrededor de 27 millones de videos cortos.

Limitantes y riesgos:

En algunas ocasiones Flamingo sufre lo que el equipo de DeepMind llama “alucinaciones” en donde las respuestas no coinciden con la realidad sino mas bien con una respuesta obvia a la pregunta. Esto se da por la naturaleza del dataset con el que es entrenado, o en ocasiones no puede seguir el hilo de la conversación.

Por otro lado, uno de los riesgos que maneja Flamingo es el inherente a otros modelos de manejo de lenguaje e imágenes y es que pueda estar sesgado y ser ofensivo o violento con algún grupo poblacional específico como mujeres, población afro, personas de la comunidad LGBTI o cualquier expresión de diversidad.

Múltiples posibilidades

El equipo de DeepMind muestra ejemplos que reflejan habilidades interactivas interesantes, que permiten a los usuarios “chatear” con el modelo, consultar para obtener información arbitraria sobre imágenes y videos de entrada lo que es llevar un paso más allá a lo que veníamos viendo sobre los modelos de imágenes.

Quizá abra la puerta a una nueva manera de tener contexto del mundo, por ejemplo, a personas ciegas o con algún tipo de discapacidad visual en la que Flamingo puede describir lo que está ocurriendo frente a estímulo visual con alguna cámara, y un paso a un modelo mucho más generalista de AI visual y de manejo del lenguaje.

Déjame saber en los comentarios qué otras posibilidades le ves a esta inteligencia artificial.

Por último, te dejo algunos links de interés:

paper de Flamingo
página de Flamingo
Conoce 5 modelos asombrosos de inteligencia artificial

Y si aun no sabes que son las redes neuronales artificiales y te llama la atención aprender te invito a tomar el curso donde explico los fundamentos de estas.

Curso de Fundamentos de Redes Neuronales con Python y Keras

Sigueme en Instagram/Twitter como @alarcon7a, hasta una próxima!

Curso de Fundamentos de Redes Neuronales con Python y Keras

Toma las primeras clases gratis

COMPARTE ESTE ARTÍCULO Y MUESTRA LO QUE APRENDISTE