Conoce a GATO 🐱: la nueva IA multipropósito

Curso de Fundamentos de Redes Neuronales con Python y Keras

Toma las primeras clases gratis

COMPARTE ESTE ARTÍCULO Y MUESTRA LO QUE APRENDISTE

Gato es un modelo de inteligencia artificial lanzado en mayo de 2022 por la compañía DeepMind, que puede completar más de 600 tareas distintas que te sorprenderán. ¡Las habilidades de este sistema van desde acomodar bloques con un brazo robot y analizar imágenes, hasta jugar Atari!

Anteriormente, escribí acerca de modelos robustos de inteligencia artificial como GPT 3 y PaLM para el procesamiento de secuencias de texto. También sobre Dall-e 2 para la creación y edición de imágenes, Flamingo para el análisis de fotos desde una interfaz de texto, AlphaFold para predecir cadenas de proteínas y AlphaGo para jugar Go!

En caso de haber leído estos posts, es probable que pienses “si GPT-3 puede realizar al menos 40 tareas, esto no es algo nuevo”. Pues lo que es increíble acerca de Gato es que puede completar acciones que son distintas entre sí y lo convierten en todo un agente generalista, como dice el equipo de DeepMind.

De principiante a experto: aprende inteligencia artificial desde cero

1.png

Funciones del modelo de IA Gato

El secreto de Gato es tokenizar (llevar a espacio vectorial) y convertir en secuencias de una sola dimensión cada dataset de entrenamiento. Estos pueden ser textos, imágenes, movimientos, acciones en videojuegos y cualquier tipo de dataset utilizado para entrenar este modelo. Conoce más acerca de sus funciones.

1. Guía el movimiento de brazos robóticos

2.png

Esta IA está entrenada para completar tareas que involucren secuencias de movimientos de brazos robóticos como puedes ver en la imagen. Tiene la habilidad de ordenar, oprimir o desplazar distintos objetos al tiempo que identifica sus colores.

2. Juega Atari en una videoconsola

3.png

Gato también puede jugar Atari y para esto, se entrena con distintas secuencias de comandos que replican las acciones del jugador en una videoconsola. De esta manera, el modelo entiende cómo ciertas secuencias impactan una partida y decide qué botones oprimir para obtener un gran puntaje.

3. Analiza imágenes

4.png

Al igual que la IA Flamingo, pero sin la interfaz de chat, Gato fue entrenado con datos de imágenes y textos convertidos en secuencias para crear subtítulos o textos cortos que describieran lo que se ve dentro de una imagen. O bueno… al menos lo intenta 😅.

  • En la tercera fotografía dice que hay un joven con barba sosteniendo una banana.
  • En la segunda imagen, Gato detecta que hay un sujeto con un sombrero viendo hacia una cámara.

Podemos ver que esto no es del todo cierto. Aun así, para ser un modelo generalista de IA, los resultados son muy buenos.

4. Responde conversaciones en un chat

5.png

Un módulo de chat basado en el entrenamiento de secuencias de texto, similar que con la descripción de imágenes, no tiene resultados tan certeros, pero si encuentra el contexto de lo que se pregunta.

Por ejemplo, en la esquina superior derecha vemos un chat donde preguntan cuál es la capital de Francia y Gato responde Marsella. Basado en esto, preguntan por qué es famosa esta ciudad y la respuesta es por su música Jazz, lo cual revela que esta herramienta entiende las preguntas, pero algunas veces inventa las respuestas.

El futuro de los agentes generalistas y la IA

Puede que Gato de inicio a la elaboración de brazos robóticos que permitan comunicarse con las personas, robots o genere un modelo único de entrenamiento de IA que interactúe con la sociedad. Este sistema cuenta únicamente con 1.18 billones de parámetros y está por debajo de modelos como GPT-3 o PaLM y pese a eso demuestra grandes resultados.

El equipo de DeepMind revela que es consciente de que los modelos generalistas son un área emergente de la que poco se sabe hasta el momento y seguirán investigando antes de seguir publicándolos. A su vez, hacen un llamado a la ética e investigación para que todas las personas conozcan los riesgos y ventajas de estos sistemas.

Las desventajas de que Gato se vincule a tareas físicas están en que la sociedad llegue a antropomorfizar (darle enfoque de humano) al agente y le den la misma importancia que a una persona. También podría entender el contexto de una manera distinta y confundir un juego de lucha de Atari con el contexto del mundo real y atacar o provocar algún daño. Por eso aún se requiere investigación ética, diseño y testeos sobre los modelos generalistas.

Actualmente, no estamos implementando Gato para ningún usuario, por lo que anticipamos que no habrá cambios sociales inmediatos”. Recalca el equipo de DeepMind.

Si te interesa conocer más acerca de este tema, te recomiendo leer estos contenidos.

En caso de que quieras descubrir qué son las redes neuronales artificiales, te invito a tomar el Curso de redes Neuronales de Python y Keras, donde explico sus fundamentos.

¡Sígueme en Instagram/Twitter/TikTok como @alarcon7a, hasta una próxima vez!

Curso de Fundamentos de Redes Neuronales con Python y Keras

Toma las primeras clases gratis

COMPARTE ESTE ARTÍCULO Y MUESTRA LO QUE APRENDISTE

0 Comentarios

para escribir tu comentario

Artículos relacionados