Gato es un modelo de inteligencia artificial lanzado en mayo de 2022 por la compañía DeepMind, que puede completar más de 600 tareas distintas que te sorprenderán. ¡Las habilidades de este sistema van desde acomodar bloques con un brazo robot y analizar imágenes, hasta jugar Atari!
Anteriormente, escribí acerca de modelos robustos de inteligencia artificial como GPT 3 y PaLM para el procesamiento de secuencias de texto. También sobre Dall-e 2 para la creación y edición de imágenes, Flamingo para el análisis de fotos desde una interfaz de texto, AlphaFold para predecir cadenas de proteínas y AlphaGo para jugar Go!
En caso de haber leído estos posts, es probable que pienses “si GPT-3 puede realizar al menos 40 tareas, esto no es algo nuevo”. Pues lo que es increíble acerca de Gato es que puede completar acciones que son distintas entre sí y lo convierten en todo un agente generalista, como dice el equipo de DeepMind.
De principiante a experto: aprende inteligencia artificial desde cero
El secreto de Gato es tokenizar (llevar a espacio vectorial) y convertir en secuencias de una sola dimensión cada dataset de entrenamiento. Estos pueden ser textos, imágenes, movimientos, acciones en videojuegos y cualquier tipo de dataset utilizado para entrenar este modelo. Conoce más acerca de sus funciones.
Esta IA está entrenada para completar tareas que involucren secuencias de movimientos de brazos robóticos como puedes ver en la imagen. Tiene la habilidad de ordenar, oprimir o desplazar distintos objetos al tiempo que identifica sus colores.
Gato también puede jugar Atari y para esto, se entrena con distintas secuencias de comandos que replican las acciones del jugador en una videoconsola. De esta manera, el modelo entiende cómo ciertas secuencias impactan una partida y decide qué botones oprimir para obtener un gran puntaje.
Al igual que la IA Flamingo, pero sin la interfaz de chat, Gato fue entrenado con datos de imágenes y textos convertidos en secuencias para crear subtítulos o textos cortos que describieran lo que se ve dentro de una imagen. O bueno… al menos lo intenta 😅.
Podemos ver que esto no es del todo cierto. Aun así, para ser un modelo generalista de IA, los resultados son muy buenos.
Un módulo de chat basado en el entrenamiento de secuencias de texto, similar que con la descripción de imágenes, no tiene resultados tan certeros, pero si encuentra el contexto de lo que se pregunta.
Por ejemplo, en la esquina superior derecha vemos un chat donde preguntan cuál es la capital de Francia y Gato responde Marsella. Basado en esto, preguntan por qué es famosa esta ciudad y la respuesta es por su música Jazz, lo cual revela que esta herramienta entiende las preguntas, pero algunas veces inventa las respuestas.
Puede que Gato de inicio a la elaboración de brazos robóticos que permitan comunicarse con las personas, robots o genere un modelo único de entrenamiento de IA que interactúe con la sociedad. Este sistema cuenta únicamente con 1.18 billones de parámetros y está por debajo de modelos como GPT-3 o PaLM y pese a eso demuestra grandes resultados.
El equipo de DeepMind revela que es consciente de que los modelos generalistas son un área emergente de la que poco se sabe hasta el momento y seguirán investigando antes de seguir publicándolos. A su vez, hacen un llamado a la ética e investigación para que todas las personas conozcan los riesgos y ventajas de estos sistemas.
Las desventajas de que Gato se vincule a tareas físicas están en que la sociedad llegue a antropomorfizar (darle enfoque de humano) al agente y le den la misma importancia que a una persona. También podría entender el contexto de una manera distinta y confundir un juego de lucha de Atari con el contexto del mundo real y atacar o provocar algún daño. Por eso aún se requiere investigación ética, diseño y testeos sobre los modelos generalistas.
“Actualmente, no estamos implementando Gato para ningún usuario, por lo que anticipamos que no habrá cambios sociales inmediatos”. Recalca el equipo de DeepMind.
Si te interesa conocer más acerca de este tema, te recomiendo leer estos contenidos.
En caso de que quieras descubrir qué son las redes neuronales artificiales, te invito a tomar el Curso de redes Neuronales de Python y Keras, donde explico sus fundamentos.
¡Sígueme en Instagram/Twitter/TikTok como @alarcon7a, hasta una próxima vez!
Hay persona que creen que las cosas ya estan creadas, lo mejor es que no es cierto, y las que lo saben lo comparten, GRACIAS PLATZI, GRACIAS CARLOS ANDRÉS.
Muy buen POST! Que interesante el mundo de las IA!
Interesante lo de la inteligencia artificial de GATO al Multiproposito.
Hay cosas que todavía no imaginamos porque carecemos del contexto histórico, técnico o material para llevar a la cotidianidad desarrollos que por ahora, no nos acompañan.
.
Sin embargo me resulta fascinante como podemos ver el avance gradual de estas tecnologías y el alcance que el ser humano promedio con una computadora y conexión a internet, puede llegar.
.
Genial post Carlos!
Muy interesantes y prometedores los avances en deep learning, la adaptación sobre todo.
Excelente! Gracias por siempre brindarnos las últimas novedades tecnológicas!
EXCELENTE!
¡Este mundo es fascinante! Gracias Carlos, gracias Platzi
El mundo de la AI es increible, parece ciencia ficcion 😳
Me encanto el Post, esta muy interesante 😁😀
Habia leido algo hace tiempo sobre Gato en twitter, ahora espero probar Dalle-2, que ya esta para su uso con tokens limitados y pago para mas usos.