50

Conoce a GATO 🐱: la nueva IA multipropósito

15510Puntos

hace 2 años

Comparte en:

Gato es un modelo de inteligencia artificial lanzado en mayo de 2022 por la compañía DeepMind, que puede completar más de 600 tareas distintas que te sorprenderán. ¡Las habilidades de este sistema van desde acomodar bloques con un brazo robot y analizar imágenes, hasta jugar Atari!

Anteriormente, escribí acerca de modelos robustos de inteligencia artificial como GPT 3 y PaLM para el procesamiento de secuencias de texto. También sobre Dall-e 2 para la creación y edición de imágenes, Flamingo para el análisis de fotos desde una interfaz de texto, AlphaFold para predecir cadenas de proteínas y AlphaGo para jugar Go!

En caso de haber leído estos posts, es probable que pienses “si GPT-3 puede realizar al menos 40 tareas, esto no es algo nuevo”. Pues lo que es increíble acerca de Gato es que puede completar acciones que son distintas entre sí y lo convierten en todo un agente generalista, como dice el equipo de DeepMind.

De principiante a experto: aprende inteligencia artificial desde cero

Funciones del modelo de IA Gato

El secreto de Gato es tokenizar (llevar a espacio vectorial) y convertir en secuencias de una sola dimensión cada dataset de entrenamiento. Estos pueden ser textos, imágenes, movimientos, acciones en videojuegos y cualquier tipo de dataset utilizado para entrenar este modelo. Conoce más acerca de sus funciones.

1. Guía el movimiento de brazos robóticos

Esta IA está entrenada para completar tareas que involucren secuencias de movimientos de brazos robóticos como puedes ver en la imagen. Tiene la habilidad de ordenar, oprimir o desplazar distintos objetos al tiempo que identifica sus colores.

2. Juega Atari en una videoconsola

Gato también puede jugar Atari y para esto, se entrena con distintas secuencias de comandos que replican las acciones del jugador en una videoconsola. De esta manera, el modelo entiende cómo ciertas secuencias impactan una partida y decide qué botones oprimir para obtener un gran puntaje.

3. Analiza imágenes

Al igual que la IA Flamingo, pero sin la interfaz de chat, Gato fue entrenado con datos de imágenes y textos convertidos en secuencias para crear subtítulos o textos cortos que describieran lo que se ve dentro de una imagen. O bueno… al menos lo intenta 😅.

En la tercera fotografía dice que hay un joven con barba sosteniendo una banana.
En la segunda imagen, Gato detecta que hay un sujeto con un sombrero viendo hacia una cámara.

Podemos ver que esto no es del todo cierto. Aun así, para ser un modelo generalista de IA, los resultados son muy buenos.

4. Responde conversaciones en un chat

Un módulo de chat basado en el entrenamiento de secuencias de texto, similar que con la descripción de imágenes, no tiene resultados tan certeros, pero si encuentra el contexto de lo que se pregunta.

Por ejemplo, en la esquina superior derecha vemos un chat donde preguntan cuál es la capital de Francia y Gato responde Marsella. Basado en esto, preguntan por qué es famosa esta ciudad y la respuesta es por su música Jazz, lo cual revela que esta herramienta entiende las preguntas, pero algunas veces inventa las respuestas.

El futuro de los agentes generalistas y la IA

Puede que Gato de inicio a la elaboración de brazos robóticos que permitan comunicarse con las personas, robots o genere un modelo único de entrenamiento de IA que interactúe con la sociedad. Este sistema cuenta únicamente con 1.18 billones de parámetros y está por debajo de modelos como GPT-3 o PaLM y pese a eso demuestra grandes resultados.

El equipo de DeepMind revela que es consciente de que los modelos generalistas son un área emergente de la que poco se sabe hasta el momento y seguirán investigando antes de seguir publicándolos. A su vez, hacen un llamado a la ética e investigación para que todas las personas conozcan los riesgos y ventajas de estos sistemas.

Las desventajas de que Gato se vincule a tareas físicas están en que la sociedad llegue a antropomorfizar (darle enfoque de humano) al agente y le den la misma importancia que a una persona. También podría entender el contexto de una manera distinta y confundir un juego de lucha de Atari con el contexto del mundo real y atacar o provocar algún daño. Por eso aún se requiere investigación ética, diseño y testeos sobre los modelos generalistas.

“Actualmente, no estamos implementando Gato para ningún usuario, por lo que anticipamos que no habrá cambios sociales inmediatos”. Recalca el equipo de DeepMind.

Si te interesa conocer más acerca de este tema, te recomiendo leer estos contenidos.

En caso de que quieras descubrir qué son las redes neuronales artificiales, te invito a tomar el Curso de redes Neuronales de Python y Keras, donde explico sus fundamentos.

¡Sígueme en Instagram/Twitter/TikTok como @alarcon7a, hasta una próxima vez!

Alarcon7a

15510Puntos

hace 2 años

Todas sus entradas

Escribe tu comentario

+ 2

Ordenar por:

2

cristian.corrcall

1374Puntos

2 años

Hay persona que creen que las cosas ya estan creadas, lo mejor es que no es cierto, y las que lo saben lo comparten, GRACIAS PLATZI, GRACIAS CARLOS ANDRÉS.

2

16947Puntos

2 años

Muy buen POST! Que interesante el mundo de las IA!

1

812Puntos

un año

EXCELENTE!

1

13407Puntos

un año

¡Este mundo es fascinante! Gracias Carlos, gracias Platzi

1

albertorafaelpc

12610Puntos

2 años

Excelente! Gracias por siempre brindarnos las últimas novedades tecnológicas!

1

marcosdelinglesgmailcom

25640Puntos

2 años

El mundo de la AI es increible, parece ciencia ficcion 😳

1

1663Puntos

2 años

Interesante lo de la inteligencia artificial de GATO al Multiproposito.

1

771Puntos

2 años

Me encanto el Post, esta muy interesante 😁😀

1

22865Puntos

2 años

Hay cosas que todavía no imaginamos porque carecemos del contexto histórico, técnico o material para llevar a la cotidianidad desarrollos que por ahora, no nos acompañan.
.
Sin embargo me resulta fascinante como podemos ver el avance gradual de estas tecnologías y el alcance que el ser humano promedio con una computadora y conexión a internet, puede llegar.
.
Genial post Carlos!

1

22577Puntos

2 años

Habia leido algo hace tiempo sobre Gato en twitter, ahora espero probar Dalle-2, que ya esta para su uso con tokens limitados y pago para mas usos.

1

1970Puntos

2 años

Muy interesantes y prometedores los avances en deep learning, la adaptación sobre todo.

1

35803Puntos

2 años

Mientras GATO no se la pase tirando páginas web y cosas del internet no quiero nada 😩

Entradas relacionadas

204

Qué roles hay en el UX design

El ámbito de la experiencia de usuario está compuesto por muchos roles profesionales diferentes y cada uno cumple un papel importante en el

torresburriel

torresburriel

173

¿Qué es una estructura narrativa?

Desde el punto de vista técnico, una estructura narrativa es el esqueleto de nuestra historia. Nos dice qué elementos usar, cuándo y dónde p

paolamazlum

paolamazlum

176

Platzi English Academy: Leave vs. live, pronunciation training

“I speak English, but I have difficulty understanding native speakers”. Many of us have felt this way before, and this happens because there

CesarCordero

CesarCordero

52

Monday WarmUp Session : cómo comenzar a construir tu startup

Invitado de la semana en Monday WarmUp Session: esta semana nos acompaña Pedro Henrique Si no tienes claro de qué se trata este program

korpi

korpi