5 modelos asombrosos de AI

Curso de Fundamentos de Redes Neuronales con Python y Keras

COMPARTE ESTE ARTÍCULO Y MUESTRA LO QUE APRENDISTE

Si llegaste a este blog es porque, como yo, eres un entusiasta de los datos y la inteligencia artificial. ¿Y como no serlo? Los datos desde hace tiempo, se han convertido en uno de los recursos más valiosos en la economía digital y, por supuesto, los alcances del deep learning e inteligencia artificial son cada vez más asombrosos.

Hace algunos años teníamos algoritmos de deep learning que lograban identificar cualquier número de 0 a 9 escrito a mano, eso me volaba la cabeza 🤯, más aun cuando descubrí como lo hacían y que yo podía replicarlo en muy pocas líneas de código.

Si quieres saber cómo lograrlo puedes tomar el curso de Fundamentos de Redes Neuronales con Python y Keras

Unos años más adelante, lo asombroso del deep learning crece exponencialmente y mes a mes se publican papers increibles como propuestas de nuevas arquitecturas de deep learning como lo son los “transformers”.

Por supuesto, todos estos papers de investigación y nuevas formas de obtener resultados terminan en la creación de grandes y complejos modelos con millones de parámetros para entregar resultados a otro nivel en diversas tareas. En este blog veremos algunos de ellos

💡 Antes de empezar debes recordar que esta lista no tiene ningún tipo de orden por capacidad o número de parámetros. Teniendo eso claro, here we go.

1. Dalle-2 e Imagen:

¿Me creerías si te contara que existe una inteligencia artificial capaz de crear una imagen jamás vista y totalmente desde cero, a base de cualquier texto que escribas, por más loco que parezca?

Bueno esta es la apuesta de algoritmos como Dalle 2. Sí, 2 porque en verdad esto es posible desde el año 2021 con Dalle 1, pero en su propuesta más actual el equipo de OpenAI se apoya de los modelos de difusion para mejorar a Dalle y lograr resultados asombrosos.

Tal como lo ves:

Un Oso cyborg
Un gato hecho de aguacate con píxeles
Una galaxia nebulosa de un caballo de mar
Un astronauta descansando
Un mono hecho de fruta
Un súper héroe sandwich

Básicamente Dalle-2 puede generar cualquier imagen que le pidamos y esto es algo sorprendente. No solo eso, también puede editar imágenes existentes e incluso generar imágenes nuevas basadas en patrones de imágenes previas u obras de arte previas.

Esto sin duda alguna revolucionará la economía de edición de imágenes, fotografía, arte, diseño digital y demás campos relacionados 🤯

Así mismo, el equipo de Google desarrolló “Imagen” un algoritmo con el mismo propósito de Dalle, pero que lastimosamente aún no tiene una API o algo donde lo podamos probar, pero en el paper muestran estos resultados.

Si quieres saber más de DALLE te invito a visitar Dall·E 2 e Imagen: AI capaz de crear cualquier ilustración

2. GPT3 y PaLM:

¿Te has preguntado qué se puede lograr si enseñamos a una inteligencia artificial a entender el lenguaje que usamos? El lenguaje, palabras, sílabas, verbos, sustantivos, etc., etc. Se pueden lograr cosas maravillosas, desde clasificar el sentimiento del lenguaje (positivo, agresivo, negativo, ira, etc etc) a desarrollar chatbots avanzados, realizar un resumen de algún texto, responder preguntas de un texto en específico, etc.

Lo mejor de todo, esto ahora es posible 🔥

En Mayo de 2020 el equipo de OpenAI libera GPT-3, que para entonces era el modelo entrenado con mayor cantidad de parámetros, a su vez, libera una API en la que se podía interactuar con el algoritmo y lograr cosas como:

Encontrar palabras clave en un texto
Realizar resúmenes
Pasar de lenguaje humano a python o sql
Clasificar tweets
Crear pequeñas historias
Explicar el código
Traducciones
Corrección gramatical
Etc.

Esto es increíble! Básicamente tenemos un algoritmo capaz de entender el lenguaje humano y, además, el lenguaje en código de programación y automatizar un sin número de tareas que hasta hace unos años era necesario un humano con cierto entendimiento cognitivo y creativo para llevarlas a cabo 🤯.

Hoy el equipo de OpenAI sigue mejorando a GPT-3 pero este año, Google anuncia a PaLM un algoritmo capaz de competir con GPT-3. PaLM es entrenado con 540 billones de parámetros y según el equipo de Google es capaz, incluso, de explicar un chiste. A ese nivel de contexto del lenguaje hemos llegado.

https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEhLmQjS3gOQ2x7ru3xovYjVw-Yr2fKDCqhDHByQZitD92Yu4L-v2BBa5f_VMfpWM4D0930Dmk35EY1TqGrYUtMQqJO41hkLqXuu51eOpXZ3PvYPSjf5stfEJNJn2idWnRYCCEgBiJuLDTXX5Fgt-Mk13kCKdO12JShGvDO_cArtLKv8U8obJaHiL5ASQg/s1320/Big%20Bench%20Sped%20Up%20Cropped.gifhttps://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEhLmQjS3gOQ2x7ru3xovYjVw-Yr2fKDCqhDHByQZitD92Yu4L-v2BBa5f_VMfpWM4D0930Dmk35EY1TqGrYUtMQqJO41hkLqXuu51eOpXZ3PvYPSjf5stfEJNJn2idWnRYCCEgBiJuLDTXX5Fgt-Mk13kCKdO12JShGvDO_cArtLKv8U8obJaHiL5ASQg/s1320/Big%20Bench%20Sped%20Up%20Cropped.gif

Si quieres saber más de GPT3 y PaLM te invito a visitar GPT-3 y PaLM: ¿qué obtenemos al enseñar lenguaje a una AI?

3. Flamingo 🦩:

El equipo de DeepMind nos trae un algoritmo de Visual Language Models (VLM) capaz de interpretar entradas visuales y de texto a la vez; esto quiere decir que puede recibir imágenes o videos e interactuar con las personas mediante una interfaz de texto.

Lo impresionante acá es el nivel de abstracción de información sobre imágenes o video que logra Flamingo y, a su vez, el cómo puede dar explicaciones, contexto o respuestas a un humano sobre ello.

¿No impresiona mucho aun, verdad? Bueno veamos unos ejemplos:

La primera imagen no solo reconoce que es un perro blanco y peludo, sino también puede responder qué estación del año es con base al color del césped, la raza del perrito, si está acostado, de pie o sentado.
En el segundo ejemplo, no solo identifica que es una dirección en NY, sino también que dirección representa y cual es la estación del metro y el parque mas cercano a esa dirección.
Con el tercer ejemplo se le enseña a Flamingo a interpretar que dice el texto de una imagen y el color en el que está escrito (que son distintos uno del otro) y aprende el test correctamente. Incluso, cuando se le pregunta por el nombre de este test responde correctamente y da un contexto de por qué es difícil para los humanos hacerlo.
Y en el último ejemplo, no solo interpreta que el pequeño perrito hizo un desastre, sino que el dueño está enojado con él, que es un día soleado y el dueño sostiene una taza de café; detalles que muchas veces pueden pasar desapercibidos ante el ojo humano.

Flamingo muestra una increíble destreza al momento de interpretar los estímulos visuales e interactuar con el mundo real.

Si quieres saber más te invito a visitar ¿Qué es Flamingo 🦩? Conoce la nueva lA con comprensión visual

4. Gato 🐱:

También del equipo de DeepMind llega “Gato”, una AI generalista, es decir que una única red neuronal con exactamente los mismos pesos es usada para jugar videojuegos de Atari, capturar imágenes, analizar textos o acomodar bloques como un brazo robótico.

En total, Gato fue entrenado para completar 604 tareas; esto es asombroso 🤯, estamos hablando de un único modelo de AI que es multi propósito, o como lo denomina el equipo de DeepMind “general-purpose system”.

Este algoritmo es bastante innovador debido a que la mayoría de modelos son entrenados para una tarea en especifico, pero Gato obtiene un muy buen rendimiento en múltiples actividades.

Sí, ya se lo que estás pensando, GPT-3 también realiza múltiples tareas, y sí, lo hace, pero con secuencias de texto. Para este caso, Gato logra resolver tareas distintas, no solo de texto sino de imágenes, videojuegos, motricidad, etc., y esto con un único entrenamiento, lo que le da la capacidad de responder distinto a diferentes entradas o “inputs” de información.

Si quieres saber más te invito a visitar Conoce a GATO 🐱, la nueva AI multipropósito

Usa python para crear inteligencia artificial

5. AlphaCode:

Si estás leyendo este blog seguramente te interesa los datos y el código; es precisamente en el código en donde AlphaCode ****de ****DeepMind se enfoca.

Pensemos entonces en una inteligencia artificial capaz de escribir código con el objetivo de resolver múltiples problemas de programación. Lo increíble en este caso es que esta AI escribe código a nivel competitivo y lo hace bastante bien 🤯

Si has tenido la oportunidad de realizar retos competitivos de programación sabrás que no es sencillo.

AlphaCode requiere un problema a resolver en forma de texto y los ejemplos de entrada y respuesta para poder evaluar cómo se debe comportar la solución del código. Con estas dos entradas es capaz de escribir un código en C++ o Python capaz de solucionar el problema presentado, muy parecido a GitHub Copilot pero a nivel competitivo.

No, no se debe tomar como una amenaza para el dev, sino como una herramienta complementaria y de alta utilidad, pero eso lo hablaré en un post dedicado a AlphCode.

Lee también: IA para Imágenes y Videos

Si quieres saber más te invito a visitar Así funciona AlphaCode: una AI con la capacidad para programar

Cómo profundizar más sobre estos temas

Lo mejor es que la mayoría de estos modelos se publicaron en el año 2022 y hasta ahora vamos por la mitad del año. Estamos viviendo una aceleración en inteligencia artificial y la construcción de modelos colosales a nivel de parámetros como nunca antes se había vivido en la historia, y esto es algo increíble para los entusiastas del deep learning como yo.

Semanalmente, a partir del lanzamiento de este blog, estaré publicando una entrada por cada uno de los modelos listados, así que espéralos 🙂

Además, te recomiendo tomar los siguientes cursos para seguir aprendiendo:

Sigueme en Instagram/Twitter como @alarcon7a ¡Hasta una próxima!

Curso de Fundamentos de Redes Neuronales con Python y Keras

Toma las primeras clases gratis

COMPARTE ESTE ARTÍCULO Y MUESTRA LO QUE APRENDISTE