Si llegaste a este blog es porque, como yo, eres un entusiasta de los datos y la inteligencia artificial. ¿Y como no serlo? Los datos desde hace tiempo, se han convertido en uno de los recursos más valiosos en la economía digital y, por supuesto, los alcances del deep learning e inteligencia artificial son cada vez más asombrosos.
Hace algunos años teníamos algoritmos de deep learning que lograban identificar cualquier número de 0 a 9 escrito a mano, eso me volaba la cabeza 🤯, más aun cuando descubrí como lo hacían y que yo podía replicarlo en muy pocas líneas de código.
Si quieres saber cómo lograrlo puedes tomar el curso de Fundamentos de Redes Neuronales con Python y Keras
Unos años más adelante, lo asombroso del deep learning crece exponencialmente y mes a mes se publican papers increibles como propuestas de nuevas arquitecturas de deep learning como lo son los “transformers”.
Por supuesto, todos estos papers de investigación y nuevas formas de obtener resultados terminan en la creación de grandes y complejos modelos con millones de parámetros para entregar resultados a otro nivel en diversas tareas. En este blog veremos algunos de ellos
💡 Antes de empezar debes recordar que esta lista no tiene ningún tipo de orden por capacidad o número de parámetros. Teniendo eso claro, here we go.
¿Me creerías si te contara que existe una inteligencia artificial capaz de crear una imagen jamás vista y totalmente desde cero, a base de cualquier texto que escribas, por más loco que parezca?
Bueno esta es la apuesta de algoritmos como Dalle 2. Sí, 2 porque en verdad esto es posible desde el año 2021 con Dalle 1, pero en su propuesta más actual el equipo de OpenAI se apoya de los modelos de difusion para mejorar a Dalle y lograr resultados asombrosos.
Tal como lo ves:
Básicamente Dalle-2 puede generar cualquier imagen que le pidamos y esto es algo sorprendente. No solo eso, también puede editar imágenes existentes e incluso generar imágenes nuevas basadas en patrones de imágenes previas u obras de arte previas.
Esto sin duda alguna revolucionará la economía de edición de imágenes, fotografía, arte, diseño digital y demás campos relacionados 🤯
Así mismo, el equipo de Google desarrolló “Imagen” un algoritmo con el mismo propósito de Dalle, pero que lastimosamente aún no tiene una API o algo donde lo podamos probar, pero en el paper muestran estos resultados.
Si quieres saber más de DALLE te invito a visitar Dall·E 2 e Imagen: AI capaz de crear cualquier ilustración
¿Te has preguntado qué se puede lograr si enseñamos a una inteligencia artificial a entender el lenguaje que usamos? El lenguaje, palabras, sílabas, verbos, sustantivos, etc., etc. Se pueden lograr cosas maravillosas, desde clasificar el sentimiento del lenguaje (positivo, agresivo, negativo, ira, etc etc) a desarrollar chatbots avanzados, realizar un resumen de algún texto, responder preguntas de un texto en específico, etc.
Lo mejor de todo, esto ahora es posible 🔥
En Mayo de 2020 el equipo de OpenAI libera GPT-3, que para entonces era el modelo entrenado con mayor cantidad de parámetros, a su vez, libera una API en la que se podía interactuar con el algoritmo y lograr cosas como:
Esto es increíble! Básicamente tenemos un algoritmo capaz de entender el lenguaje humano y, además, el lenguaje en código de programación y automatizar un sin número de tareas que hasta hace unos años era necesario un humano con cierto entendimiento cognitivo y creativo para llevarlas a cabo 🤯.
Hoy el equipo de OpenAI sigue mejorando a GPT-3 pero este año, Google anuncia a PaLM un algoritmo capaz de competir con GPT-3. PaLM es entrenado con 540 billones de parámetros y según el equipo de Google es capaz, incluso, de explicar un chiste. A ese nivel de contexto del lenguaje hemos llegado.
Si quieres saber más de GPT3 y PaLM te invito a visitar GPT-3 y PaLM: ¿qué obtenemos al enseñar lenguaje a una AI?
El equipo de DeepMind nos trae un algoritmo de Visual Language Models (VLM) capaz de interpretar entradas visuales y de texto a la vez; esto quiere decir que puede recibir imágenes o videos e interactuar con las personas mediante una interfaz de texto.
Lo impresionante acá es el nivel de abstracción de información sobre imágenes o video que logra Flamingo y, a su vez, el cómo puede dar explicaciones, contexto o respuestas a un humano sobre ello.
¿No impresiona mucho aun, verdad? Bueno veamos unos ejemplos:
Flamingo muestra una increíble destreza al momento de interpretar los estímulos visuales e interactuar con el mundo real.
Si quieres saber más te invito a visitar ¿Qué es Flamingo 🦩? Conoce la nueva lA con comprensión visual
También del equipo de DeepMind llega “Gato”, una AI generalista, es decir que una única red neuronal con exactamente los mismos pesos es usada para jugar videojuegos de Atari, capturar imágenes, analizar textos o acomodar bloques como un brazo robótico.
En total, Gato fue entrenado para completar 604 tareas; esto es asombroso 🤯, estamos hablando de un único modelo de AI que es multi propósito, o como lo denomina el equipo de DeepMind “general-purpose system”.
Este algoritmo es bastante innovador debido a que la mayoría de modelos son entrenados para una tarea en especifico, pero Gato obtiene un muy buen rendimiento en múltiples actividades.
Sí, ya se lo que estás pensando, GPT-3 también realiza múltiples tareas, y sí, lo hace, pero con secuencias de texto. Para este caso, Gato logra resolver tareas distintas, no solo de texto sino de imágenes, videojuegos, motricidad, etc., y esto con un único entrenamiento, lo que le da la capacidad de responder distinto a diferentes entradas o “inputs” de información.
Si quieres saber más te invito a visitar Conoce a GATO 🐱, la nueva AI multipropósito
Si estás leyendo este blog seguramente te interesa los datos y el código; es precisamente en el código en donde AlphaCode ****de ****DeepMind se enfoca.
Pensemos entonces en una inteligencia artificial capaz de escribir código con el objetivo de resolver múltiples problemas de programación. Lo increíble en este caso es que esta AI escribe código a nivel competitivo y lo hace bastante bien 🤯
Si has tenido la oportunidad de realizar retos competitivos de programación sabrás que no es sencillo.
AlphaCode requiere un problema a resolver en forma de texto y los ejemplos de entrada y respuesta para poder evaluar cómo se debe comportar la solución del código. Con estas dos entradas es capaz de escribir un código en C++ o Python capaz de solucionar el problema presentado, muy parecido a GitHub Copilot pero a nivel competitivo.
No, no se debe tomar como una amenaza para el dev, sino como una herramienta complementaria y de alta utilidad, pero eso lo hablaré en un post dedicado a AlphCode.
Lee también: IA para Imágenes y Videos
Si quieres saber más te invito a visitar Así funciona AlphaCode: una AI con la capacidad para programar
Lo mejor es que la mayoría de estos modelos se publicaron en el año 2022 y hasta ahora vamos por la mitad del año. Estamos viviendo una aceleración en inteligencia artificial y la construcción de modelos colosales a nivel de parámetros como nunca antes se había vivido en la historia, y esto es algo increíble para los entusiastas del deep learning como yo.
Semanalmente, a partir del lanzamiento de este blog, estaré publicando una entrada por cada uno de los modelos listados, así que espéralos 🙂
Además, te recomiendo tomar los siguientes cursos para seguir aprendiendo:
Sigueme en Instagram/Twitter como @alarcon7a ¡Hasta una próxima!
Que maravillosa es la Inteligencia Artifical, sería bueno que crees mas cursos relacionados con IA ( usando programación porsupuesto porque solo teóricos no aportar mucho) como por ejemplo para Redes Neuronales Recurrentes LSTM o de Pytorch ( el actul es PESIMO), todos los cursos tuyos que he llevado han sido increíbles y la comunidad Platzi necesita mas de profesores como tú.
muchas gracias por esos comentarios, trabajaremos en crear mas contenido
Marvelous! 😍
Debemos ser muy agradecidos de estar en vivos en esta época donde vemos estas cosas. Así que se viene lo chido con la tecnología.
#EstudianteDePlatzi
Genial Carlos, cada vez más nos acercamos a IA’s capaces de llevar a cabo tareas con mayores grados de dificultad, creo que seremos la generación capaz de ver robots humanoides entre nosotros realizando tareas comunes.
Hola Carlos!
Esta genial el artículo, gracias por compartirlo! Justo estábamos hablando en clases sobre estos temas de los modelos de AI 🤖
Para entender mucho mejor cómo funcionan estos modelos que cursos recomendarías a nivel básico para empezar?
Muchas gracias por compartir este maravilloso blog Carlos 😃
Que belleza ver estos avances en IA y más darme cuenta que todo esto se está generando en 2022 cuando estoy enfocado en aprender con toda Machine Learning y Deep Learning 💚❤️
Excelente. Felicidades
Impresionantes avances realizados con IA, gracias por compartir este artículo.
Wow, que potentes son los modelos de IA hoy en dia 😬
¿como se escriben estos blogs?