58

Conoce 5 modelos asombrosos de inteligencia artificial

15514Puntos

hace 2 años

Si llegaste a este blog es porque, como yo, eres un entusiasta de los datos y la inteligencia artificial. ¿Y como no serlo? Los datos desde hace tiempo, se han convertido en uno de los recursos más valiosos en la economía digital y, por supuesto, los alcances del deep learning e inteligencia artificial son cada vez más asombrosos.

Hace algunos años teníamos algoritmos de deep learning que lograban identificar cualquier número de 0 a 9 escrito a mano, eso me volaba la cabeza 🤯, más aun cuando descubrí como lo hacían y que yo podía replicarlo en muy pocas líneas de código.

numbers.png

Si quieres saber cómo lograrlo puedes tomar el curso de Fundamentos de Redes Neuronales con Python y Keras

Unos años más adelante, lo asombroso del deep learning crece exponencialmente y mes a mes se publican papers increibles como propuestas de nuevas arquitecturas de deep learning como lo son los “transformers”.

Por supuesto, todos estos papers de investigación y nuevas formas de obtener resultados terminan en la creación de grandes y complejos modelos con millones de parámetros para entregar resultados a otro nivel en diversas tareas. En este blog veremos algunos de ellos

💡 Antes de empezar debes recordar que esta lista no tiene ningún tipo de orden por capacidad o número de parámetros. Teniendo eso claro, here we go.

1. Dalle-2 e Imagen:

¿Me creerías si te contara que existe una inteligencia artificial capaz de crear una imagen jamás vista y totalmente desde cero, a base de cualquier texto que escribas, por más loco que parezca?

Bueno esta es la apuesta de algoritmos como Dalle 2. Sí, 2 porque en verdad esto es posible desde el año 2021 con Dalle 1, pero en su propuesta más actual el equipo de OpenAI se apoya de los modelos de difusion para mejorar a Dalle y lograr resultados asombrosos.

dalle.png

Tal como lo ves:

  • Un Oso cyborg
  • Un gato hecho de aguacate con píxeles
  • Una galaxia nebulosa de un caballo de mar
  • Un astronauta descansando
  • Un mono hecho de fruta
  • Un súper héroe sandwich

Básicamente Dalle-2 puede generar cualquier imagen que le pidamos y esto es algo sorprendente. No solo eso, también puede editar imágenes existentes e incluso generar imágenes nuevas basadas en patrones de imágenes previas u obras de arte previas.

dalle_2.png
Esto sin duda alguna revolucionará la economía de edición de imágenes, fotografía, arte, diseño digital y demás campos relacionados 🤯

Así mismo, el equipo de Google desarrolló “Imagen” un algoritmo con el mismo propósito de Dalle, pero que lastimosamente aún no tiene una API o algo donde lo podamos probar, pero en el paper muestran estos resultados.

imagen.png

Si quieres saber más de DALLE te invito a visitar Dall·E 2 e Imagen: AI capaz de crear cualquier ilustración

2. GPT3 y PaLM:

¿Te has preguntado qué se puede lograr si enseñamos a una inteligencia artificial a entender el lenguaje que usamos? El lenguaje, palabras, sílabas, verbos, sustantivos, etc., etc. Se pueden lograr cosas maravillosas, desde clasificar el sentimiento del lenguaje (positivo, agresivo, negativo, ira, etc etc) a desarrollar chatbots avanzados, realizar un resumen de algún texto, responder preguntas de un texto en específico, etc.

Lo mejor de todo, esto ahora es posible 🔥

gpt3_collect.png

En Mayo de 2020 el equipo de OpenAI libera GPT-3, que para entonces era el modelo entrenado con mayor cantidad de parámetros, a su vez, libera una API en la que se podía interactuar con el algoritmo y lograr cosas como:

  • Encontrar palabras clave en un texto
  • Realizar resúmenes
  • Pasar de lenguaje humano a python o sql
  • Clasificar tweets
  • Crear pequeñas historias
  • Explicar el código
  • Traducciones
  • Corrección gramatical
  • Etc.

Esto es increíble! Básicamente tenemos un algoritmo capaz de entender el lenguaje humano y, además, el lenguaje en código de programación y automatizar un sin número de tareas que hasta hace unos años era necesario un humano con cierto entendimiento cognitivo y creativo para llevarlas a cabo 🤯.

Hoy el equipo de OpenAI sigue mejorando a GPT-3 pero este año, Google anuncia a PaLM un algoritmo capaz de competir con GPT-3. PaLM es entrenado con 540 billones de parámetros y según el equipo de Google es capaz, incluso, de explicar un chiste. A ese nivel de contexto del lenguaje hemos llegado.

PaLM.png
https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEhLmQjS3gOQ2x7ru3xovYjVw-Yr2fKDCqhDHByQZitD92Yu4L-v2BBa5f_VMfpWM4D0930Dmk35EY1TqGrYUtMQqJO41hkLqXuu51eOpXZ3PvYPSjf5stfEJNJn2idWnRYCCEgBiJuLDTXX5Fgt-Mk13kCKdO12JShGvDO_cArtLKv8U8obJaHiL5ASQg/s1320/Big%20Bench%20Sped%20Up%20Cropped.gifhttps://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEhLmQjS3gOQ2x7ru3xovYjVw-Yr2fKDCqhDHByQZitD92Yu4L-v2BBa5f_VMfpWM4D0930Dmk35EY1TqGrYUtMQqJO41hkLqXuu51eOpXZ3PvYPSjf5stfEJNJn2idWnRYCCEgBiJuLDTXX5Fgt-Mk13kCKdO12JShGvDO_cArtLKv8U8obJaHiL5ASQg/s1320/Big%20Bench%20Sped%20Up%20Cropped.gif

Si quieres saber más de GPT3 y PaLM te invito a visitar GPT-3 y PaLM: ¿qué obtenemos al enseñar lenguaje a una AI?

3. Flamingo 🦩:

El equipo de DeepMind nos trae un algoritmo de Visual Language Models (VLM) capaz de interpretar entradas visuales y de texto a la vez; esto quiere decir que puede recibir imágenes o videos e interactuar con las personas mediante una interfaz de texto.

Lo impresionante acá es el nivel de abstracción de información sobre imágenes o video que logra Flamingo y, a su vez, el cómo puede dar explicaciones, contexto o respuestas a un humano sobre ello.

¿No impresiona mucho aun, verdad? Bueno veamos unos ejemplos:

FLAMINGO.png
  • La primera imagen no solo reconoce que es un perro blanco y peludo, sino también puede responder qué estación del año es con base al color del césped, la raza del perrito, si está acostado, de pie o sentado.
  • En el segundo ejemplo, no solo identifica que es una dirección en NY, sino también que dirección representa y cual es la estación del metro y el parque mas cercano a esa dirección.
  • Con el tercer ejemplo se le enseña a Flamingo a interpretar que dice el texto de una imagen y el color en el que está escrito (que son distintos uno del otro) y aprende el test correctamente. Incluso, cuando se le pregunta por el nombre de este test responde correctamente y da un contexto de por qué es difícil para los humanos hacerlo.
  • Y en el último ejemplo, no solo interpreta que el pequeño perrito hizo un desastre, sino que el dueño está enojado con él, que es un día soleado y el dueño sostiene una taza de café; detalles que muchas veces pueden pasar desapercibidos ante el ojo humano.

Flamingo muestra una increíble destreza al momento de interpretar los estímulos visuales e interactuar con el mundo real.

Si quieres saber más te invito a visitar ¿Qué es Flamingo 🦩? Conoce la nueva lA con comprensión visual

4. Gato 🐱:

También del equipo de DeepMind llega “Gato”, una AI generalista, es decir que una única red neuronal con exactamente los mismos pesos es usada para jugar videojuegos de Atari, capturar imágenes, analizar textos o acomodar bloques como un brazo robótico.

En total, Gato fue entrenado para completar 604 tareas; esto es asombroso 🤯, estamos hablando de un único modelo de AI que es multi propósito, o como lo denomina el equipo de DeepMind “general-purpose system”.

gato.jpg

Este algoritmo es bastante innovador debido a que la mayoría de modelos son entrenados para una tarea en especifico, pero Gato obtiene un muy buen rendimiento en múltiples actividades.

Sí, ya se lo que estás pensando, GPT-3 también realiza múltiples tareas, y sí, lo hace, pero con secuencias de texto. Para este caso, Gato logra resolver tareas distintas, no solo de texto sino de imágenes, videojuegos, motricidad, etc., y esto con un único entrenamiento, lo que le da la capacidad de responder distinto a diferentes entradas o “inputs” de información.

Si quieres saber más te invito a visitar Conoce a GATO 🐱, la nueva AI multipropósito

Usa python para crear inteligencia artificial

5. AlphaCode:

Si estás leyendo este blog seguramente te interesa los datos y el código; es precisamente en el código en donde AlphaCode ****de ****DeepMind se enfoca.

Pensemos entonces en una inteligencia artificial capaz de escribir código con el objetivo de resolver múltiples problemas de programación. Lo increíble en este caso es que esta AI escribe código a nivel competitivo y lo hace bastante bien 🤯

Si has tenido la oportunidad de realizar retos competitivos de programación sabrás que no es sencillo.

CODE.png

AlphaCode requiere un problema a resolver en forma de texto y los ejemplos de entrada y respuesta para poder evaluar cómo se debe comportar la solución del código. Con estas dos entradas es capaz de escribir un código en C++ o Python capaz de solucionar el problema presentado, muy parecido a GitHub Copilot pero a nivel competitivo.

No, no se debe tomar como una amenaza para el dev, sino como una herramienta complementaria y de alta utilidad, pero eso lo hablaré en un post dedicado a AlphCode.

Lee también: IA para Imágenes y Videos

Si quieres saber más te invito a visitar Así funciona AlphaCode: una AI con la capacidad para programar

Cómo profundizar más sobre estos temas

Lo mejor es que la mayoría de estos modelos se publicaron en el año 2022 y hasta ahora vamos por la mitad del año. Estamos viviendo una aceleración en inteligencia artificial y la construcción de modelos colosales a nivel de parámetros como nunca antes se había vivido en la historia, y esto es algo increíble para los entusiastas del deep learning como yo.

Semanalmente, a partir del lanzamiento de este blog, estaré publicando una entrada por cada uno de los modelos listados, así que espéralos 🙂

Además, te recomiendo tomar los siguientes cursos para seguir aprendiendo:

Sigueme en Instagram/Twitter como @alarcon7a ¡Hasta una próxima!

Alarcon7a
Alarcon7a
alarcon7a

15514Puntos

hace 2 años

Todas sus entradas
Escribe tu comentario
+ 2
Ordenar por:
3

Que maravillosa es la Inteligencia Artifical, sería bueno que crees mas cursos relacionados con IA ( usando programación porsupuesto porque solo teóricos no aportar mucho) como por ejemplo para Redes Neuronales Recurrentes LSTM o de Pytorch ( el actul es PESIMO), todos los cursos tuyos que he llevado han sido increíbles y la comunidad Platzi necesita mas de profesores como tú.

3
15514Puntos
2 años

muchas gracias por esos comentarios, trabajaremos en crear mas contenido

2
2574Puntos
Muchas gracias por la información presentada, me parece muy interesante el desarrollo y avance que está teniendo en la actualidad la inteligencia artificial
2
39536Puntos

Debemos ser muy agradecidos de estar en vivos en esta época donde vemos estas cosas. Así que se viene lo chido con la tecnología.

#EstudianteDePlatzi

2
23606Puntos

Genial Carlos, cada vez más nos acercamos a IA’s capaces de llevar a cabo tareas con mayores grados de dificultad, creo que seremos la generación capaz de ver robots humanoides entre nosotros realizando tareas comunes.

2
35640Puntos

Hola Carlos!

Esta genial el artículo, gracias por compartirlo! Justo estábamos hablando en clases sobre estos temas de los modelos de AI 🤖

Para entender mucho mejor cómo funcionan estos modelos que cursos recomendarías a nivel básico para empezar?

2
24949Puntos

Muchas gracias por compartir este maravilloso blog Carlos 😃

2
21016Puntos

Que belleza ver estos avances en IA y más darme cuenta que todo esto se está generando en 2022 cuando estoy enfocado en aprender con toda Machine Learning y Deep Learning 💚❤️

2
5202Puntos

Impresionantes avances realizados con IA, gracias por compartir este artículo.