¿Por qué una IA escribe texto, genera imágenes o transcribe audio?

Clase 26 de 29 • Curso de Introducción a Inteligencia Artificial (2023)

Contenido del curso

Fundamentos de inteligencia artificial (IA)

IA dentro de la empresa

Inteligencia Artificial para comunicación efectiva

IA para toma de decisiones

Uso potencial de la inteligencia artificial

El futuro del trabajo con inteligencia artificial

29
IA: Individuos Aumentados
02:07 min

Tomar examen

Resumen

La inteligencia artificial avanza a una velocidad sorprendente, y detrás de ese progreso se encuentran los modelos fundacionales. Estas arquitecturas, entrenadas con cantidades masivas de datos, son el motor que impulsa herramientas como ChatGPT, DALL-E y los asistentes de voz que usamos a diario. Comprender cómo funcionan es clave para aprovechar su potencial y entender hacia dónde se dirige la tecnología.

¿Qué son los modelos de lenguaje grande o LLM?

Un LLM (Large Language Model) es un tipo de modelo fundacional enfocado en el procesamiento del lenguaje [0:36]. Piensa en él como una supercomputadora que ha leído enormes volúmenes de información: libros, artículos, sitios web e incluso código de programación [1:03]. Con todo ese conocimiento, el modelo es capaz de generar texto basándose en patrones y reglas gramaticales que ha identificado durante su entrenamiento.

El ejemplo más conocido es GPT (como GPT-4, el modelo detrás de ChatGPT). Cuando le proporcionas una pregunta o instrucción, el modelo analiza el contexto previo para completar la frase de forma coherente [1:18]. Algunas tareas que puedes realizar con un LLM son:

Responder preguntas concretas.
Generar código de programación, incluso sin saber programar.
Redactar reportes o documentos importantes.

Los LLM son especialmente útiles porque trabajan con lenguaje natural, es decir, el mismo idioma que usamos los humanos en la vida cotidiana [1:38].

¿Cómo funcionan los modelos de difusión para imágenes y audio?

A diferencia de los LLM, los modelos de difusión están diseñados para generar y procesar imágenes y audio [2:04]. Su funcionamiento se entiende con una analogía sencilla: imagina una fotografía nítida que poco a poco se vuelve completamente borrosa hasta convertirse en una mancha indistinguible. Ese es el proceso de difusión. Lo fascinante es que estos modelos aprenden a invertir ese proceso, partiendo del ruido para reconstruir una imagen clara y detallada [2:21].

Esto tiene aplicaciones prácticas muy valiosas:

Mejorar la calidad de un audio distorsionado.
Restaurar imágenes difuminadas.
Generar imágenes nuevas desde cero.
Transformar una imagen al estilo de un artista, como Andy Warhol [2:54].

Al igual que los LLM, los modelos de difusión se entrenan con cantidades masivas de datos, pero en este caso los datos son imágenes y archivos de audio en lugar de texto [3:05].

¿Qué papel juegan los sistemas de reconocimiento de voz ASR?

Los ASR (Automatic Speech Recognition) funcionan como intérpretes entre los seres humanos y las computadoras [3:19]. Su función principal es traducir la voz —que es sonido— en datos que una máquina pueda procesar. Ejemplos cotidianos incluyen Siri, Alexa y Google Assistant [3:44].

Un ASR toma una grabación de voz, la divide en pequeñas piezas y distingue el habla del ruido de fondo, los acentos y las variaciones de pronunciación [3:52]. Un avance notable en este campo es Whisper de OpenAI, un modelo entrenado con audios diversos que incluyen diferentes acentos, lenguaje técnico y condiciones de ruido, lo que le permite un reconocimiento mucho más preciso [4:16].

¿Por qué los modelos multimodales cambian las reglas del juego?

Aquí es donde todo se vuelve aún más interesante. Los modelos multimodales combinan diferentes tipos de datos y tareas en una sola arquitectura [4:42]. En lugar de limitarse a texto o a imágenes por separado, estos modelos pueden recibir un tipo de dato y producir otro completamente distinto.

Herramientas como DALL-E, Midjourney y Stable Diffusion son ejemplos claros: reciben texto como entrada (similar a un LLM) y generan imágenes utilizando modelos de difusión [5:01]. Pero las posibilidades van mucho más allá:

Generar una imagen a partir de un prompt de texto.
Describir en texto el contenido de una imagen o un audio.
Integrar voz, video e imagen en un mismo flujo de trabajo.

ChatGPT y Bard ya están incorporando estas funcionalidades multimodales [5:22], y la tendencia apunta a que cada vez más herramientas integren distintos modelos fundacionales para resolver tareas más complejas de forma unificada.

Si te interesa entender cómo estas tecnologías seguirán transformando la manera en que trabajamos y creamos, comparte qué modelo fundacional te parece más prometedor y por qué.