En pocas palabras, la Inteligencia Artificial (IA) crea contenidos precisamente porque se somete a un riguroso entrenamiento. Por ejemplo, los grandes modelos lingüísticos (LLM, por sus siglas en inglés) como ChatGPT se entrenan utilizando diversas fuentes, como artículos, sitios web y libros.
Para mayor complejidad, existen modelos multimodales como el “Make-A-Video” de Facebook, capaz de convertir texto en vídeos.
ChatGPT-4, un modelo fundacional, combina varios modelos en una sola herramienta, lo que le permite incluso mostrar imágenes en el chat.
Modelos de difusión
Otro enfoque son los modelos de difusión, centrados en la generación de imágenes y audio. En el caso de las imágenes, descomponen los píxeles durante el entrenamiento para mejorar o crear. Cuanto más se entrenen, más realista será el resultado.
ASR (Automatic Speech Recognition)
El ASRtraduce la voz en datos y se entrena exclusivamente con audio. Convierte el audio en palabras descomponiéndolo, identificando el ruido de fondo, los acentos, etc.
Algunos ejemplos populares son “Siri”, “Alexa” y “Whisper” de OpenAI, que mejoran la interacción con nuestros dispositivos mediante un reconocimiento preciso del habla.
Lo real que se sienta el lenguaje sintético de estas herramientas también se vuelve un factor crucial a tener en cuenta.