La imagen del Terminator analizando objetivos con datos superpuestos es probablemente lo primero que aparece cuando piensas en inteligencia artificial que "ve". Sin embargo, la realidad actual es mucho más potente y práctica que cualquier escena de ciencia ficción, y lo mejor: está al alcance de cualquiera con un celular o un navegador.
¿Qué es un modelo multimodal y por qué cambia todo?
Antes existían modelos especializados: unos procesaban lenguaje natural, otros estaban entrenados para reconocer imágenes muy específicas, y cada uno funcionaba de forma aislada. Con la última generación de herramientas como ChatGPT, Claude, Gemini, Microsoft Copilot y Llama de Meta, esa separación desapareció [0:58].
Un modelo multimodal integra visión, voz y texto en un solo sistema. Esto significa que puedes enviarle una fotografía, un pantallazo o un diagrama y obtener respuestas en texto, fórmulas o explicaciones detalladas sin necesidad de describir manualmente lo que estás viendo.
¿Cómo se aplica la visión de ChatGPT a una hoja de cálculo?
El ejemplo más ilustrativo viene de un caso real en un equipo de Human Talent [2:05]. Una profesional usaba ChatGPT describiendo con texto lo que necesitaba en sus fórmulas de Excel. Funcionaba, pero era trabajoso. Después descubrió algo más eficiente:
- Tomar un pantallazo de la hoja de cálculo.
- Subirlo directamente a ChatGPT.
- Escribir un prompt pidiendo la fórmula de una celda específica.
En el ejemplo, se trataba de calcular un promedio ponderado para la evaluación de líderes. El detalle clave estuvo en las palabras del prompt: al pedir "dame el valor", ChatGPT resolvió la operación matemática; al corregir y pedir "dame la fórmula", entregó exactamente la expresión para copiar y pegar en Excel [3:28].
¿Por qué las palabras importan tanto en un prompt?
Las palabras son las palancas que operan estos modelos [3:45]. La diferencia entre pedir un "valor" y una "fórmula" cambia completamente el resultado. Aprender a dar instrucciones claras es una habilidad fundamental para trabajar con inteligencia artificial, y cada pequeño ajuste en la redacción puede ahorrarte tiempo o evitarte errores.
¿Puede la IA equivocarse y cómo lo verifico?
Una reflexión importante surge naturalmente: ¿y si la fórmula estuviera mal? [4:25] La inteligencia artificial no es mágica ni reemplaza tu criterio profesional. Necesita tu experiencia para validar si el resultado tiene sentido.
Algunas formas prácticas de verificar:
- Revisar que los rangos de la fórmula sean coherentes.
- Pedirle a ChatGPT que explique paso a paso cómo construyó la fórmula.
- Comparar el resultado con un cálculo manual de prueba.
Esto refuerza un principio esencial: la IA potencia tu trabajo, pero tu criterio sigue siendo indispensable.
¿Cómo funciona el análisis visual con una fotografía real?
Más allá de hojas de cálculo, la capacidad multimodal permite analizar fotografías de personas, productos o espacios. En un experimento en vivo [6:10], se tomó una foto con la aplicación móvil de ChatGPT y se le pidió analizar el tono de piel, el color de cabello y recomendar una paleta de colores adecuada.
El modelo identificó:
- Piel clara con matices rosados.
- Cabello corto con canas.
- Colores base recomendados: gris claro, azul marino, verde oliva, beige.
- Colores de acento: borgoña, gris oscuro, terracota.
- Colores a evitar: naranjas intensos y amarillos brillantes.
¿Es solo un ejercicio trivial o tiene aplicación profesional?
Aunque parece un ejercicio sencillo, tiene aplicación directa en producción audiovisual, marketing y branding personal [8:30]. Cada persona tiene un tono de piel diferente, y herramientas como esta permiten tomar decisiones informadas sobre vestuario, paletas gráficas o dirección de arte sin necesidad de contratar un consultor de imagen.
El reto queda abierto: toma un pantallazo de cualquier documento, gráfico o diagrama con el que estés trabajando, llévalo a un LLM —ChatGPT, Gemini, Copilot— y experimenta. Pídele que lo describa, que complete una tarea o que te explique lo que ve. No puedes romper ninguna de estas herramientas, así que la única barrera es no intentarlo.