Qué son los modelos multimodales de IA

Curso Gratis de Introducción a la Inteligencia Artificial

Contenido del curso

El presente y futuro de la inteligencia artificial

Resumen

La imagen del Terminator analizando objetivos con datos superpuestos es probablemente lo primero que aparece cuando piensas en inteligencia artificial que "ve". Sin embargo, la realidad actual es mucho más potente y práctica que cualquier escena de ciencia ficción, y lo mejor: está al alcance de cualquiera con un celular o un navegador.

¿Qué es un modelo multimodal y por qué cambia todo?

Antes existían modelos especializados: unos procesaban lenguaje natural, otros estaban entrenados para reconocer imágenes muy específicas, y cada uno funcionaba de forma aislada. Con la última generación de herramientas como ChatGPT, Claude, Gemini, Microsoft Copilot y Llama de Meta, esa separación desapareció [0:58].

Un modelo multimodal integra visión, voz y texto en un solo sistema. Esto significa que puedes enviarle una fotografía, un pantallazo o un diagrama y obtener respuestas en texto, fórmulas o explicaciones detalladas sin necesidad de describir manualmente lo que estás viendo.

¿Cómo se aplica la visión de ChatGPT a una hoja de cálculo?

El ejemplo más ilustrativo viene de un caso real en un equipo de Human Talent [2:05]. Una profesional usaba ChatGPT describiendo con texto lo que necesitaba en sus fórmulas de Excel. Funcionaba, pero era trabajoso. Después descubrió algo más eficiente:

Tomar un pantallazo de la hoja de cálculo.
Subirlo directamente a ChatGPT.
Escribir un prompt pidiendo la fórmula de una celda específica.

En el ejemplo, se trataba de calcular un promedio ponderado para la evaluación de líderes. El detalle clave estuvo en las palabras del prompt: al pedir "dame el valor", ChatGPT resolvió la operación matemática; al corregir y pedir "dame la fórmula", entregó exactamente la expresión para copiar y pegar en Excel [3:28].

¿Por qué las palabras importan tanto en un prompt?

Las palabras son las palancas que operan estos modelos [3:45]. La diferencia entre pedir un "valor" y una "fórmula" cambia completamente el resultado. Aprender a dar instrucciones claras es una habilidad fundamental para trabajar con inteligencia artificial, y cada pequeño ajuste en la redacción puede ahorrarte tiempo o evitarte errores.

¿Puede la IA equivocarse y cómo lo verifico?

Una reflexión importante surge naturalmente: ¿y si la fórmula estuviera mal? [4:25] La inteligencia artificial no es mágica ni reemplaza tu criterio profesional. Necesita tu experiencia para validar si el resultado tiene sentido.

Algunas formas prácticas de verificar:

Revisar que los rangos de la fórmula sean coherentes.
Pedirle a ChatGPT que explique paso a paso cómo construyó la fórmula.
Comparar el resultado con un cálculo manual de prueba.

Esto refuerza un principio esencial: la IA potencia tu trabajo, pero tu criterio sigue siendo indispensable.

¿Cómo funciona el análisis visual con una fotografía real?

Más allá de hojas de cálculo, la capacidad multimodal permite analizar fotografías de personas, productos o espacios. En un experimento en vivo [6:10], se tomó una foto con la aplicación móvil de ChatGPT y se le pidió analizar el tono de piel, el color de cabello y recomendar una paleta de colores adecuada.

El modelo identificó:

Piel clara con matices rosados.
Cabello corto con canas.
Colores base recomendados: gris claro, azul marino, verde oliva, beige.
Colores de acento: borgoña, gris oscuro, terracota.
Colores a evitar: naranjas intensos y amarillos brillantes.

¿Es solo un ejercicio trivial o tiene aplicación profesional?

Aunque parece un ejercicio sencillo, tiene aplicación directa en producción audiovisual, marketing y branding personal [8:30]. Cada persona tiene un tono de piel diferente, y herramientas como esta permiten tomar decisiones informadas sobre vestuario, paletas gráficas o dirección de arte sin necesidad de contratar un consultor de imagen.

El reto queda abierto: toma un pantallazo de cualquier documento, gráfico o diagrama con el que estés trabajando, llévalo a un LLM —ChatGPT, Gemini, Copilot— y experimenta. Pídele que lo describa, que complete una tarea o que te explique lo que ve. No puedes romper ninguna de estas herramientas, así que la única barrera es no intentarlo.

Ulqernesh Karvenae

Estudiante

Mismo prompt diferente modelo 5.2 varia la respuesta pero los coincide en los colores a evitar

Conversacion completa

A partir de la imagen, puedo hacer un análisis cromático orientativo (iluminación interior cálida, calidad correcta). El objetivo es identificar subtono de piel, color de cabello y derivar una paleta recomendada.

1. Análisis de rasgos

🔹 Tono y subtono de piel

Tono: claro a medio.
Subtono: neutro–frío, con ligera tendencia rosada.
No se perciben matices dorados intensos; la piel responde mejor a colores fríos o equilibrados.

🔹 Cabello

Color: gris / canoso medio.
Temperatura: frío (ceniza).
Contraste: medio (piel clara + cabello gris).

🔹 Contraste general

Contraste bajo–medio, típico de personas que armonizan mejor con colores suaves o medianamente profundos, no excesivamente brillantes.

2. Estación cromática sugerida

👉 Verano Suave / Verano Frío (Soft Summer – Cool Summer)

Esto implica:

Colores fríos o neutros
Saturación moderada
Evitar extremos (ni muy brillantes ni muy apagados)

3. Paleta de colores recomendada

✅ Colores ideales (ropa y accesorios)

Neutros principales

Gris perla
Gris medio
Azul marino suave
Carbón frío
Taupe frío

Colores base

Azul acero
Azul petróleo frío
Verde salvia
Verde eucalipto
Verde grisáceo

Colores de acento

Burdeos frío
Ciruela
Vino suave
Rosa empolvado
Malva
Lavanda
Azul lavanda

⚠️ Colores a usar con cautela

Beige cálido
Camel
Marrones rojizos
Amarillos dorados
Naranjas
Verdes muy amarillos

Estos tienden a endurecer las facciones o apagar el tono de piel.

❌ Colores poco favorecedores

Negro puro (mejor sustituir por gris carbón o azul marino)
Blanco óptico (preferir blanco roto frío)
Colores muy saturados o neón
Dorado intenso

4. Metales y detalles

Metales: plata, acero, oro blanco
Monturas de gafas: gris, azul oscuro, gunmetal, transparente frío
Relojes: acero cepillado o negro mate

5. Ejemplo práctico (atuendo ideal)

Camisa azul acero o verde salvia
Pantalón gris medio o azul marino suave
Chaqueta gris carbón
Zapatos negro suave o gris oscuro

Si quieres, puedo:

Comparar paleta actual vs. ideal
Recomendar colores específicos para camisas, chaquetas o gafas
Ajustar la paleta a un contexto profesional o casual

Solo dime.

Daniel Aguilar

Jhon Carvajal

Team Platzi

Anibal Rojas

Profesor

Jonathan Camilo Bernal Aldana

Víctor Alfonso Barreto Rodríguez

Juan Carlos Quishpe

William Ruiz

ANDRES CAMILO GONZALEZ RODRIGUEZ

Platzi

Liliana Molina Camacho

Manuel Andres Blanco Clavijo

Jose Daniel Velasquez H

Company_admin

Jaime Andrés Gutiérrez Herrera

Angel Silva

Alejandra Giraldo Nieto

Juan Manuel Gámez Velázquez

Nick Arvelo

Andrea Sofia Rodriguez

Manuel Avila

Miguel Lopez Ariza

Brenda Iliana Gallegos López

Naimalu Alyaniris Palmar Basalo

Bryan Álvarez

shirley sosa

Dizan Andres Manco Ortega

Erika Gomez Guarnizo

Qué son los modelos multimodales de IA

El presente y futuro de la inteligencia artificial

IA para tus finanzas personales con ChatGPT

Plan de lanzamiento de producto con ChatGPT

IA que ya usas sin saberlo

Sembly y ChatGPT para resumir reuniones

Crea un plan de capacitación con Claude

Asistente de reuniones con Sembly y ChatGPT

Qué son los modelos multimodales de IA

Analiza reportes financieros con imágenes en ChatGPT

Cómo ChatGPT analiza contratos legales

Analiza informes de 45 páginas con ChatGPT

Cómo generar y editar imágenes con IA

Diagramas automáticos con Napkin AI

Deepfakes que robaron 25 millones en Zoom

Videos promocionales con avatares en HeyGen

Cómo usar IA sin caer en trampas

Resumen