Transformar una imagen de baja calidad en una tabla de datos estructurada suena complejo, pero ChatGPT lo hace posible en cuestión de segundos. Desde su primera versión, lanzada el 30 de noviembre de 2022, hasta el modelo 4o (Omni) de 2024, la capacidad de procesar distintos tipos de información ha crecido de forma notable, y hoy la comprensión de imágenes es una de las funcionalidades más útiles para el trabajo diario.
¿Cómo evolucionó ChatGPT desde el texto hasta la comprensión de imágenes?
ChatGPT 3.5 solo podía manejar entrada y salida de texto [0:06]. Eso dejaba fuera una enorme cantidad de información que existe en formato visual: gráficas, mapas, capturas de pantalla y documentos escaneados. Con la llegada de ChatGPT 4 en 2023, el modelo ganó la capacidad de generar y, sobre todo, entender imágenes [0:38]. Finalmente, ChatGPT 4o —donde la "o" significa Omni— promete una integración fluida de texto, imagen y otros tipos de datos [0:52].
Esta evolución significa que cualquier profesional puede aprovechar la visión artificial del modelo para extraer información de recursos visuales sin necesidad de herramientas adicionales.
¿Cómo se entrega una imagen a ChatGPT para extraer datos?
Existen varias formas de compartir una imagen con ChatGPT:
- Adjuntar archivo desde la aplicación web, usando el botón de carga [1:10].
- Conectar aplicaciones de almacenamiento en la nube para acceder a archivos directamente.
- Pegar una captura de pantalla en la aplicación nativa de escritorio.
¿Por qué instalar la aplicación nativa de escritorio?
La aplicación nativa para macOS se descarga desde la página oficial de OpenAI, no desde el App Store [1:39]. Al momento de la clase, Windows aún no contaba con versión nativa, aunque si ya está disponible cuando leas esto, vale la pena usarla [2:24]. Lo importante es verificar siempre que el dominio sea openai.com para evitar sitios fraudulentos.
Al instalar la app de escritorio, se agrega un atajo del sistema operativo: en macOS, la combinación Option + barra espaciadora abre una ventana compacta donde se puede escribir un prompt y adjuntar capturas sin salir de la aplicación en la que se está trabajando [6:36].
¿Cómo funciona el flujo de captura y análisis en la práctica?
El ejemplo de la clase simula un escenario en el departamento de logística de una empresa en Ciudad de México [2:55]. El objetivo es obtener datos de población por municipio, pero la fuente encontrada —un documento del INEGI— solo ofrece una gráfica de barras, no una tabla [3:20].
El proceso es directo:
- Tomar un screenshot de la gráfica (en macOS:
Control + Shift + 4) [4:02].
- Pegar la captura en el chat con
Control + V [4:18].
- Escribir un prompt con contexto: describir qué contiene la gráfica y pedir la extracción en formato tabla [4:28].
¿Qué resultados genera ChatGPT al analizar una imagen?
ChatGPT puede intentar primero un algoritmo clásico de OCR (Optical Character Recognition) para leer el texto de la imagen. Si la calidad es pobre, recurre a su capacidad de visión para interpretar los datos visualmente [5:00]. En el ejemplo, a pesar de que la imagen era de muy mala calidad, el modelo logró extraer la información y presentarla en una tabla dinámica [5:18].
Desde esa tabla se puede:
- Descargar los datos en formato .CSV (comma-separated values), un archivo de texto donde cada columna se separa por comas, compatible con cualquier hoja de cálculo [5:50].
- Solicitar visualizaciones adicionales directamente. Al pedir una gráfica de barras, ChatGPT genera código en Python de forma transparente, sin que el usuario necesite programar [6:08].
En el ejemplo, el modelo creó barras apiladas ordenadas por población, mostrando que la población femenina tiende a ser mayor, lo cual es consistente con tendencias demográficas reales [6:22].
¿Cómo usar el atajo de escritorio para capturas rápidas?
Con la app de escritorio activa, Option + barra espaciadora abre un mini chat [6:42]. Desde ahí se selecciona take screenshot y se elige la ventana de la aplicación deseada —por ejemplo, Firefox— para capturar su contenido [7:28]. La primera vez, ChatGPT pide permiso de grabación de pantalla en las preferencias del sistema [7:38].
Una vez capturada la imagen, se escribe el prompt directamente en la ventana emergente. En el ejemplo, se solicitó extraer las altitudes de los municipios de Ciudad de México ignorando longitud y latitud [8:10]. El resultado aparece primero en la ventana compacta, y con un clic se traslada al chat completo para seguir trabajando con los datos [8:40].
Esta combinación de captura rápida y análisis inmediato convierte a ChatGPT en un aliado poderoso para quienes trabajan con datos atrapados en imágenes, reportes PDF o gráficas poco accesibles. Si ya probaste esta funcionalidad, comparte en los comentarios qué tipo de imagen lograste convertir en datos útiles.