Extracción y Análisis de Datos en Imágenes usando ChatGPT 4S Omni

Clase 13 de 20 • Curso de ChatGPT

Contenido del curso

Introducción a ChatGPT

¿Cómo usar ChatGPT de forma efectiva?

Uso de herramientas avanzadas en ChatGPT

Análisis de datos con ChatGPT

GPTs y asistentes

Más allá de ChatGPT

20
Actualización Constante de Herramientas de IA y Modelos de Lenguaje
03:02 min

Tomar examen

Resumen

Transformar una imagen de baja calidad en una tabla de datos estructurada suena complejo, pero ChatGPT lo hace posible en cuestión de segundos. Desde su primera versión, lanzada el 30 de noviembre de 2022, hasta el modelo 4o (Omni) de 2024, la capacidad de procesar distintos tipos de información ha crecido de forma notable, y hoy la comprensión de imágenes es una de las funcionalidades más útiles para el trabajo diario.

¿Cómo evolucionó ChatGPT desde el texto hasta la comprensión de imágenes?

ChatGPT 3.5 solo podía manejar entrada y salida de texto [0:06]. Eso dejaba fuera una enorme cantidad de información que existe en formato visual: gráficas, mapas, capturas de pantalla y documentos escaneados. Con la llegada de ChatGPT 4 en 2023, el modelo ganó la capacidad de generar y, sobre todo, entender imágenes [0:38]. Finalmente, ChatGPT 4o —donde la "o" significa Omni— promete una integración fluida de texto, imagen y otros tipos de datos [0:52].

Esta evolución significa que cualquier profesional puede aprovechar la visión artificial del modelo para extraer información de recursos visuales sin necesidad de herramientas adicionales.

¿Cómo se entrega una imagen a ChatGPT para extraer datos?

Existen varias formas de compartir una imagen con ChatGPT:

Adjuntar archivo desde la aplicación web, usando el botón de carga [1:10].
Conectar aplicaciones de almacenamiento en la nube para acceder a archivos directamente.
Pegar una captura de pantalla en la aplicación nativa de escritorio.

¿Por qué instalar la aplicación nativa de escritorio?

La aplicación nativa para macOS se descarga desde la página oficial de OpenAI, no desde el App Store [1:39]. Al momento de la clase, Windows aún no contaba con versión nativa, aunque si ya está disponible cuando leas esto, vale la pena usarla [2:24]. Lo importante es verificar siempre que el dominio sea openai.com para evitar sitios fraudulentos.

Al instalar la app de escritorio, se agrega un atajo del sistema operativo: en macOS, la combinación Option + barra espaciadora abre una ventana compacta donde se puede escribir un prompt y adjuntar capturas sin salir de la aplicación en la que se está trabajando [6:36].

¿Cómo funciona el flujo de captura y análisis en la práctica?

El ejemplo de la clase simula un escenario en el departamento de logística de una empresa en Ciudad de México [2:55]. El objetivo es obtener datos de población por municipio, pero la fuente encontrada —un documento del INEGI— solo ofrece una gráfica de barras, no una tabla [3:20].

El proceso es directo:

Tomar un screenshot de la gráfica (en macOS: Control + Shift + 4) [4:02].
Pegar la captura en el chat con Control + V [4:18].
Escribir un prompt con contexto: describir qué contiene la gráfica y pedir la extracción en formato tabla [4:28].

¿Qué resultados genera ChatGPT al analizar una imagen?

ChatGPT puede intentar primero un algoritmo clásico de OCR (Optical Character Recognition) para leer el texto de la imagen. Si la calidad es pobre, recurre a su capacidad de visión para interpretar los datos visualmente [5:00]. En el ejemplo, a pesar de que la imagen era de muy mala calidad, el modelo logró extraer la información y presentarla en una tabla dinámica [5:18].

Desde esa tabla se puede:

Descargar los datos en formato .CSV (comma-separated values), un archivo de texto donde cada columna se separa por comas, compatible con cualquier hoja de cálculo [5:50].
Solicitar visualizaciones adicionales directamente. Al pedir una gráfica de barras, ChatGPT genera código en Python de forma transparente, sin que el usuario necesite programar [6:08].

En el ejemplo, el modelo creó barras apiladas ordenadas por población, mostrando que la población femenina tiende a ser mayor, lo cual es consistente con tendencias demográficas reales [6:22].

¿Cómo usar el atajo de escritorio para capturas rápidas?

Con la app de escritorio activa, Option + barra espaciadora abre un mini chat [6:42]. Desde ahí se selecciona take screenshot y se elige la ventana de la aplicación deseada —por ejemplo, Firefox— para capturar su contenido [7:28]. La primera vez, ChatGPT pide permiso de grabación de pantalla en las preferencias del sistema [7:38].

Una vez capturada la imagen, se escribe el prompt directamente en la ventana emergente. En el ejemplo, se solicitó extraer las altitudes de los municipios de Ciudad de México ignorando longitud y latitud [8:10]. El resultado aparece primero en la ventana compacta, y con un clic se traslada al chat completo para seguir trabajando con los datos [8:40].

Esta combinación de captura rápida y análisis inmediato convierte a ChatGPT en un aliado poderoso para quienes trabajan con datos atrapados en imágenes, reportes PDF o gráficas poco accesibles. Si ya probaste esta funcionalidad, comparte en los comentarios qué tipo de imagen lograste convertir en datos útiles.

Comentarios

Marina Barraza

student•

Por si acaso alguien no sabe que es una aplicación nativa dejo este aporte: Una aplicación nativa de ChatGPT es una versión del modelo que está diseñada para ejecutarse de manera directa en un sistema operativo específico, como macOS o Windows, sin depender de un navegador web. Estas aplicaciones suelen aprovechar mejor los recursos del sistema, ofreciendo una experiencia más fluida y rápida.

Juan Daniel Salgado Reyes

student•

Que buena explicación. Yo tengo la app del navegador porque uso Windows. Lástima que hasta el momento la aplicación nativa solo está para macOS.

Fabio Emilio Buiza Lopez

student•

Gracias... yo entro directamente en la plataforma en la computadora y en el telefono si tengo la App. Super util...

Marina Barraza

student•

Atajos para Windows:

Captura de toda la pantalla:
- Comando: PrtScn (Print Screen)
- Esto captura toda la pantalla y la guarda en el portapapeles. Puedes pegarla en un editor como Paint o Word con Ctrl + V.
Captura de la ventana activa:
- Comando: Alt + PrtScn
- Esto captura solo la ventana activa y la guarda en el portapapeles para pegar en otra aplicación.
Captura de una parte específica de la pantalla (Windows 10 y 11):
- Comando: Windows + Shift + S
- Esto abre la herramienta de recortes, donde puedes seleccionar la parte de la pantalla que deseas capturar. La imagen se guarda en el portapapeles.

Fabio Emilio Buiza Lopez

student•

Gracias

Maritza Medina

student•

Gracias por tu aporte

Manuel Galindo

student•

Ver tantas funcionalidades avanzadas para extraer información desde imágenes es sorprendente, a mí me ha salvado más de una vez al trabajar con archivos escaneados de una calidad deplorable.

Juan Christopher

student•

La IA en su máximo esplendor.

Miguel Angel Reyes Moreno

student•

Juan, esto es solo el inicio! :D

Christopher Andrés Guano Valencia

student•

🟢 Qué son los archivos CSV (Comma Separated Values)

Son archivos de texto que almacenan datos en forma de tabla. Cada línea representa una fila y los valores dentro de la fila están separados por comas (o a veces por otros delimitadores como punto y coma).

Nombre,Edad,Correo Electrónico
Juan Pérez,30,juan.perez@example.com
María Gómez,25,maria.gomez@example.com

Lo que muestra ChatGPT, son los datos ordenados de manera tabular, como en Excel o Google Spread Sheets.

Al trabajar con archivos CSV, es importante tener en cuenta que los datos que contienen comas deben ser encerrados entre comillas para evitar confusiones.

También, la codificación del archivo debe ser adecuada, como UTF-8, para asegurar que los caracteres especiales se manejen correctamente.

Aunque los archivos CSV son versátiles, no soportan características avanzadas de hojas de cálculo como fórmulas o formatos, ya que solo almacenan datos en formato plano.

Juan Christopher

student•

Buen aporte.

William Andres Salcedo Coronado

student•

Estoy viendo esta clase hoy 28 de enero de 2025 y ya esta disponible la versión para windows

Mauro José Jesús Arce

student•

Efectivamente. Yo estoy viendo la clase el 22 de Marzo de 2025 y está disponible en Microsoft Store. Sí leí que algunos usuarios comentaron que faltan algunas opciones respecto a la versión web, yo aún no lo instalé.

Luisa Juliet Ospina Vera

student•

¡Hola! Yo estoy viendo esta clase el 05 de junio de 2025 y efectivamente: sigue disponible la versión de escritorio para Windows.

José Antonio Vázquez Bueno

student•

Paso un enlace donde explica como crear de una página web una app para Windows. Se puede hacer de los siguientes navegadores.

Edge: "tres puntos dentro del navegador"/Aplicaciones/Instalar esta aplicación como app

Chrome: "tres puntos dentro del navegador"/Guardar y compartir/ Instalar página como app

Firefox: Instalar la extensión "Progresive web apps for firefox" y seguir las instrucciones

¡Espero que os ayude!

Edinson Parra Bahos

student•

el atajo en windows para abrir el cuadro de dialogo de chatgpt es : alt + barra espaciadora o la puedes encontrar en configuracion opción aplicación

Habbad Mendoza

student•

Gracias, estaba buscando éste comentario.

Paula Andrea Henao Rua

student•

Por favor actualicen el curso, muchas gracias, ya hoy existen mas opiocnes en Open IA

Diana vaca Chaparro

student•

para Abril de 2025 ya esta disponible en Windows

Jaime Vega

student•

Tengo interés de vincular ChatGPT con alñguna aplicación externa o con OneDrive o Sharepoint para automatizar procesos.

Uno de esos procesos es realizar OCR. Otro resúmenes de documentos (demandas de casos penales)

Finalmente, no se si haya un curso específico para programar codigo o similares para aplicaciones externas vinculadas con chatGPT

Fernando Rodríguez

student•

¿Qué es ChatGPT y sus versiones?
- ChatGPT es un modelo de inteligencia artificial que ha evolucionado desde su versión 3.5, lanzada en 2022, que solo podía manejar texto, hasta la versión 4 en 2023, capaz de entender y generar imágenes. En 2024, se introdujo la versión 4S Omni, que integra diversos tipos de datos.
¿Cómo se utiliza ChatGPT para extraer información de imágenes?
- Se puede cargar una imagen a ChatGPT usando el botón de adjuntar archivo o mediante la aplicación de escritorio. Luego, al proporcionar un contexto y una solicitud, ChatGPT puede extraer datos de la imagen, creando tablas a partir de gráficos o texto.
¿Qué pasos seguir para instalar la aplicación de ChatGPT en macOS?
- Descarga la aplicación desde la página oficial de OpenAI, asegurándote de que el enlace sea seguro. Instala la aplicación arrastrando el archivo descargado y realiza login con tu cuenta.
¿Qué hacer si la imagen es de baja calidad?
- Si la calidad de la imagen no permite una extracción precisa, ChatGPT puede intentar extraer manualmente los datos o utilizar algoritmos de OCR para mejorar la extracción.
¿Cuál es la utilidad de generar tablas y gráficos a partir de imágenes?
- Esto permite simplificar el análisis de datos visuales, facilitando tareas en el trabajo, como la creación de informes o presentaciones basadas en datos más organizados.
¿Cómo se puede utilizar ChatGPT en un entorno de trabajo?
- A través de la aplicación, se pueden hacer capturas de pantalla directamente y enviar prompts específicos para obtener información rápida y organizada, optimizando la productividad.

Bibiana Ballesteros Diaz

student•

Hoy 29 de abril de de 2025 estoy viendo esta clase. App nativa para windows si esta disponble. Espero sirva va con amor atte Bibi

Arno Sonck

student•

Ya hay version para windows:

Jonathan Lozano Alcalá

student•

😎👉En mi experiencia usando CHATGPT desde la aplicación desktop en WIN10 en ocasiones se pone lenta al entregar resultados, se traba o simplemente se congela y termino cerrándola y entrando por el navegador 😐 ¿Alguien mas le pasa?

Caleb Eduardo Jaller Rodríguez

student•

Con la versión de ChatGPT 4S Omni, se pueden cargar múltiples imágenes, pero el número específico puede variar según la implementación y el contexto de uso. Generalmente, se permite cargar una imagen a la vez para su análisis. Sin embargo, puedes realizar múltiples análisis en sesiones consecutivas cargando una imagen tras otra. La versatilidad de esta herramienta permite trabajar eficazmente con diferentes tipos de datos visuales, facilitando su análisis.

Martha Lucia González Alfonso

student•

No se puede solicitar a ChatGPT que genere una gráfica directamente en Power BI. Sin embargo, puedes usar ChatGPT para crear el código necesario o guiarte en el proceso de visualización de datos en Power BI. Por ejemplo, puedes pedir que te ayude a estructurar los datos o definir cómo debería ser la gráfica basándose en los datos extraídos. Luego, puedes implementar esas sugerencias en Power BI. Esto optimiza el uso de ambas herramientas para un análisis más eficaz.

Jorge E Rincón Torres

student•

Si tengo el excel con los datos trabaja de la misma forma? o mejor extraerlo con la imagen?

Ruben Galindo

student•

Hice una pregunta y se desaparecio del chat de comentarios???

Anibal Rojas

teacher•

Extraño. Es comportamiento persisitió?

Javier Ramos

student•

Existe una version de chatgpt nativa para Linux?

Anibal Rojas

teacher•

No.

J Rafael Otero Lopez

student•

No oficial de momento, lo que puedes hacer es un acceso directo que se abra como una ventana aparte por mientras.

lenin ibarra

student•

Alguien tiene problemas para instalar chatgpt para windows? a mi al momento de ser reenviado a la microsoft store me aparece que hay un error, que esta aplicacion no esta disponible en mi region

Extracción y Análisis de Datos en Imágenes usando ChatGPT 4S Omni

Introducción a ChatGPT

Existe una nueva versión de este curso

Uso de ChatGPT para Optimizar Procesos Empresariales

Uso básico de ChatGPT: Instalación y primeros pasos

Creación y ventajas de una cuenta gratuita en ChatGPT

Actualización a ChatGPT Plus: Beneficios y Proceso de Suscripción

¿Cómo usar ChatGPT de forma efectiva?

Creación de Comunicados de Prensa con ChatGPT y Working Backwards

Creación de Prompts Efectivos para ChatGPT

Personalización de ChatGPT para Automatización en Apps Script

Uso de herramientas avanzadas en ChatGPT

Uso de ChatGPT Móvil para Extraer Datos de Imágenes Impresas

Búsqueda de noticias económicas para analistas financieros en México

Análisis de Contratos de Renta de Vehículos con ChatGPT

Configura ChatGPT para Uso Seguro y Privado