Cómo subir PDFs e imágenes a Claude

Curso de Claude AI

Contenido del curso

Introducción a Claude AI

¿Cómo usar Claude AI de forma efectiva?

Uso de herramientas avanzadas en Claude AI

Tomar examen

Cómo subir PDFs e imágenes a Claude

Resumen

Trabajar con archivos en Claude y ChatGPT puede ahorrarte horas, pero también provocar errores silenciosos cuando el modelo no lee lo que crees que está leyendo. Aquí aprendes a cargar PDFs, imágenes y capturas de pantalla en estos LLM, evitando el error más común: confiar en que el modelo extraiga texto que en realidad está dentro de una imagen.

¿Cómo subir un PDF a Claude cuando la fuente está en internet?

Claude no navega la web por defecto, así que necesitas convertir la página en un archivo que pueda procesar. El truco es tratarlo como tratarías a cualquier persona que necesita el documento offline.

Para el ejemplo se usó un artículo de Statista sobre el comercio entre la Unión Europea y el Mercosur [01:00]. El flujo es directo:

Abre la página y usa la opción imprimir del navegador.
Selecciona guardar como PDF en la carpeta de descargas.
Abre un chat nuevo y limpio en Claude.
Usa el botón de cargar archivos y selecciona el PDF.

Usar un chat limpio cada vez que cambias de tema es clave. Los contextos se mezclan y, además, son limitados, así que mantenerlos separados protege la calidad de las respuestas.

¿Por qué iniciar un nuevo chat por cada tema? Porque el contexto del modelo es finito y las conversaciones anteriores pueden contaminar las respuestas nuevas, llevando a resultados imprecisos.

¿Por qué ChatGPT y Claude responden distinto al mismo PDF?

La diferencia aparece cuando el PDF contiene imágenes con datos. En la prueba se pidió: extrae las listas de bienes con sus montos de la Unión Europea y del Mercosur [02:30].

Claude devolvió cifras como animales y piensos por 21.9 millones de euros, dato que estaba dentro de una imagen incrustada en el PDF [03:10]. ChatGPT, en cambio, respondió con 55.700 millones de euros, una cifra tomada solo del texto plano del documento [04:00].

¿La razón? Muchos PDFs corporativos contienen capturas de pantalla pegadas como imagen. El LLM solo lee el texto codificado como texto, no el texto dibujado dentro de imágenes, salvo que active sus capacidades multimodales con el archivo correcto.

¿Cómo forzar a ChatGPT a leer texto dentro de una imagen?

La solución es darle la imagen directamente, no embebida en un PDF. Copiando la gráfica con clic derecho y pegándola en ChatGPT, el modelo activa su procesamiento multimodal y devuelve una respuesta de calidad equivalente a la de Claude [05:30].

Este es el aprendizaje práctico: cuando un dato crítico vive dentro de una imagen, extráela y cárgala como imagen separada.

¿Qué tan seguros son tus datos al cargar archivos en estos modelos?

La privacidad cambia según la plataforma y el plan. Algunos puntos concretos del transcript:

En ChatGPT puedes hacer opt-out del entrenamiento desde la configuración.
En ChatGPT Enterprise los datos nunca se usan para entrenamiento, ni siquiera como opción.
En Claude, Anthropic no utiliza los archivos ni las conversaciones cargadas para entrenar sus modelos.

Anthropic sí supervisa el uso para detectar actividad maliciosa o violaciones de los términos, pero ese monitoreo no equivale a entrenamiento con tus datos.

¿Claude usa mis archivos para entrenar su modelo? No. Anthropic no utiliza los datos cargados en chats ni las conversaciones para entrenamiento, solo los supervisa para verificar uso ético.

¿Cómo capturar pantallazos directamente desde Claude?

Claude incluye una función de captura de pantalla que convierte cualquier vista de tu navegador en contexto inmediato. El ejemplo usó Google Trends [07:00] con el término inteligencia artificial, mostrando datos desde diciembre de 2021 y un pico claro al final de 2022 ligado al lanzamiento de ChatGPT 3.5.

El flujo fue así:

Descargar los datos de Google Trends en una hoja de cálculo.
En Claude, activar la opción de captura de pantalla.
Otorgar permiso al navegador para compartir pantalla.
Elegir entre toda la pantalla, una ventana o una pestaña específica.
Compartir la pestaña con la hoja de cálculo y enviar el prompt.

El prompt fue simple: analiza estos datos del interés en la búsqueda del término 'inteligencia artificial' en Google [08:30]. Sin rol detallado ni contexto extenso, Claude interpretó la tendencia directamente.

¿Importa si tu prompt tiene errores de tipeo?

Los LLM son robustos frente a errores menores. Una palabra mal escrita rara vez afecta el resultado, aunque escribir bien siempre ayuda a que la respuesta sea más precisa.

Claude y ChatGPT también permiten conectar Google Drive, y ChatGPT suma integración con OneDrive de Microsoft, una ventaja momentánea de OpenAI en conectividad con servicios de almacenamiento.

La lección final es que estos modelos son tan útiles como los datos que les pasas en el contexto. Si tu PDF tiene imágenes, súbelas aparte. Si tu fuente está en la web, conviértela en archivo o usa captura de pantalla. ¿Has tenido algún choque con un LLM que no leyó lo que esperabas? Cuéntalo en los comentarios.