César Piña M.
Pregunta¿Cuántos tokens/palabras emplea la lectura de documentos PDF? ¿Hay alguna medición diferente para los tokens al leer los documentos con o sin imágenes o incluso el tamaño de los documentos?
Anibal Rojas
Uy, excelente pregunta! Para la que no tengo una respuesta exacta, no conseguí documentación. Yo lo analizo así: El PDF no pasa directamente al LLM sino que es procesado primero y el texto es extraído. En mi experiencia, las imágenes en un PDF no son procesadas antes por un modelo de visión.
César Piña M.
Profe, ¿entonces al ser extraídas las palabras del Doc. estas consumen los mismos tokens que si se tratase de un texto plano empleado en el chat directo con GPT? Ojalá pronto nos explique OpenAI en su documentación el tema de los tokens con el procesamiento y análisis de documentos. Un saludo!!
