Si alguien es usuario gratuito de OpenAI no podrá cargar los datos desde la API dado el rate limit que tiene la plataforma (3 query por minuto y 200 por dÃa). Intenté por cielo y tierra slicear los documentos, reducir el dataset y todo lo demás, pero no funcionó, se satura con 3 Documents a la vez (y el dataset genera más de 1000).
La solución será cargar el JSONL a una instancia de Colab y usar el embedding Instructor para inscrustar el dataset entero desde allÃ, luego lo persistiremos y descargaremos el contenido del folder a nuestro repo local.
¿Quieres ver más aportes, preguntas y respuestas de la comunidad?