No tienes acceso a esta clase

¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera

Procesamiento de datos: tokenización y creación de vocabulario

13/24
Recursos

Aportes 5

Preguntas 2

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad?

Como se actualizó el dataset de DBpedia, puede crear un archivo de Python y copiar el source code del dataset <https://pytorch.org/text/stable/_modules/torchtext/datasets/dbpedia.html> Mi script lo llamé dbpedia.py y lo importo de la siguiente manera `from`` dbpedia ``import`` DBpedia` Únicamente elimine \[docs de `[docs]@_create_dataset_directory(``dataset_name``=DATASET_NAME)` Y el url lo cambié por `URL = "https://drive.usercontent.google.com/download?id=0Bz8a_Dbh9QhbQ2Vic1kxMmZZQ1k&export=download&authuser=0"` Espero les sirva para seguir el curso

Tuve la duda de cómo funcionaba el tokenizer + vocabulario y traigo mis conclusiones.

El tokenizer simplemente separa las palabras en tokens, y el algoritmo que usemos (en este caso basic_english) determinará qué caracteres tokenizará y que limpiezas y convenciones llevará a cabo (agregar espacios a las puntuaciones, transformar los saltos de linea en espacios sencillos y demás limpiezas) y retornará un array gigante con los cada palabra tokenizada.

El vocab (o vocabulario) por otra parte es especial. El proceso para determinar qué valor numérico pertenece a cada token es directamente proporcional a su frecuencia de aparición. Entre más aparezca un token en un dataset (también llamado text corpus) menor valor tendrá, por eso los conectores suelen tener valores tan bajos.

La razón por la que debemos agregar el <unk> en el vocab es porque únicamente hemos creado los valores de los tokens disponibles en el text corpus, por lo que, si en alguna inferencia usamos texto que no contiene un token válido, debemos tener un mecanismo para encapsularlo.

Se actualizo la libreria no funciona, me pide los datos de train pero no encuentro la forma de solucionarlo :C
Si no les funciona ninguna de las otras soluciones que estaban en los comentarios para solucionar el problema con el dataset, lo que hice fue crear otro ambiente con python 3.9 e instalar la version de torchtext 0.15.1. No necesariamente debe ser la 3.9, pero era la que tenia a la mano.
¿Dónde estan las archivos de recursos de la clase ?