No tienes acceso a esta clase

隆Contin煤a aprendiendo! 脷nete y comienza a potenciar tu carrera

Procesamiento de dataset para NLP

13/17
Recursos

Aportes 1

Preguntas 2

Ordenar por:

驴Quieres ver m谩s aportes, preguntas y respuestas de la comunidad?

o inicia sesi贸n.

Proceso de Tokenizando
un ejemplo de c贸mo se podr铆a llevar a cabo el tokenizado de la frase 鈥淣unca pares de aprender鈥:

Supongamos que queremos dividir la frase en palabras individuales. En este caso, los tokens generados ser铆an: 鈥淣unca鈥, 鈥減ares鈥, 鈥渄e鈥, 鈥渁prender鈥.

Si en lugar de eso quisi茅ramos dividir la frase en secuencias de caracteres de longitud fija, por ejemplo de tres caracteres cada una, los tokens generados ser铆an: 鈥淣un鈥, "ca ", 鈥減ar鈥, "es ", "de ", 鈥渁pr鈥, 鈥渆nd鈥, 鈥渆r鈥.

C贸mo se divida el texto en tokens depende de la tarea en cuesti贸n y del modelo preentrenado que se est茅 utilizando, y puede variar seg煤n las necesidades espec铆ficas del problema.

Adem谩s del tokenizado el tokenizer() tambi茅n codifica los valores (transforma las cadenas a numeros) para que un modelo de machine learnin pueda procesarlos.