No tienes acceso a esta clase

¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera

Procesamiento de dataset para NLP

13/17
Recursos

Aportes 1

Preguntas 2

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad?

o inicia sesión.

Proceso de Tokenizando
un ejemplo de cómo se podría llevar a cabo el tokenizado de la frase “Nunca pares de aprender”:

Supongamos que queremos dividir la frase en palabras individuales. En este caso, los tokens generados serían: “Nunca”, “pares”, “de”, “aprender”.

Si en lugar de eso quisiéramos dividir la frase en secuencias de caracteres de longitud fija, por ejemplo de tres caracteres cada una, los tokens generados serían: “Nun”, "ca ", “par”, "es ", "de ", “apr”, “end”, “er”.

Cómo se divida el texto en tokens depende de la tarea en cuestión y del modelo preentrenado que se esté utilizando, y puede variar según las necesidades específicas del problema.

Además del tokenizado el tokenizer() también codifica los valores (transforma las cadenas a numeros) para que un modelo de machine learnin pueda procesarlos.