Proceso de Tokenizando
un ejemplo de cómo se podría llevar a cabo el tokenizado de la frase “Nunca pares de aprender”:
Supongamos que queremos dividir la frase en palabras individuales. En este caso, los tokens generados serían: “Nunca”, “pares”, “de”, “aprender”.
Si en lugar de eso quisiéramos dividir la frase en secuencias de caracteres de longitud fija, por ejemplo de tres caracteres cada una, los tokens generados serían: “Nun”, "ca ", “par”, "es ", "de ", “apr”, “end”, “er”.
Cómo se divida el texto en tokens depende de la tarea en cuestión y del modelo preentrenado que se esté utilizando, y puede variar según las necesidades específicas del problema.
Además del tokenizado el tokenizer()
también codifica los valores (transforma las cadenas a numeros) para que un modelo de machine learnin pueda procesarlos.
¿Quieres ver más aportes, preguntas y respuestas de la comunidad?