No tienes acceso a esta clase

隆Contin煤a aprendiendo! 脷nete y comienza a potenciar tu carrera

Procesamiento de dataset para NLP

13/17
Recursos

Aportes 3

Preguntas 2

Ordenar por:

驴Quieres ver m谩s aportes, preguntas y respuestas de la comunidad?

Proceso de Tokenizando
un ejemplo de c贸mo se podr铆a llevar a cabo el tokenizado de la frase 鈥淣unca pares de aprender鈥:

Supongamos que queremos dividir la frase en palabras individuales. En este caso, los tokens generados ser铆an: 鈥淣unca鈥, 鈥減ares鈥, 鈥渄e鈥, 鈥渁prender鈥.

Si en lugar de eso quisi茅ramos dividir la frase en secuencias de caracteres de longitud fija, por ejemplo de tres caracteres cada una, los tokens generados ser铆an: 鈥淣un鈥, "ca ", 鈥減ar鈥, "es ", "de ", 鈥渁pr鈥, 鈥渆nd鈥, 鈥渆r鈥.

C贸mo se divida el texto en tokens depende de la tarea en cuesti贸n y del modelo preentrenado que se est茅 utilizando, y puede variar seg煤n las necesidades espec铆ficas del problema.

Adem谩s del tokenizado el tokenizer() tambi茅n codifica los valores (transforma las cadenas a numeros) para que un modelo de machine learnin pueda procesarlos.

Un poco alejado de este task: He tratado de buscar en el Hugging Face al igual que en otros Hugs un modelo para identificar patrones en una serie de tiempo. Es decir necesito reconocer o identificar la salida de un ave que deja de calentar el huevo de forma automatica. el patron de caida de temperatura es muy caracteristico, a diferencia de cambios o bajadas en la temperatura cuando hay movimiento o se da帽a el sensor. Ya tngo un monton de datos para hacer el entrenamiento, a los cuales le he hecho el label co label-studio. Tengo entendido que quiza es un CNN 1d lo que necesito pero quisiera agregar un tranafer learning para mejorar mi metrica... en general solo necesito identificar el in que es cuando esta, dado que nlo que no sea on es un off, no lo necesitaria. Luego el nocturnal que es cuando hace una incubacion toda la noche![]()![](https://static.platzi.com/media/user_upload/sddd-5898028c-ed3b-4f50-955e-ecafdf91f445.jpg)

Gracias