Juan Jose Sepulveda Calderon
EstudiantePatricio Sánchez Fernández
EstudianteJorge Lizarazo
EstudianteJuan José Cano Duque
EstudianteJuan José Cano Duque
EstudianteEduardo Ángeles
EstudianteOmar Uriel Espejel Díaz
ProfesorMARIA TERESA PANIAGUA RIVERA
EstudianteProceso de Tokenizando un ejemplo de cómo se podría llevar a cabo el tokenizado de la frase "Nunca pares de aprender":
Supongamos que queremos dividir la frase en palabras individuales. En este caso, los tokens generados serían: "Nunca", "pares", "de", "aprender".
Si en lugar de eso quisiéramos dividir la frase en secuencias de caracteres de longitud fija, por ejemplo de tres caracteres cada una, los tokens generados serían: "Nun", "ca ", "par", "es ", "de ", "apr", "end", "er".
Cómo se divida el texto en tokens depende de la tarea en cuestión y del modelo preentrenado que se esté utilizando, y puede variar según las necesidades específicas del problema.
Además del tokenizado el tokenizer() también codifica los valores (transforma las cadenas a numeros) para que un modelo de machine learnin pueda procesarlos.
JJSC Muchas gracias por compartir tus conocimientos.
Un poco alejado de este task:
He tratado de buscar en el Hugging Face al igual que en otros Hugs un modelo para identificar patrones en una serie de tiempo.
Es decir necesito reconocer o identificar la salida de un ave que deja de calentar el huevo de forma automatica. el patron de caida de temperatura es muy caracteristico, a diferencia de cambios o bajadas en la temperatura cuando hay movimiento o se daña el sensor.
Ya tngo un monton de datos para hacer el entrenamiento, a los cuales le he hecho el label co label-studio. Tengo entendido que quiza es un CNN 1d lo que necesito pero quisiera agregar un tranafer learning para mejorar mi metrica...
en general solo necesito identificar el in que es cuando esta, dado que nlo que no sea on es un off, no lo necesitaria. Luego el nocturnal que es cuando hace una incubacion toda la noche
Holas! Ando trabajando en mi propio proyecto, y no sabría como identificar cual fue el tokenizer que uso el modelo al que le voy a hacer fine-tunning.
Hay manera de encontrar esa info?
Nada, en la misma clase se deja claro:
El AutoTokenizer lo resuelve por mi. Excelente clase!
Una duda, al preparar el dataset con el tokenizado, si agrego el parametro batched=True, me arroja el siguiente resultado.
Pero cuando lo retiro, parece completarse de manera correcta.
Hola! No te indica un error?
Gracias