Procesamiento de dataset para NLP
Clase 13 de 17 • Curso de Transfer Learning con Hugging Face
Contenido del curso
Clase 13 de 17 • Curso de Transfer Learning con Hugging Face
Contenido del curso
Juan Jose Sepulveda Calderon
Patricio Sánchez Fernández
Jorge Lizarazo
Juan José Cano Duque
Juan José Cano Duque
Eduardo Ángeles
Omar Uriel Espejel Díaz
MARIA TERESA PANIAGUA RIVERA
Proceso de Tokenizando un ejemplo de cómo se podría llevar a cabo el tokenizado de la frase "Nunca pares de aprender":
Supongamos que queremos dividir la frase en palabras individuales. En este caso, los tokens generados serían: "Nunca", "pares", "de", "aprender".
Si en lugar de eso quisiéramos dividir la frase en secuencias de caracteres de longitud fija, por ejemplo de tres caracteres cada una, los tokens generados serían: "Nun", "ca ", "par", "es ", "de ", "apr", "end", "er".
Cómo se divida el texto en tokens depende de la tarea en cuestión y del modelo preentrenado que se esté utilizando, y puede variar según las necesidades específicas del problema.
Además del tokenizado el tokenizer() también codifica los valores (transforma las cadenas a numeros) para que un modelo de machine learnin pueda procesarlos.
JJSC Muchas gracias por compartir tus conocimientos.
Un poco alejado de este task:
He tratado de buscar en el Hugging Face al igual que en otros Hugs un modelo para identificar patrones en una serie de tiempo.
Es decir necesito reconocer o identificar la salida de un ave que deja de calentar el huevo de forma automatica. el patron de caida de temperatura es muy caracteristico, a diferencia de cambios o bajadas en la temperatura cuando hay movimiento o se daña el sensor.
Ya tngo un monton de datos para hacer el entrenamiento, a los cuales le he hecho el label co label-studio. Tengo entendido que quiza es un CNN 1d lo que necesito pero quisiera agregar un tranafer learning para mejorar mi metrica...
en general solo necesito identificar el in que es cuando esta, dado que nlo que no sea on es un off, no lo necesitaria. Luego el nocturnal que es cuando hace una incubacion toda la noche
Holas! Ando trabajando en mi propio proyecto, y no sabría como identificar cual fue el tokenizer que uso el modelo al que le voy a hacer fine-tunning.
Hay manera de encontrar esa info?
Nada, en la misma clase se deja claro:
El AutoTokenizer lo resuelve por mi. Excelente clase!
Una duda, al preparar el dataset con el tokenizado, si agrego el parametro batched=True, me arroja el siguiente resultado.
Pero cuando lo retiro, parece completarse de manera correcta.
Hola! No te indica un error?
Gracias