Fundamentos de PyTorch
¿Qué necesitas para aprender PyTorch?
¿Por qué usar PyTorch?
Hola, mundo en PyTorch
Creación de Tensores en PyTorch
Debugging de operaciones con tensores
Conversión y operación de tensores con PyTorch
Quiz: Fundamentos de PyTorch
Estructura de modelo de deep learning en PyTorch
Generación y split de datos para entrenamiento de modelo
Estructura de modelo en PyTorch con torch.nn
Entrenamiento, funciones de pérdida y optimizadores
Entrenamiento y visualización de pérdida
Predicción con un modelo de PyTorch entrenado
Quiz: Estructura de modelo de deep learning en PyTorch
Redes neuronales con PyTorch
Datos para clasificación de texto
Procesamiento de datos: tokenización y creación de vocabulario
Procesamiento de datos: preparación del DataLoader()
Creación de modelo de clasificación de texto con PyTorch
Función para entrenamiento
Función para evaluación
Split de datos, pérdida y optimización
Entrenamiento y evaluación de modelo de clasificación de texto
Inferencia utilizando torch.compile(): el presente con PyTorch 2.X
Almacenamiento del modelo con torch.save() y state_dict()
Sube tu modelo de PyTorch a Hugging Face
Carga de modelo de PyTorch con torch.load()
Quiz: Redes neuronales con PyTorch
Cierre del curso
Cierre del curso
No tienes acceso a esta clase
¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera
No se trata de lo que quieres comprar, sino de quién quieres ser. Invierte en tu educación con el precio especial
Antes: $249
Paga en 4 cuotas sin intereses
Termina en:
Omar Espejel
Aportes 8
Preguntas 2
Tuve la duda de cómo funcionaba el tokenizer + vocabulario y traigo mis conclusiones.
El tokenizer simplemente separa las palabras en tokens, y el algoritmo que usemos (en este caso basic_english) determinará qué caracteres tokenizará y que limpiezas y convenciones llevará a cabo (agregar espacios a las puntuaciones, transformar los saltos de linea en espacios sencillos y demás limpiezas) y retornará un array gigante con los cada palabra tokenizada.
El vocab (o vocabulario) por otra parte es especial. El proceso para determinar qué valor numérico pertenece a cada token es directamente proporcional a su frecuencia de aparición. Entre más aparezca un token en un dataset (también llamado text corpus) menor valor tendrá, por eso los conectores suelen tener valores tan bajos.
La razón por la que debemos agregar el <unk> en el vocab es porque únicamente hemos creado los valores de los tokens disponibles en el text corpus, por lo que, si en alguna inferencia usamos texto que no contiene un token válido, debemos tener un mecanismo para encapsularlo.
si tienen el error
ImportError: cannot import name ‘DILL_AVAILABLE’ from ‘torch.utils.data.datapipes.utils.common’
Utilicen
torch.utils.data.datapipes.utils.common.DILL_AVAILABLE = torch.utils._import_utils.dill_available()
antes de
train_iter = iter(DBpedia(split='train'))
Ver el enlace
¿Quieres ver más aportes, preguntas y respuestas de la comunidad?