OSCAR (Por sus siglas Open Super-large Crawled ALMAnaCH coRpus) Es uno de los datasets de lenguaje natural mas importantes de hugging face.
- Está disponible en 166 lenguajes incluido el Español.
- Demanda una capacidad de disco de 212 GB sólo para lenguaje Español.
GPT2-Spanish Es un modelo de generación de texto muy famoso en la comunidad hispana ya que fue entrenado desde scratch con base en el dataset OSCAR.
¿Quieres ver más aportes, preguntas y respuestas de la comunidad?