No tienes acceso a esta clase

¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera

Explorando los datasets

5/17
Recursos

Aportes 18

Preguntas 1

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad?

OSCAR (Por sus siglas Open Super-large Crawled ALMAnaCH coRpus) Es uno de los datasets de lenguaje natural mas importantes de hugging face.

  • Está disponible en 166 lenguajes incluido el Español.
  • Demanda una capacidad de disco de 212 GB sólo para lenguaje Español.

GPT2-Spanish Es un modelo de generación de texto muy famoso en la comunidad hispana ya que fue entrenado desde scratch con base en el dataset OSCAR.

Les comparto un video sobre Open Assistant, un proyecto de código abierto que esta construyendo un modelo con la ayuda de toda la comunidad en internet. Me parece una propuesta muy interesante, y tienen disponible el modelo en Hugging Face.

https://www.youtube.com/watch?v=XYT1TxINbuM&t=7s

Me pareció interesante el dataset de Wikipedia,

Para el momento que estoy viendo este curso, ya llegaron a casi 62mil 😮

Solución al reto:

LeoCordoba/CC-NEWS-ES-titles
Fue una tarea interesante

Model: erikycd/chatbot_hadita
Este modelo utilizo GPT2 como columna base. Utiliza un enfoque de aprendizaje por transferencia para tareas conversacionales.

Dataset: ParisNeo/LoLLMS-Open-Community-discussions
este dataset contiene conversaciones recopiladas eticamente por la comunidad, que compartieron sus experiencias con modelos como GPT4.

Al dia de Hoy tiene 111246

actualmente casi 31 k de dataset… increible esa comunidad

wooo actualmente hay mas del doble

amazon\_reviews\_multi Trelis/Mixtral-8x7B-Instruct-v0.1-function-calling-v3 Dos muy buenos

Gracias

Modelo de generación de texto: \- datificate/gpt2-small-spanish: GPT2-small-spanish es un modelo de lenguaje de vanguardia en Español basado en el modelo pequeño GPT-2. Fué entrenado con la Wikipedia en Español usando **técnicas de Aprendizaje por Transferencia y afinación de modelos**. El entrenamiento del modelo tomó alrededor 70 horas con cuatro GPUs NVIDIA GTX 1080-Ti con 11GB de DDR5 y con aproximadamente 3GB de datos de entrenamiento preprocesados. Dataset: spanish\_billion\_words
Encontré el Modelo bigscience/bloomz , que es capaz de seguir instrucciones humanas en docenas de lenguajes y el dataset MIAM, una colección de recursos para entrenar, evaluar y analizar sistemas de comprensión del lenguaje natural diseñados para el lenguaje hablado.

hoy 06/10/2023 El conteo de Datasets es de
68.251

yo encontré estos:
modelo: tiiuae/falcon-180B

dataset: oscar-corpus/OSCAR-2201

A mi me llamo la atención el Dataset

Flores

No Language Left Behind

Este principio ético, promocionado por Meta es importante porque la mayoría de la información para trabajar con IA está inglés y necesitamos herramientas de vanguardia para traer el libre uso de los modelos a todos los rincones de la tierra

habla con un tono de voz como si estuviera contando un secreto