Santiago Ahumada Lozano
EstudianteManuel Wilken
EstudianteMiguel Rodríguez
EstudianteGuillermo Alejandro Rojas Jimenez
EstudianteLuis Rogelio Reyes Hernandez
EstudianteJulio García García
EstudianteJesús Leonardo Perea Alarcón
EstudianteHiddekel Manriquez
EstudianteVladimir Marcos Vega
EstudianteMatias Alexander Ibarra Trujillo
EstudianteVíctor Trigo
EstudianteIvan Andres Diaz Lopez
EstudianteEdgar A. Gonzalez Ambriz
EstudianteHéctor Daniel Nieto Ruiz
EstudianteMichell Osorio Rodriguez
EstudianteMARIA TERESA PANIAGUA RIVERA
EstudianteCamilo Alejandro Quiroz Castellanos
EstudianteJuan Pablo Leguizamón Cruz
EstudiantePatricio Sánchez Fernández
EstudianteWilson Barrera
EstudianteGilberto Espinoza Maciel
Estudiantepedro albenis parrado vargas
EstudianteOSCAR (Por sus siglas Open Super-large Crawled ALMAnaCH coRpus) Es uno de los datasets de lenguaje natural mas importantes de hugging face.
GPT2-Spanish Es un modelo de generación de texto muy famoso en la comunidad hispana ya que fue entrenado desde scratch con base en el dataset OSCAR.
Les comparto un video sobre Open Assistant, un proyecto de código abierto que esta construyendo un modelo con la ayuda de toda la comunidad en internet. Me parece una propuesta muy interesante, y tienen disponible el modelo en Hugging Face.
Me pareció interesante el dataset de Wikipedia,
Para el momento que estoy viendo este curso, ya llegaron a casi 62mil :o
Solución al reto:
Modelo: https://huggingface.co/OpenAssistant/oasst-sft-1-pythia-12b El modelo conversacional estilo Chat de codigo abierto de Open Assistant entrenado usando de base el modelo Pythia 12B
Dataset: https://huggingface.co/datasets/wikipedia Dataset de los articulos de wikipedia en multiples idiomas
LeoCordoba/CC-NEWS-ES-titles Fue una tarea interesante
Model: erikycd/chatbot_hadita Este modelo utilizo GPT2 como columna base. Utiliza un enfoque de aprendizaje por transferencia para tareas conversacionales.
Dataset: ParisNeo/LoLLMS-Open-Community-discussions este dataset contiene conversaciones recopiladas eticamente por la comunidad, que compartieron sus experiencias con modelos como GPT4.
Al dia de Hoy tiene 111246
actualmente casi 31 k de dataset... increible esa comunidad
wooo actualmente hay mas del doble
Ahora más que el triple :0
Que es un dataset ?
Un dataset es una colección organizada de datos que se utiliza para diversos propósitos, como el análisis o el entrenamiento de modelos de machine learning. En términos simples, es un conjunto estructurado de datos que puede estar almacenado en diferentes formatos, como archivos de texto, hojas de cálculo, etc
.
Excelente curso <3
amazon_reviews_multi
Trelis/Mixtral-8x7B-Instruct-v0.1-function-calling-v3
Dos muy buenos
Gracias
Modelo de generación de texto: - datificate/gpt2-small-spanish: GPT2-small-spanish es un modelo de lenguaje de vanguardia en Español basado en el modelo pequeño GPT-2.
Fué entrenado con la Wikipedia en Español usando técnicas de Aprendizaje por Transferencia y afinación de modelos. El entrenamiento del modelo tomó alrededor 70 horas con cuatro GPUs NVIDIA GTX 1080-Ti con 11GB de DDR5 y con aproximadamente 3GB de datos de entrenamiento preprocesados.
Dataset: spanish_billion_words
Encontré el Modelo bigscience/bloomz , que es capaz de seguir instrucciones humanas en docenas de lenguajes y el dataset MIAM, una colección de recursos para entrenar, evaluar y analizar sistemas de comprensión del lenguaje natural diseñados para el lenguaje hablado.
hoy 06/10/2023 El conteo de Datasets es de 68.251
yo encontré estos: modelo: tiiuae/falcon-180B
dataset: oscar-corpus/OSCAR-2201
A mi me llamo la atención el Dataset
Flores
No Language Left Behind
Este principio ético, promocionado por Meta es importante porque la mayoría de la información para trabajar con IA está inglés y necesitamos herramientas de vanguardia para traer el libre uso de los modelos a todos los rincones de la tierra
habla con un tono de voz como si estuviera contando un secreto