Cómo contribuir al Procesamiento del Lenguaje Natural en españo

Curso de Transfer Learning con Hugging Face

COMPARTE ESTE ARTÍCULO Y MUESTRA LO QUE APRENDISTE

El Procesamiento del Lenguaje Natural o NLP, por sus siglas en inglés, es el campo de la inteligencia artificial y la lingüística que estudia cómo las computadoras pueden entender el lenguaje humano.

Desde su comienzo, el desarrollo de este campo se ha centrado en el inglés, lo que hace que no existan tantos recursos como necesitaríamos cuando queremos trabajar en español con estas tecnologías. Por ello debemos comenzar a contribuir más a su desarrollo en nuestro idioma y una de las mejores formas de hacerlo es colaborando con la comunidad de NLP en español.

Cómo contribuir al procesamiento del lenguaje natural con la comunidad

Una de las comunidades más grandes en el mundo del NLP en español es Somos NLP. Cuenta con el apoyo de Hugging Face, una empresa open-source con una de las mayores comunidades en el mundo del machine learning.

La misión de Somos NLP es democratizar el procesamiento del lenguaje natural en español y Somos NLP ha creado canales y formas para contribuir de manera abierta. Conozcamos algunas.

Crea y enriquece datasets

Los datasets son fundamentales para crear modelos de NLP. Cuanto más enriquecidos y mejor documentados estén, mejores resultados obtendremos al usar los datos.

En los datasets del Hub de Hugging Face hay pocos cuyo único idioma sea el español. Tener más datasets o enriquecer los existentes ayudará a que podamos crear nuevos modelos en el futuro para diferentes aplicaciones y públicos. Por ejemplo, si creamos un dataset de textos legales nos beneficiaría para crear modelos del lenguaje con especialidad en este estilo de escritura.

Existen las siguientes formas de contribuir a los datasets open-source:

Completa la documentación de los datasets del Hub
Añade ejemplos adicionales a datasets ya existentes
Sube al Hub un dataset que esté disponible online para ponerlo a disponibilidad de todo el mundo.
Crea un nuevo dataset

Si quieres profundizar sobre cómo contribuir y usar datasets open-source revisa la documentación de Hugging Face. Todos juntos avanzamos en la disciplina.

Crea tutoriales

¿Cuántas veces has necesitado saber cómo hacer algo en específico y un tutorial en línea te ha salvado la vida? Tú podrías ser una de las personas que ayuden a otras, puedes crear tutoriales desde cero o traducir al español alguno existente. Por ejemplo, en Hugging Face hay muchos tutoriales y documentación en inglés que aún no llega a toda la comunidad hispanohablante por no estar en español.

Comparte tus conocimientos dando charlas

Los meetups y otros eventos son un espacio excelente para compartir tu experiencia con otras personas. Puedes compartir lo que has aprendido o construido a través de una charla.

Estas charlas pueden ser teóricas o prácticas, lo importante es que las personas que la vean se lleven algo valioso para seguir construyendo.

Desarrolla y comparte tus modelos

Existen menos de 700 modelos en español en el Hub de Hugging Face. Queda bastante trabajo por hacer. Contribuir con tu propio modelo siguiendo los requisitos para que pueda ser utilizado por otras personas es de las mejores formas de contribuir. Darás una poderosa herramienta al mundo.

Para ello solo tienes que entrenar tu modelo utilizando datasets en español y seguir los lineamientos de la biblioteca Hugging Face.

Aquí puedes encontrar más detalles para comenzar a contribuir al Machine Learning open-source en español con ayuda de las bibliotecas de Hugging Face y de la comunidad Somos NLP.

Como acabas de ver existen múltiples formas de apoyar a la generación de modelos, datasets y conocimiento open-source de NLP en español. Pero esas no son todas las formas. Para terminar queremos invitarte al mayor Hackathon de procesamiento del lenguaje natural en español hasta ahora.

Participa en el Hackathon de PLN en español

Únete al mayor hackathon de procesamiento del lenguaje natural en español. Aquí se busca acelerar esa misión de democratizar el NLP en español. Entrenaremos nuevos modelos de NLP en nuestro idioma para avanzar en el campo.

Así que esa será tu misión dentro del hackathon, entrenar tu propio modelo de forma individual o en equipo y compartirlo con la comunidad a través de la plataforma open-source del Hub de Hugging Face. 💪

Al participar en el hackathon aprenderás más sobre NLP. Además de tener acceso a material para estudiar, podrás asistir a charlas y talleres impartidas por personas expertas. Resolverás cualquiera de tus dudas con mentores e incluso tendrás acceso a recursos como GPUs para entrenar tus modelos.

📅 Este hackathon se llevará a cabo del 14 al 31 de marzo de 2022 de manera online y es completamente gratuito.

Conoce toda la información y cómo registrarte a este hackathon aquí mismo.

En Platzi nos emociona la idea de un mundo donde el procesamiento del lenguaje natural también crezca en español para que así España y Latinoamérica nos posicionemos fuertemente en esta rama de la inteligencia artificial. Por ello te invitamos a contribuir con todas las formas que hemos conocido. 🚀

Curso de Transfer Learning con Hugging Face

Toma las primeras clases gratis

COMPARTE ESTE ARTÍCULO Y MUESTRA LO QUE APRENDISTE