El Procesamiento del Lenguaje Natural o NLP, por sus siglas en inglés, es el campo de la inteligencia artificial y la lingüística que estudia cómo las computadoras pueden entender el lenguaje humano.
Desde su comienzo, el desarrollo de este campo se ha centrado en el inglés, lo que hace que no existan tantos recursos como necesitaríamos cuando queremos trabajar en español con estas tecnologías. Por ello debemos comenzar a contribuir más a su desarrollo en nuestro idioma y una de las mejores formas de hacerlo es colaborando con la comunidad de NLP en español.
Una de las comunidades más grandes en el mundo del NLP en español es Somos NLP. Cuenta con el apoyo de Hugging Face, una empresa open-source con una de las mayores comunidades en el mundo del machine learning.
La misión de Somos NLP es democratizar el procesamiento del lenguaje natural en español y Somos NLP ha creado canales y formas para contribuir de manera abierta. Conozcamos algunas.
Los datasets son fundamentales para crear modelos de NLP. Cuanto más enriquecidos y mejor documentados estén, mejores resultados obtendremos al usar los datos.
En los datasets del Hub de Hugging Face hay pocos cuyo único idioma sea el español. Tener más datasets o enriquecer los existentes ayudará a que podamos crear nuevos modelos en el futuro para diferentes aplicaciones y públicos. Por ejemplo, si creamos un dataset de textos legales nos beneficiaría para crear modelos del lenguaje con especialidad en este estilo de escritura.
Existen las siguientes formas de contribuir a los datasets open-source:
Si quieres profundizar sobre cómo contribuir y usar datasets open-source revisa la documentación de Hugging Face. Todos juntos avanzamos en la disciplina.
¿Cuántas veces has necesitado saber cómo hacer algo en específico y un tutorial en línea te ha salvado la vida? Tú podrías ser una de las personas que ayuden a otras, puedes crear tutoriales desde cero o traducir al español alguno existente. Por ejemplo, en Hugging Face hay muchos tutoriales y documentación en inglés que aún no llega a toda la comunidad hispanohablante por no estar en español.
Los meetups y otros eventos son un espacio excelente para compartir tu experiencia con otras personas. Puedes compartir lo que has aprendido o construido a través de una charla.
Estas charlas pueden ser teóricas o prácticas, lo importante es que las personas que la vean se lleven algo valioso para seguir construyendo.
Existen menos de 700 modelos en español en el Hub de Hugging Face. Queda bastante trabajo por hacer. Contribuir con tu propio modelo siguiendo los requisitos para que pueda ser utilizado por otras personas es de las mejores formas de contribuir. Darás una poderosa herramienta al mundo.
Para ello solo tienes que entrenar tu modelo utilizando datasets en español y seguir los lineamientos de la biblioteca Hugging Face.
Aquí puedes encontrar más detalles para comenzar a contribuir al Machine Learning open-source en español con ayuda de las bibliotecas de Hugging Face y de la comunidad Somos NLP.
Como acabas de ver existen múltiples formas de apoyar a la generación de modelos, datasets y conocimiento open-source de NLP en español. Pero esas no son todas las formas. Para terminar queremos invitarte al mayor Hackathon de procesamiento del lenguaje natural en español hasta ahora.
Únete al mayor hackathon de procesamiento del lenguaje natural en español. Aquí se busca acelerar esa misión de democratizar el NLP en español. Entrenaremos nuevos modelos de NLP en nuestro idioma para avanzar en el campo.
Así que esa será tu misión dentro del hackathon, entrenar tu propio modelo de forma individual o en equipo y compartirlo con la comunidad a través de la plataforma open-source del Hub de Hugging Face. 💪
Al participar en el hackathon aprenderás más sobre NLP. Además de tener acceso a material para estudiar, podrás asistir a charlas y talleres impartidas por personas expertas. Resolverás cualquiera de tus dudas con mentores e incluso tendrás acceso a recursos como GPUs para entrenar tus modelos.
📅 Este hackathon se llevará a cabo del 14 al 31 de marzo de 2022 de manera online y es completamente gratuito.
Conoce toda la información y cómo registrarte a este hackathon aquí mismo.
En Platzi nos emociona la idea de un mundo donde el procesamiento del lenguaje natural también crezca en español para que así España y Latinoamérica nos posicionemos fuertemente en esta rama de la inteligencia artificial. Por ello te invitamos a contribuir con todas las formas que hemos conocido. 🚀
hola mi nombre es karen zuñiga soy estudiante de fonoaudiología soy de cali valle, me interesa mucho el NLP ya que mi enfoque es crear un puente entre mi carrera y la inteligencia artificial desde mi perspectiva.
¿me podrías dar más información por favor?
Wow que impresionante.
Hola Miguel, este párrafo esta repetido!
{ Como acabas de ver existen múltiples formas de apoyar a la generación de modelos, datasets y conocimiento open-source de NLP en español. Pero esas no son todas las formas. Para terminar queremos invitarte al mayor Hackathon de procesamiento del lenguaje natural en español hasta ahora.}
Gracias, ya lo corrigieron 😄
Hola Miguel, súper interesante el tema. Soy licenciada en lenguas extranjeras, he enseñado español e inglés y al igual que Karen estoy bastante interesada en el vínculo entre la inteligencia artificial y el lenguaje. Apenas comenzando en Platzi, pero que bueno tener una comunidad de estudio sobre este tema.
¡Excelente iniciativa, Miguel!
Quiero ayudar, pero llevo poco tiempo en el tema. De momento ya hice la trilogía de Python, hice el Datacademy y todavía no llego a la parte de NLP.
¡Igualmente muchas gracias por compartir! 😄
Excelente información, es la primera vez que me entero de ello.