Me gustaria implementar algo asi pero al lenguaje de señas colombiano por medio de lectura de lectura de imagenes y opencv
algun concejo??
Introducción al Procesamiento de Lenguaje Natural
Introducción al Procesamiento de Lenguaje Natural
Evolución del NLP
Conceptos básicos de NLP
Fundamentos con NLTK
Configurar ambiente de trabajo
Palabras, textos y vocabularios
Tokenizacion con Expresiones Regulares
Estadísticas básicas del lenguaje
Distribuciónes de frecuencia de palabras
Refinamiento y visualización de cuerpos de texto
N-gramas y Colocaciones del lenguaje
¿Cómo extraer n-gramas de un texto en Python?
Colocaciones en Python
Colocaciones en gráficos de dispersión
Filtros y colocaciones en NLTK
Introducción a los recursos léxicos
Recursos léxicos en NLTK
NLTK para traducción de palabras
Introducción a WordNet
Explorando WordNet
Similitud Semantica con WordNet
Procesamiento de texto plano desde Web
Usando código estructurado: conexión de Drive a Google Colab
Usando código estructurado: Funciones externas
Perspectivas de lo que viene
Continúa con el Curso de Algoritmos de Clasificación de Texto
No tienes acceso a esta clase
¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera
En el vasto mundo del procesamiento del lenguaje natural (NLP, por sus siglas en inglés), los recursos léxicos son fundamentales. Estos sirven como herramientas poderosas para tareas como la traducción entre idiomas. Una de las tecnologías que facilita este proceso es el uso de las listas Swadesh, un conjunto de recursos léxicos que nos permite traducir palabras individuales de un idioma a otro de manera eficiente.
El recurso léxico Swadesh es un elemento del corpus NLTK que ofrece listas de palabras básicas en diferentes idiomas. Estas listas sirven como base para realizar traducciones básicas entre pares de lenguajes.
Para comenzar, debe importar el módulo necesario y explorar los idiomas disponibles:
from nltk.corpus import swadesh
# Obtenemos los identificadores de archivo de los idiomas disponibles
idiomas = swadesh.fileids()
print(idiomas) # Muestra códigos como ['be', 'bg', 'cs', 'da', etc.]
El uso de Swadesh permite seleccionar palabras predeterminadas contenidas en diferentes idiomas. A modo de ejemplo, veamos cómo se accede al lexicón de palabras en inglés:
# Obtenemos el lexicón de palabras en inglés
palabras_ingles = swadesh.words('en')
print(palabras_ingles) # Lista de palabras básicas en inglés como ['I', 'you', 'he', etc.]
Supongamos que queremos traducir palabras del francés al español. Primero, es necesario crear un objeto Swadesh específico:
# Creamos un objeto entries para traducir del francés al español
fr_to_es = swadesh.entries(['fr', 'es'])
# Convirtiendo a un diccionario para facilitar las traducciones puntuales
diccionario_fr_to_es = dict(fr_to_es)
# Ejemplo de traducción
print(diccionario_fr_to_es['chien']) # Debería imprimir 'perro'
Este método permite acceder rápidamente a las traducciones siempre que las palabras estén en el lexicón original.
Imagina que estás realizando un análisis de tweets en inglés sobre una figura política extranjera. El objetivo es identificar las palabras más mencionadas, traducirlas al español y presentarlas en un formato visual, como una nube de palabras. En el proceso, puedes:
Esta técnica no solo mejora la accesibilidad de la información al permitir presentarla en varios idiomas, sino que también enriquece el análisis al cruzarlo con diferentes culturas y contextos lingüísticos.
Este enfoque integral de los recursos léxicos subraya su importancia en NLP y motiva a los desarrolladores a seguir explorando estas herramientas. Es un campo vasto, lleno de posibilidades, y cada paso en esta dirección abre puertas para nuevas y emocionantes aplicaciones.
Aportes 10
Preguntas 2
Me gustaria implementar algo asi pero al lenguaje de señas colombiano por medio de lectura de lectura de imagenes y opencv
algun concejo??
Uff. Justamente lo que estoy haciendo de tesis es lo que comenta al final. Pero apenas estoy aprendiendo NLP. Despues haria falta colocar una capa de ML de la cual filtre el contenido relevante en dichos tweets.
No se puede usar swadesh actualmente, pero les dejo la api de nltk para traducción
Nota:
Estos corpus de nltk no pueden ser utilizadon para la traduccion de parrafos. Ya que en general no contienen las palabras incluidas cada respectivo lenguaje.
Si ejecutas el siguiente codigo para traducir la palabra ‘house’ de ingles a español te dara un KeyError porque la palabra no esta disponible
from nltk.corpus import swadesh
en2es = swadesh.entries(['en', 'es'])
translate = dict(en2es)
translate['house']
Para realizar traducciones de párrafos es mejor usar “Swadesh” o usar el api de Translate de Google?
La lista de Swaddesh fue creada por el lingüista Morris Swadesh en la década de 1950.
Es una lista de palabras que se consideran universales (presentes en la mayoría de las lenguas) como ‘yo’, ‘perro’, ‘agua’, ‘cielo’. Por eso, se utiliza para hacer lingüística histórica, por ejemplo, comparando la similitud léxica entre lenguas.
Tengo una duda. Hace muchos meses salió GPT-3, un juguete de OpenAI que tiene un motor de NLP impresionante. Sin embargo, hasta donde entiendo, todos los procesos los hace en el idioma inglés. ¿Es posible hace una traducción tanto de input como de output del modelo sin perder efectividad?
Francisco eres un excelente profesor !
Parece que solo acepta palabras en minúscula
¿Quieres ver más aportes, preguntas y respuestas de la comunidad?