Si por ejemplo tenemos el corpus en español, y hay mayúsculas, le aplico un lower() para convertirlo a minúsculas, pero como puedo identi...

Pregunta de la clase:

Recursos Léxicos en Python: Vocabularios, Frecuencias y Stopwords

Sergio Rubiano

Pregunta

student•hace 5 años

Si por ejemplo tenemos el corpus en español, y hay mayúsculas, le aplico un lower() para convertirlo a minúsculas, pero como puedo identificar aquellas palabras que tienen tildes, por ejemplo, una persona puede poner la palabra “esta” en vez de “está” en este caso serian 2 palabras diferentes, ¿ como se lleva este proceso con respecto a esta clase ?

Mario Javier Gonzalez Gil

student•hace 5 años

Bueno creo que te tocaría usar una búsqueda y sustitución con expresiones regulares, pero deberías estar claro que hay palabras que se diferencian solo por la acentuación... Podrías confundir palabras diferentes como si fueran una sola... Vi métodos pero no los probé que involucran a la librería ( from unidecode import unidecode) Aqui hablan más de eso

Curso de NLP con Python y NLTK [Empieza Gratis]

Analiza el Procesamiento de Lenguaje Natural con Python y NLTK. Descubre cómo tokenizar texto, encontrar colocaciones y medir similitudes semánticas. Aprende a procesar datos desde la web e implementar técnicas de limpieza de texto.

Ir al curso

Curso de NLP con Python y NLTK [Empieza Gratis]

Ir al curso

Únete a más de 5 millones de estudiantes y a más de 3.000 empresas que aprenden en Platzi

Nunca pares de aprender