Si por ejemplo tenemos el corpus en español, y hay mayúsculas, le aplico un lower() para convertirlo a minúsculas, pero como puedo identi...

Sergio Rubiano

Sergio Rubiano

Pregunta
studenthace 5 años

Si por ejemplo tenemos el corpus en español, y hay mayúsculas, le aplico un lower() para convertirlo a minúsculas, pero como puedo identificar aquellas palabras que tienen tildes, por ejemplo, una persona puede poner la palabra “esta” en vez de “está” en este caso serian 2 palabras diferentes, ¿ como se lleva este proceso con respecto a esta clase ?

1 respuestas
para escribir tu comentario
    Mario Javier Gonzalez Gil

    Mario Javier Gonzalez Gil

    studenthace 5 años

    Bueno creo que te tocaría usar una búsqueda y sustitución con expresiones regulares, pero deberías estar claro que hay palabras que se diferencian solo por la acentuación... Podrías confundir palabras diferentes como si fueran una sola... Vi métodos pero no los probé que involucran a la librería ( from unidecode import unidecode) Aqui hablan más de eso

Curso de NLP con Python y NLTK [Empieza Gratis]

Curso de NLP con Python y NLTK [Empieza Gratis]

Analiza el Procesamiento de Lenguaje Natural con Python y NLTK. Descubre cómo tokenizar texto, encontrar colocaciones y medir similitudes semánticas. Aprende a procesar datos desde la web e implementar técnicas de limpieza de texto.

Curso de NLP con Python y NLTK [Empieza Gratis]
Curso de NLP con Python y NLTK [Empieza Gratis]

Curso de NLP con Python y NLTK [Empieza Gratis]

Analiza el Procesamiento de Lenguaje Natural con Python y NLTK. Descubre cómo tokenizar texto, encontrar colocaciones y medir similitudes semánticas. Aprende a procesar datos desde la web e implementar técnicas de limpieza de texto.