
Sergio Rubiano
PreguntaSi por ejemplo tenemos el corpus en español, y hay mayúsculas, le aplico un lower() para convertirlo a minúsculas, pero como puedo identificar aquellas palabras que tienen tildes, por ejemplo, una persona puede poner la palabra “esta” en vez de “está” en este caso serian 2 palabras diferentes, ¿ como se lleva este proceso con respecto a esta clase ?
Mario Javier Gonzalez Gil
Bueno creo que te tocaría usar una búsqueda y sustitución con expresiones regulares, pero deberías estar claro que hay palabras que se diferencian solo por la acentuación... Podrías confundir palabras diferentes como si fueran una sola... Vi métodos pero no los probé que involucran a la librería ( from unidecode import unidecode) Aqui hablan más de eso