Para lo de quitar las palabras que no generan valor yo suelo usar librerías que contienen listas de stopwords, dado que siento que haciéndolo por la longitud de la palabra igual podríamos estar perdiendo datos útiles
from nltk.corpus import stopwords
¿Quieres ver más aportes, preguntas y respuestas de la comunidad?