Para este tipo de problemas es mejor utilizar Word Embeddings ya que one hot encoding no es eficiente en cuanto al huso de la memoria, para este ejemplo tenemos que generar un vector de 10000 entradas para poder codificar un feature o label.
Em cambio con Word Embeddings a cada palabra se le asocia un vector n-dimensional que puede ser de 128, 265, 512 … etc.
y este tipo de codificación te permite encontrar mejores relaciones entre las palabras.
para mas información revisar la documentación de TensorFlow en el siguiente enlace.
https://www.tensorflow.org/tutorials/text/word_embeddings?hl=es-419
¿Quieres ver más aportes, preguntas y respuestas de la comunidad? Crea una cuenta o inicia sesión.