Entrenar y predicir con tu modelo

Clase 17 de 28Curso de Machine Learning para Análisis Predictivo

Contenido del curso

Machine Learning genérico

Resumen

¿Cómo se visualizan los documentos cargados en la consola?

Cuando cargas tus documentos, la consola te muestra claramente el contenido de cada uno de ellos junto con las etiquetas asociadas. En la parte izquierda, puedes ver una lista de todas las etiquetas disponibles, como "desarrollo de negocio", "diseño" y "técnicos". También puedes filtrar los documentos con un simple clic en estas etiquetas, lo que facilita ver cuántos ejemplos tienes en cada categoría en tiempo real.

¿Qué sucede si hay documentos sin etiquetas?

Es importante asegurarse de que todos los documentos estén correctamente etiquetados, ya que los documentos sin etiquetas no serán considerados para el entrenamiento del modelo. En el caso tratado, todos los documentos estaban organizados en carpetas con los nombres de las etiquetas, por lo que no había documentos sin etiquetar. Si encontrases documentos sin etiquetar, es crucial abordarlos antes de proceder al entrenamiento.

¿Cómo se inicia el entrenamiento del modelo?

Una vez que tus datos están organizados y etiquetados, puedes comenzar el entrenamiento del modelo. Es recomendable contar con al menos cien ejemplos por categoría, aunque el ideal son mil documentos para obtener una mayor precisión. Aquí te mostramos cómo se comienza:

  1. Inicia el proceso de entrenamiento: Da un nombre al modelo antes de empezar.
  2. Tiempo de entrenamiento: El tiempo de entrenamiento varía según la cantidad de ejemplos. Con pocos ejemplos, el tiempo es menor, pero incrementa con conjuntos de datos grandes. Aquí, el entrenamiento tomó entre seis y siete horas.
  3. Costos: La plataforma proporciona la primera hora de entrenamiento gratis; después de eso, puede generar costos adicionales.

¿Cómo se realizan las predicciones?

El siguiente paso es la fase de predicciones. Aquí probarás documentos que el modelo no ha visto antes para comprobar su eficacia. Puedes utilizar documentos con el mismo formato y analizar los resultados de las predicciones en distintas categorías. Por ejemplo, al pegar el contenido de un blog de diseño, el modelo puede predecir con un 74% de confianza que pertenece a dicha categoría.

¿El autor del documento afecta la predicción?

Una hipótesis interesante es que el autor del documento puede influir en las predicciones. Sin embargo, los resultados muestran que el impacto es marginal y que el contenido en sí mismo es el factor más determinante en la clasificación. Cambiar el nombre del autor puede traer ligeros cambios, pero en general, no altera significativamente el resultado.

La estructura del texto y el tipo de contenido juegan un papel crucial. Si te aseguras de seguir un formato consistente, el modelo será capaz de devolver una predicción precisa en las cuatro categorías establecidas.

¿Cómo consumir los resultados del modelo?

Los resultados pueden ser consumidos directamente mediante una API REST, y existen librerías en Python como Un Clarín Library que facilitan esta tarea. Si utilizas otros lenguajes, ten en cuenta que el soporte para diferentes lenguajes está en desarrollo continuo, por lo que pronto podrás contar con una solución adecuada para tu proyecto. Esto te permite integrar las capacidades de predicción en tus aplicaciones y beneficiarte de la inteligencia del modelo en tiempo real.

¿Estás listo para evaluar tu modelo?

En las siguientes lecciones, se profundizará en la evaluación del modelo y se abordarán conceptos como precisión y cobertura. Estos elementos son fundamentales para comprender el comportamiento del modelo y optimizarlo para futuras implementaciones. Con la práctica constante y la experimentación, lograrás sacar el máximo provecho de esta poderosa herramienta de clasificación automática de documentos.