Entrenamiento de Modelos de Machine Learning con BigQuery ML

Clase 24 de 42Curso de Google Cloud Platform para E-commerce

Resumen

¿Qué necesitas considerar antes de entrenar un modelo de Machine Learning con BigQuery?

Antes de comenzar con las rondas de entrenamiento de Machine Learning utilizando BigQuery, es importante tener presente algunas consideraciones clave. Aunque la emoción por comenzar a entrenar tu modelo pueda ser grande, asegúrate de que estás siguiendo el pipeline correcto para obtener resultados precisos y optimizados.

¿Cómo funciona el pipeline en BigQuery ML?

El pipeline en BigQuery ML, el cual hemos revisado anteriormente, incluye los siguientes pasos:

  • Recolectar datos: Obtener la información necesaria desde varias fuentes como Analytics, Ads, YouTube, etc.
  • Preprocesar datos: Realizar una selección de las características relevantes y un análisis de distribución.
  • Crear el modelo: Utilizar sintaxis estándar de SQL para especificar el tipo de modelo y generar rondas de entrenamiento.
  • Evaluar el modelo: Verificar cómo se desempeña el modelo con métricas como precisión, pérdida y curvas ROC.
  • Predecir y despliegue: Hacer predicciones basadas en el modelo entrenado y exportarlo para uso en aplicaciones.

¿Cómo se escriben las queries en BigQuery ML?

La creación del modelo en BigQuery ML se realiza de manera parecida a la creación de tablas en SQL. Las queries clásicas se ajustan para decantarse hacia el entorno de Machine Learning:

CREATE OR REPLACE MODEL 'tu_modelo'
OPTIONS (model_type='logistic_reg') AS (
  SELECT * FROM 'tu_dataset'
)

¿Cómo se evalúa y se validan los resultados del modelo?

Se emplean queries para evaluar el modelo en BigQuery:

SELECT *
FROM ML.EVALUATE(MODEL 'tu_modelo', (SELECT * FROM 'tu_test_dataset'))

Este tipo de consulta te proporciona los resultados del modelo en formato de tabla, mostrando detalles como precisión, f1-score, y curvas de pérdida.

¿Cómo seleccionar características para el modelo?

La selección de características precisa es vital para el rendimiento óptimo de tu modelo. Esto se enfoca en:

  • Identificar los atributos del usuario y el engagement con el sitio web.
  • Considerar características como el tiempo en el sitio, visitas a páginas, país y medio de adquisición.
  • Seleccionar variables que tengan sentido lógico para predecir el comportamiento deseado.

¿Cómo dividir tus datos para entrenamiento y evaluación?

Un paso crucial es dividir adecuadamente tus datos en conjuntos de entrenamiento y prueba para asegurar la precisión. El objetivo es tener un conjunto reservado para evaluar el desempeño del modelo sin sobreajuste.

¿Cómo evaluar el desempeño y simpleza del modelo?

Mantén las cosas simples al inicio. Usa modelos estándar antes de pasar a la hiperparametrización avanzada. Define con el equipo qué significa buen y mal desempeño para evitar pérdidas de tiempo en el entrenamiento.

Además, considera cómo integrar el modelo en tu aplicación desde el principio, pensando siempre en la implementación y las funcionalidades reales para los usuarios.

Herramientas útiles para el benchmarking

Una herramienta útil en este proceso es What If Tool, la cual permite hacer benchmarks entre distintos tipos de algoritmos y te ayuda a mantener simples las pruebas iniciales. Es open source y accesible para experimentación.

Ahora que sabes qué debes considerar antes de correr tu modelo, estás listo para llevar tus habilidades de Machine Learning al siguiente nivel con BigQuery. ¡Adelante, y buena suerte en tu camino de aprendizaje!