¿Cómo crear y entrenar un modelo en la nube sin ser un experto en programación?
Entrenar un modelo en la nube puede parecer una tarea compleja, pero con las herramientas adecuadas y una guía paso a paso, es un proceso que se puede realizar de manera efectiva sin ser un científico de datos experto. Aprenderemos a utilizar la plataforma Google Cloud para crear y entrenar nuestro modelo, aprovechando las herramientas preexistentes y las facilidades que nos ofrece la nube.
¿Qué preliminares necesitamos para comenzar?
Antes de comenzar a entrenar nuestro modelo, es vital preparar el entorno de trabajo y asegurarse de estar en el proyecto correcto dentro de Google Cloud. Para esto:
Verificar y configurar proyectos: Asegúrate de que estás en el proyecto de la nube correcto para evitar confusiones y errores. Utiliza el comando gcloud config list para listar los proyectos disponibles y asegurarte de que estás en el proyecto adecuado.
Abrir el editor de Google Cloud: Puedes hacerlo con comandos específicos que permiten clonar y abrir repositorios ya existentes, facilitando el inicio del trabajo sin tener que lidiar con inconvenientes de sistemas operativos variados.
Crear y organizar el directorio: Hazlo a través de la terminal de comandos, donde podrás crear carpetas específicas para almacenar los datos que serán necesarios para entrenar el modelo.
# Crear un directorio para el modelomkdir census/estimator
# Verificar que el directorio se ha creadols -l
¿Cómo importar datos para el entrenamiento?
Los datos son el combustible del aprendizaje automático. Importar correctamente los datos y organizarlos es un paso crítico:
Utiliza el comando gsutil para traer datos de la nube y depositarlos en tu carpeta de Data local. Esto hace uso de datos públicos ya existentes que pueden requerirse para pruebas y entrenamiento.
# Importar datos de prueba desde el almacenamiento en la nubegsutil cp gs://cloud-samples-data/ml-engine/census/data/* ./census/estimator/data/
Asegúrate de que todos los datos se han copiado correctamente y verifica su contenido. Estos datos suelen contener información demográfica como edad, estado civil, información laboral, salarios, entre otros.
¿Cómo preparar las variables para entrenamiento y evaluación?
Preparar tus datos para el entrenamiento y la evaluación del modelo es fundamental para asegurar que los resultados sean precisos.
Define y establezca rutas para los sets de datos de entrenamiento y evaluación.
Utiliza comandos para crear variables que apunten a estos datos y configúralas correctamente en tu entorno de trabajo.
# Definir variables de entorno para las rutas de los datosexportTRAIN_DATA=$(pwd)/census/estimator/data/adult.data.csv
exportEVAL_DATA=$(pwd)/census/estimator/data/adult.test.csv
¿Cómo crear y monitorizar un bucket en Google Cloud?
Los buckets son contenedores de datos que te permiten almacenar y organizar tus datos en la nube:
Genera un bucket donde se guardará el modelo entrenado y los resultados. Definir adecuadamente la región geográfica es crucial para optimizar el procesamiento.
# Crear bucket en Google Cloud Storagegsutil mb -l us-central1 gs://my-bucket-name
¿Cómo iniciar la tarea de entrenamiento?
Con la configuración lista, es hora de entrenar tu modelo:
Define un job de entrenamiento con detalles específicos del modelo, como la versión del framework y el número de pasos de entrenamiento.
Inicia el proceso de entrenamiento utilizando los comandos que integran las diferentes configuraciones previamente establecidas.
# Enviar trabajo de entrenamiento a la nube usando Google AI Platformgcloud ai-platform jobs submit training my_job_name --module-name=my_model.train --package-path ./census/estimator --region us-central1 --runtime-version 2.1 --python-version 3.7 --scale-tier BASIC
¿Puedes monitorizar el proceso de entrenamiento y los resultados?
Sí, el seguimiento del entrenamiento y la evaluación es un aspecto esencial:
Consulta el estado del job dentro de la consola de Google Cloud para verificar el progreso y el tiempo restante.
Una vez finalizado, examina las métricas y los resultados dentro de Google Cloud Storage para evaluar el desempeño del modelo.
Con estos pasos, podrás crear y entrenar tu propio modelo en la nube, aprovechando al máximo las capacidades de los servicios cloud sin necesidad de ser un experto en programación.