Roles en Vertex AI y su integración con Google Cloud

Clase 11 de 19Curso de Big Data y Machine Learning con Google Cloud Platform

Resumen

Construir modelos de machine learning en producción requiere mucho más que algoritmos: exige coordinar equipos, servicios en la nube y prácticas de gobierno responsable. Vertex AI es la plataforma de Google Cloud que unifica todo el ciclo de vida de un modelo, desde la ingesta de datos hasta su despliegue y monitoreo continuo. A continuación, se explican los roles involucrados, los servicios clave y los principios que garantizan transparencia y confianza.

¿Qué roles interactúan con los servicios de Google Cloud?

Cada perfil dentro de un equipo de datos cumple una función específica y se apoya en distintos servicios de la plataforma.

¿Qué hace un product manager en el ecosistema de datos?

El Product Manager es quien posee el conocimiento de los insights y los objetivos del proyecto [0:14]. Necesita acceso rápido a la información, por lo que trabaja con herramientas de visualización ágil y hojas de cálculo que le permitan construir sus propias métricas y reportes de forma flexible.

¿Cómo contribuyen el data analyst y el data engineer?

El Data Analyst realiza consultas a los datos buscando patrones, tendencias y estadísticas descriptivas [0:42]. Interactúa con servicios como BigQuery, Data Fusion, Dataflow, Looker para visualización, el catálogo de datos y BigQuery ML para modelos directos en SQL.

Por su parte, el Data Engineer es fundamental para construir pipelines de datos limpios y útiles en la creación de modelos predictivos [1:06]. Trabaja con BigQuery, Dataflow, Composer y Dataproc, y accede a herramientas de calidad y linaje de datos. Cuando se requiere procesamiento en tiempo real, utiliza BigQuery y Dataflow en conjunto.

¿Cuál es la diferencia entre data scientist, ML developer y ML engineer?

  • Data Scientist: construye modelos usando Jupyter Notebooks, TensorFlow, servicios de Auto Machine Learning, el feature store y los pipelines de datos de Vertex AI [1:42].
  • ML Developer: integra las aplicaciones de la compañía con los modelos de machine learning, trabajando con servicios de conversación, lenguaje natural, video y optimización [2:06].
  • ML Engineer: une el trabajo del data scientist y el data engineer para llevar los modelos a producción [2:24]. Se encarga de la escalabilidad, aplica metodologías de integración y delivery continuo (CI/CD), y monitorea métricas de evaluación continua para detectar cuándo es necesario un reentrenamiento del modelo.

¿Qué ofrece Vertex AI dentro del ecosistema de Google Cloud?

Dentro de la oferta de inteligencia artificial de Google Cloud existen soluciones como Document AI, Recommendation AI y Contact Center AI [2:58]. Vertex AI, en cambio, agrupa las APIs preentrenadas y los algoritmos de machine learning que se pueden personalizar para cada caso de uso.

La plataforma se organiza en torno a tres ejes [3:28]:

  • Construir modelos de la mejor forma posible.
  • Acelerar el desarrollo para reducir tiempos de entrega.
  • Mejorar la confianza trabajando con responsabilidad sobre los datos.

Como resultado, Vertex AI entrega cuatro beneficios concretos [3:52]:

  • Velocidad para llevar modelos a producción.
  • Acceso a los mejores modelos disponibles en Google Cloud.
  • Flujos de trabajo escalables para datos batch o en tiempo real.
  • Gestión integral y gobierno del ciclo de vida del modelo.

¿Cómo se construyen pipelines automatizados con MLOps?

El flujo de trabajo unificado abarca análisis de información, transformación de datos, entrenamiento, seguimiento, evaluación y despliegue [4:20]. Vertex Pipelines permite automatizar cada etapa bajo la metodología de MLOps [5:08]: extraer datos, validarlos, prepararlos, entrenar el modelo, evaluarlo y desplegarlo.

Los servicios que soportan este flujo incluyen:

  • BigQuery como repositorio de datos.
  • Entrenamiento serverless en Vertex AI.
  • Dataflow para procesamiento.
  • Predicción con Vertex AI.
  • Cloud Storage para almacenar artefactos del modelo.

¿Por qué importan la transparencia y la responsabilidad?

El gobierno del ciclo de vida se sustenta en tres pilares [5:50]:

  • Transparencia: documentar las variables que intervienen en el modelo y las razones detrás de cada decisión.
  • Confianza del usuario: asegurar la calidad de datos, registrar las transformaciones y mantener trazabilidad completa.
  • Responsabilidad: Google Cloud establece principios de inteligencia artificial que definen límites éticos y apoyan un desarrollo responsable [6:38].

Si quieres profundizar en cómo estos roles y servicios se conectan en la práctica, comparte en los comentarios qué rol desempeñas y qué servicio de Vertex AI te resulta más relevante.