Extracción vs ingesta en proyectos big data

Clase 4 de 52Curso de Big Data en AWS

Resumen

Elegir el almacenamiento correcto en cloud y definir un flujo sólido de datos marca la diferencia en proyectos de big data. Aquí se aclaran criterios prácticos para seleccionar servicios como Cloud Storage, S3, EBS, EFS o HDFS, y se distinguen con claridad la extracción, la ingesta y la garantía de calidad de datos mediante validación, verificación y tests con subset.

¿Cómo elegir servicios de almacenamiento en cloud para big data?

Antes de mover datos al cloud, el foco está en seleccionar el servicio que mejor se ajuste al proyecto. Hay una variedad amplia entre cloud providers y conviene investigar antes de decidir.

  • Elegir el servicio que se adapte al caso de uso y requisitos del proyecto.
  • Investigar opciones disponibles en el cloud provider objetivo.
  • Considerar características especiales del proyecto que afecten la elección.
  • Priorizar opciones orientadas a big data como S3 y Cloud Storage en Google Cloud Platform.
  • Valorar volúmenes con HDFS cuando se necesite un sistema de archivos para procesamiento de información.

¿Qué opciones de almacenamiento destacan y cuándo usarlas?

  • Cloud Storage y S3: orientados a big data y almacenamiento masivo.
  • EBS y EFS: alternativas a considerar según el ajuste al proyecto.
  • Volúmenes con HDFS: útiles cuando el énfasis está en procesamiento de información.

¿Qué diferencias hay entre extracción e ingesta de datos en cloud?

Mover datos al cloud puede hacerse de dos formas complementarias. La extracción consiste en conectarse desde el cloud a las fuentes y traer la data. La ingesta permite que las fuentes envíen la información hacia el cloud, donde se habilitan servicios para recibir y procesar.

  • Extracción: conectar desde el cloud a fuentes de información y trasladar la data.
  • Ingesta: habilitar que la fuente envíe datos de forma continua al cloud.
  • Preparar servicios en el cloud para recepción y comienzo del procesamiento.
  • Elegir el enfoque según necesidades, tiempos y restricciones del proyecto.

¿Qué servicios y formas permiten llevar la data al cloud?

  • Conexiones desde el cloud hacia fuentes de información.
  • Canales donde las fuentes envían datos hacia el cloud.
  • Componentes en el cloud para recepción y procesamiento inicial.
  • Evaluación de alternativas según el cloud provider y objetivos del flujo.

¿Cómo asegurar calidad con validación, verificación y tests?

La toma de decisiones exige datos precisos y consistentes. Por eso, tras mover la información, se ejecutan validación y verificación, y se prueban los procesos con un subset antes de escalar a todo el data set.

  • Validación: definir características y garantías para precisión y consistencia.
  • Verificación: revisar tipos de datos, exactitud y ausencia de inconsistencias.
  • Realizar tests sobre un subset de la información, no sobre todo el volumen.
  • Probar ingesta, transformación y visualización con ese subset.
  • Confirmar que la arquitectura extrae, transforma y visualiza correctamente.
  • Escalar el procesamiento total cuando extracción, verificación y validación estén garantizadas.

¿Por qué trabajar con un subset antes del data set completo?

  • Reduce riesgo al manejar volúmenes gigantescos de información.
  • Acelera iteraciones y ajustes en la arquitectura.
  • Permite verificar extremo a extremo antes de habilitar todo el flujo.
  • Aumenta la confianza para procesar grandes cantidades de datos.

¿Qué decisiones tomas al elegir almacenamiento en cloud y al definir extracción o ingesta? Comparte tu experiencia y comenta tus criterios clave.