Extracción vs ingesta en proyectos big data
Clase 4 de 52 • Curso de Big Data en AWS
Contenido del curso
Arquitecturas
Extracción de información
- 9

Cómo mover datos a cloud con SDK y CLI
02:21 min - 10

Python y boto3 para listar buckets S3
10:16 min - 11

Boto3: inicializar clients de AWS en Python
03:56 min - 12

API Gateway como puerta de big data
03:40 min - 13

Storage Gateway: puerta entre on-premise y S3
03:13 min - 14

AWS Kinesis: streaming masivo de datos
05:53 min - 15

Cómo crear Kinesis Data Stream en AWS
06:50 min - 16

Despliegue automatizado de Kinesis con CloudFormation
10:42 min - 17

Cómo Kinesis Firehose entrega datos en tiempo real
03:27 min - 18

Configuración de Kinesis Firehose en AWS
05:45 min - 19
Configuración Básica de Amazon Kinesis Firehose en AWS
02:53 min - 20

MSK vs Kinesis: cuál elegir en AWS
03:42 min - 21

Creación de clúster AWS MSK desde la consola
07:21 min
Transformación de Información
- 22

Cómo AWS Glue transforma datos en la nube
06:33 min - 23

Instalación de Apache Zeppelin paso a paso
04:49 min - 24

Configurar developer endpoint de AWS Glue con Zeppelin
05:38 min - 25

Conexión de Apache Zeppelin con AWS
08:29 min - 26

Configurar AWS Glue Crawler para poblar catálogo
08:15 min - 27

Configuración de Developer Endpoint en AWS Glue
08:00 min - 28

Cómo configurar AWS Glue ETL desde S3 a Parquet
10:23 min - 29

Qué es EMR y cuándo usarlo
05:30 min - 30

Crear tu primer cluster de AWS EMR
09:01 min - 31

Conectar Apache Zeppelin a EMR
03:18 min - 32

EMR automatizado con CloudFormation
06:32 min - 33

AWS Lambda para proyectos de big data
07:02 min - 34

Lambdas en big data: real time y batch
04:54 min - 35

Configuración de AWS Lambda para Big Data
07:16 min
Carga de Información
Consumo de información
Seguridad, Orquestación y Automatización
Clase pública
Elegir el almacenamiento correcto en cloud y definir un flujo sólido de datos marca la diferencia en proyectos de big data. Aquí se aclaran criterios prácticos para seleccionar servicios como Cloud Storage, S3, EBS, EFS o HDFS, y se distinguen con claridad la extracción, la ingesta y la garantía de calidad de datos mediante validación, verificación y tests con subset.
¿Cómo elegir servicios de almacenamiento en cloud para big data?
Antes de mover datos al cloud, el foco está en seleccionar el servicio que mejor se ajuste al proyecto. Hay una variedad amplia entre cloud providers y conviene investigar antes de decidir.
- Elegir el servicio que se adapte al caso de uso y requisitos del proyecto.
- Investigar opciones disponibles en el cloud provider objetivo.
- Considerar características especiales del proyecto que afecten la elección.
- Priorizar opciones orientadas a big data como S3 y Cloud Storage en Google Cloud Platform.
- Valorar volúmenes con HDFS cuando se necesite un sistema de archivos para procesamiento de información.
¿Qué opciones de almacenamiento destacan y cuándo usarlas?
- Cloud Storage y S3: orientados a big data y almacenamiento masivo.
- EBS y EFS: alternativas a considerar según el ajuste al proyecto.
- Volúmenes con HDFS: útiles cuando el énfasis está en procesamiento de información.
¿Qué diferencias hay entre extracción e ingesta de datos en cloud?
Mover datos al cloud puede hacerse de dos formas complementarias. La extracción consiste en conectarse desde el cloud a las fuentes y traer la data. La ingesta permite que las fuentes envíen la información hacia el cloud, donde se habilitan servicios para recibir y procesar.
- Extracción: conectar desde el cloud a fuentes de información y trasladar la data.
- Ingesta: habilitar que la fuente envíe datos de forma continua al cloud.
- Preparar servicios en el cloud para recepción y comienzo del procesamiento.
- Elegir el enfoque según necesidades, tiempos y restricciones del proyecto.
¿Qué servicios y formas permiten llevar la data al cloud?
- Conexiones desde el cloud hacia fuentes de información.
- Canales donde las fuentes envían datos hacia el cloud.
- Componentes en el cloud para recepción y procesamiento inicial.
- Evaluación de alternativas según el cloud provider y objetivos del flujo.
¿Cómo asegurar calidad con validación, verificación y tests?
La toma de decisiones exige datos precisos y consistentes. Por eso, tras mover la información, se ejecutan validación y verificación, y se prueban los procesos con un subset antes de escalar a todo el data set.
- Validación: definir características y garantías para precisión y consistencia.
- Verificación: revisar tipos de datos, exactitud y ausencia de inconsistencias.
- Realizar tests sobre un subset de la información, no sobre todo el volumen.
- Probar ingesta, transformación y visualización con ese subset.
- Confirmar que la arquitectura extrae, transforma y visualiza correctamente.
- Escalar el procesamiento total cuando extracción, verificación y validación estén garantizadas.
¿Por qué trabajar con un subset antes del data set completo?
- Reduce riesgo al manejar volúmenes gigantescos de información.
- Acelera iteraciones y ajustes en la arquitectura.
- Permite verificar extremo a extremo antes de habilitar todo el flujo.
- Aumenta la confianza para procesar grandes cantidades de datos.
¿Qué decisiones tomas al elegir almacenamiento en cloud y al definir extracción o ingesta? Comparte tu experiencia y comenta tus criterios clave.