Extracción vs ingesta en proyectos big data

Clase 4 de 52 • Curso de Big Data en AWS

Resumen

Elegir el almacenamiento correcto en cloud y definir un flujo sólido de datos marca la diferencia en proyectos de big data. Aquí se aclaran criterios prácticos para seleccionar servicios como Cloud Storage, S3, EBS, EFS o HDFS, y se distinguen con claridad la extracción, la ingesta y la garantía de calidad de datos mediante validación, verificación y tests con subset.

¿Cómo elegir servicios de almacenamiento en cloud para big data?

Antes de mover datos al cloud, el foco está en seleccionar el servicio que mejor se ajuste al proyecto. Hay una variedad amplia entre cloud providers y conviene investigar antes de decidir.

Elegir el servicio que se adapte al caso de uso y requisitos del proyecto.
Investigar opciones disponibles en el cloud provider objetivo.
Considerar características especiales del proyecto que afecten la elección.
Priorizar opciones orientadas a big data como S3 y Cloud Storage en Google Cloud Platform.
Valorar volúmenes con HDFS cuando se necesite un sistema de archivos para procesamiento de información.

¿Qué opciones de almacenamiento destacan y cuándo usarlas?

Cloud Storage y S3: orientados a big data y almacenamiento masivo.
EBS y EFS: alternativas a considerar según el ajuste al proyecto.
Volúmenes con HDFS: útiles cuando el énfasis está en procesamiento de información.

¿Qué diferencias hay entre extracción e ingesta de datos en cloud?

Mover datos al cloud puede hacerse de dos formas complementarias. La extracción consiste en conectarse desde el cloud a las fuentes y traer la data. La ingesta permite que las fuentes envíen la información hacia el cloud, donde se habilitan servicios para recibir y procesar.

Extracción: conectar desde el cloud a fuentes de información y trasladar la data.
Ingesta: habilitar que la fuente envíe datos de forma continua al cloud.
Preparar servicios en el cloud para recepción y comienzo del procesamiento.
Elegir el enfoque según necesidades, tiempos y restricciones del proyecto.

¿Qué servicios y formas permiten llevar la data al cloud?

Conexiones desde el cloud hacia fuentes de información.
Canales donde las fuentes envían datos hacia el cloud.
Componentes en el cloud para recepción y procesamiento inicial.
Evaluación de alternativas según el cloud provider y objetivos del flujo.

¿Cómo asegurar calidad con validación, verificación y tests?

La toma de decisiones exige datos precisos y consistentes. Por eso, tras mover la información, se ejecutan validación y verificación, y se prueban los procesos con un subset antes de escalar a todo el data set.

Validación: definir características y garantías para precisión y consistencia.
Verificación: revisar tipos de datos, exactitud y ausencia de inconsistencias.
Realizar tests sobre un subset de la información, no sobre todo el volumen.
Probar ingesta, transformación y visualización con ese subset.
Confirmar que la arquitectura extrae, transforma y visualiza correctamente.
Escalar el procesamiento total cuando extracción, verificación y validación estén garantizadas.

¿Por qué trabajar con un subset antes del data set completo?

Reduce riesgo al manejar volúmenes gigantescos de información.
Acelera iteraciones y ajustes en la arquitectura.
Permite verificar extremo a extremo antes de habilitar todo el flujo.
Aumenta la confianza para procesar grandes cantidades de datos.

¿Qué decisiones tomas al elegir almacenamiento en cloud y al definir extracción o ingesta? Comparte tu experiencia y comenta tus criterios clave.

Comentarios

Juan David Cajamarca Acuña

student•

En los diferentes Cloud Providers y en los diferentes servicios que tenemos a nuestra disposición para almacenar información, tenemos una variedad muy grande; por lo cual, debemos tener en cuenta:

Almacenamiento: Debemos seleccionar el mejor servicio que se ajuste a nuestro proyecto.
Extracción: Desde el Cloud Provider, nos conectarnos a las distintas fuentes de información y extraemos datos.
Ingesta: Podemos hacer que una fuente de datos alimente el Cloud, donde previamente debemos escoger servicios que reciban dicha información para posteriormente procesarla.
Validación: Esta es la validación de la información. Debemos proporcionar algunas características bien definidas y unas garantías para que esa información sea precisa y consistente (debemos garantizar la consistencia de la información).
Verificación: En esta fase debemos verificar los distintos tipos de datos; debemos enfocarnos en el tipo de dato, su exactitud y que no tenga inconsistencias.
Tests: Usualmente en este tipo de proyectos, en donde procesamos grandes masas (volúmenes gigantezcos) de información, siempre debemos hacer pruebas sobre un subset de toda la información, tomando un porcentaje de la información, en donde verificamos que nuestro sistema y arquitectura esté trabajando de la forma correcta: transformando bien, extrayendo bien la información, una visualización correcta, etc.

Nestor Antonio Pineda Otero

student•

Una forma muy clara y eficiente de explicar. Gracias.

Juan Nishiguchi Mendoza

company_admin•

Si tenemos data sensible no se podrá llevar tan fácilmente a Cloud, como ejemplo tenemos Ley de Protección de Datos (una de los tantas leyes que existen actualmente)

Luis Martin Grados Salinas

student•

Correcto en ese caso puedes anonimizar los datos sensibles.

Darvin Orozco

student•

Incluso, cuando los datos obtenidos son de diferentes países (con sus propias y distintas leyes) o cuando se extra información de multi-clouds, pareciera que la fase de extracción y almacenamiento se complica aún más.

Emmanuel Sosa Reyes

student•

Profe, en el caso de extracción de datos, por ejemplo, para conectarse a un CRM donde hay datos que me interesan, por lo que he investigado, se debería usar Glue, ¿cierto?

Adriano Corral Marco

student•

¿Cuándo se habla de S3 y cloudstorage, son tecnologías propias de cada nube? A lo que me refiero es si S3 es la que se usa en AWS y cloudstorage en google o puedes usarla indistintamente en cualquier provider.

Sura Naileth Cedeño Lopez

Team Platzi•

Hola:wave: son servicios similares de almacenamiento de objetos, pero s3 es de AWS y Cloud Storage de Google. Propias de cada proveedor..:)

Darvin Orozco

student•

En caso de robo de datos en algún cloud provider, ¿Sobre quién recae la responsabilidad, sobre quien subió los datos a la nube o quién los almacena?

Carlos Andrés Zambrano Barrera

teacher•

Puedes leerte en AWS el modelo de responsabilidad compartido en AWS el cual explica las responsabilidades del cloud provider y tus responsabilidades como usuario de cloud. https://aws.amazon.com/compliance/shared-responsibility-model/

Sin embargo en este caso es TU responsabilidad, dado que tu debes definir todas las medidas de seguridad para que esto no pase, por ejemplo:

Políticas de IAM y de Bucket. ACL. MFA. Versionamiento. Cifrado con KMS. CloudHSM para cifrado asimétrico.

Carlos Nexans

student•

Gracias por explicar de forma tan clara.

José Ortigas

student•

video pls...

Wilson Alejandro Gonzalez Gaitan

student•

Etsa funcionando

Usuario anónimo

user•

Debemos seleccionar el servicio que mejor se ajuste a nuestras necesidades de almacenamiento. Lo primero que debemos hacer es extraer de otras fuentes la información que vamos a necesitar. Debemos validar nuestra información, verificar que sea consistente. Verificar los tipos de datos que vamos a extraer. Al momento de realizar pruebas a nuestra información debemos utilizar un subset de la data.

Usuario anónimo

user•

Gracias

Usuario anónimo

user•

esta claro

Usuario anónimo

user•

LUIS GERARDO CAMBAL BARAHONA

student•

Excelente explicación, los procesos que siguen los datos, extracción, verificación y validación

Usuario anónimo

user•

Es muy bueno ahora poder tener a la mano tantas tecnologías y sin tener que comprar todo el servidor

john ct

student•

Entender cual de los servicios nos va a servir en nuestro proyecto o simulacion

Extracción vs ingesta en proyectos big data

Bienvenida e introducción al curso

Big Data en la Nube: Análisis, Transformación y Seguridad

Big Data en Cloud desde origen a visualización

Por qué big data en cloud es más eficiente

Extracción vs ingesta en proyectos big data

Comparativa de AWS y GCP para proyectos BigData

Arquitecturas

Arquitectura Lambda: 3 capas para datos en tiempo real

Arquitectura capa: el tiempo real como ventaja

Cómo funciona la arquitectura batch

Extracción de información

Cómo mover datos a cloud con SDK y CLI

Python y boto3 para listar buckets S3

Boto3: inicializar clients de AWS en Python

API Gateway como puerta de big data

Storage Gateway: puerta entre on-premise y S3

AWS Kinesis: streaming masivo de datos

Cómo crear Kinesis Data Stream en AWS

Despliegue automatizado de Kinesis con CloudFormation

Cómo Kinesis Firehose entrega datos en tiempo real

Configuración de Kinesis Firehose en AWS

Configuración Básica de Amazon Kinesis Firehose en AWS

MSK vs Kinesis: cuál elegir en AWS

Creación de clúster AWS MSK desde la consola

Transformación de Información

Cómo AWS Glue transforma datos en la nube

Instalación de Apache Zeppelin paso a paso

Configurar developer endpoint de AWS Glue con Zeppelin

Conexión de Apache Zeppelin con AWS

Configurar AWS Glue Crawler para poblar catálogo

Configuración de Developer Endpoint en AWS Glue

Cómo configurar AWS Glue ETL desde S3 a Parquet

Qué es EMR y cuándo usarlo

Crear tu primer cluster de AWS EMR

Conectar Apache Zeppelin a EMR

EMR automatizado con CloudFormation

AWS Lambda para proyectos de big data

Lambdas en big data: real time y batch

Configuración de AWS Lambda para Big Data

Carga de Información

Cómo Athena consulta datos en S3 con SQL

Cómo funciona AWS Athena con S3

Redshift vs Athena: cuándo usar cada uno

Configuración de cluster Redshift en AWS

AWS Lake Formation automatiza tu data lake

Consumo de información

Cómo dimensionar shards de Elasticsearch en AWS

Cómo crear un clúster Elasticsearch en AWS

Cómo funciona Kibana con Elasticsearch

QuickSight: el BI en cloud de AWS

Configuración completa de QuickSight en AWS

Seguridad, Orquestación y Automatización

5 reglas de seguridad para Big Data en AWS

Cómo AWS Macie protege datos en S3

Configuración de AWS Macie en 5 pasos

Apache Airflow vs Step Functions para ETL

Despliegue de Apache Airflow en GCP

Arquitecturas batch y streaming en AWS

Clase pública

Las cinco B de big data explicadas