- 1
Big Data en la Nube: Análisis, Transformación y Seguridad
00:40 - 2

Transformación de Datos en Cloud: Automatización y Seguridad
01:32 - 3

Big Data en la Nube: Escalabilidad, Automatización y Eficiencia
04:30 - 4

Almacenamiento y Procesamiento de Datos en la Nube
04:09 - 5
Comparativa de AWS y GCP para proyectos BigData
01:17
Arquitecturas de Big Data en Cloud: Batch y Tiempo Real
Clase 51 de 52 • Curso de Big Data en AWS
Contenido del curso
- 9

Extracción de Datos a la Nube: Estrategias y Herramientas
02:21 - 10

Uso de Python y AWS Cloud9 para Proyectos de Big Data
10:16 - 11

Uso de Boto3 para Servicios AWS en Python
03:56 - 12

Integración de AWS API Gateway en Proyectos de Big Data
03:40 - 13

Uso de Storage Gateway para Integración de Datos en la Nube
03:13 - 14

Procesamiento de Datos en Tiempo Real con AWS Kinesis Data Stream
05:53 - 15

Creación de Kinesis Data Streams en AWS
06:50 - 16

Despliegue de Kinesis con AWS CloudFormation
10:42 - 17

Entrega y Transformación de Datos con Kinesis Firehose en AWS
03:27 - 18

Configuración de Kinesis Firehose en AWS paso a paso
05:45 - 19
Configuración Básica de Amazon Kinesis Firehose en AWS
02:53 - 20

AWS MSK: Implementación y Gestión de Apache Kafka en la Nube
03:42 - 21

Despliegue de Clúster MSK en AWS paso a paso
07:21
- 22

Transformación de Datos con AWS Glue: ETL y Catálogo de Metadatos
06:33 - 23

Instalación y Configuración de Apache Zeppelin para AWS Glue
04:49 - 24

Configuración de Developer Endpoint en AWS Glue para Apache Zeppelin
05:38 - 25

Conexión y configuración de Apache Zeppelin para ETL en AWS
08:29 - 26

Creación de un ETL con AWS Glue: Crawlers y Catalogación de Datos
08:15 - 27

Configuración y Ejecución de ETL en AWS Glue paso a paso
08:00 - 28

Creación y Ejecución de ETL con AWS Glue y S3
10:23 - 29

Procesamiento de Datos con EMR en AWS
05:30 - 30

Creación de un clúster EMR en AWS paso a paso
09:01 - 31

Conexión y Configuración de Zeppelin en Clúster EMR
03:18 - 32

Automatización de Clústeres EMR con Plantillas de CloudFormation
06:32 - 33

AWS Lambda en Proyectos de Big Data en Tiempo Real
07:02 - 34

Uso de Lambda en Arquitecturas de Big Data Real Time y Batch
04:54 - 35

Configuración de Funciones Lambda para Big Data en AWS
07:16
- 36

Consultas SQL en Big Data con AWS Athena y S3
04:50 - 37

Consultas SQL en S3 con AWS Athena y Glue Catalog
04:05 - 38

AWS Redshift: Almacenamiento y Análisis de Datos Masivos
06:37 - 39

Configuración de Amazon Redshift en AWS paso a paso
05:05 - 40

Lake Formation: Automatización y Seguridad en Gestión de Data Lakes
06:20
- 46

Seguridad en Big Data con AWS: Cifrado, Permisos y Monitoreo
03:51 - 47

Seguridad de Datos en AWS con Amazon Macie
07:32 - 48

Habilitación y Configuración de AWS Macie para Gestión de Datos Seguros
06:16 - 49

Orquestación de ETLs con Apache Airflow y Python en Big Data
04:27 - 50

Despliegue y Orquestación de Tareas con Google Cloud Composer
10:03 - 51

Arquitecturas de Big Data en Cloud: Batch y Tiempo Real
05:53
¿Cómo integrar servicios en arquitecturas de referencia para Big Data en la nube?
¡Las soluciones de Big Data han revolucionado la forma en que manejamos la información en la nube! En este artículo, te mostraremos cómo integrar los servicios de AWS y Google Cloud en arquitecturas de procesamiento tanto en batch como en tiempo real, optimizando cada paso del flujo de datos. Vamos a profundizar en cómo los servicios como CloudWatch, S3, EMR, Glue, Kinesis y otros pueden trabajar en conjunto para transformar y visualizar datos de manera eficiente y segura.
¿Cómo diseñar una arquitectura de procesamiento en batch usando AWS?
En el procesamiento en batch, los datos se recopilan y procesan a intervalos establecidos. La arquitectura que presentamos utiliza el siguiente flujo:
- Recepción de datos: Todos los días, los logs de una aplicación móvil se reciben en CloudWatch.
- Extracción y almacenamiento: Un proceso en Python usa Boto3 para extraer y encriptar estos logs, los cuales se almacenan en S3 como datos crudos.
- Transformación de datos:
- Servicios como Glue o EMR se conectan a los datos en S3 para realizar las transformaciones necesarias.
- Los datos transformados se almacenan nuevamente en S3.
- Consultas y análisis:
- Un catálogo de Glue se genera para facilitar consultas a través de Athena.
- Stakeholders usan Athena para obtener información procesada útil para realizar análisis como compliance en transacciones financieras.
Para orquestar todo este flujo de manera automática, Apache Airflow puede utilizarse, eliminando la necesidad de procesamientos manuales diarios.
¿Qué papel juega el procesamiento en tiempo real con Kinesis?
El procesamiento en tiempo real tiene como objetivo manejar eventos o datos a medida que ocurren. La arquitectura utiliza AWS Kinesis para este propósito:
-
Entrada de datos:
- Una aplicación móvil envía logs a través de un clúster de contenedores a Kinesis.
- Kinesis puede manejar hasta 80 millones de registros de logs diarios en tiempo real.
-
Transformación y distribución:
- Una función Lambda filtra y distribuye logs a diferentes servicios a través de SQS o SNS.
- Los registros pueden ser procesados por otro Lambda para evitar duplicados y transformarse mediante Kinesis Firehose.
-
Visualización y análisis:
- Por un lado, los datos pueden alimentar aplicaciones de terceros, herramientas de marketing, visualización, o seguridad.
- Por otro lado, los datos pueden visualizarse en tiempo real con Kibana mediante creación de dashboards de monitoreo.
Stakeholders como áreas de marketing, analítica o desarrollo pueden beneficiarse enormemente al tener acceso a esta información en tiempo real, optimizando la toma de decisiones.
¿Qué hemos aprendido sobre la ejecución de proyectos de Big Data en la nube?
Al entender estas arquitecturas de referencia para Big Data, ahora puedes apreciar cómo estos servicios se entrelazan para ofrecer una solución robusta desde la extracción de datos hasta su visualización. Estas arquitecturas no solo aseguran un manejo eficiente de datos, sino también garantizan la seguridad y la orquestación automática de todos los procesos involucrados.
Sigue avanzando en este apasionante campo de Big Data en la nube, aprovechando todas las herramientas y servicios que AWS y Google Cloud tienen para ofrecer. Con perseverancia y dedicación, podrás implementar proyectos exitosos que transformen el manejo de data en tu organización. ¡Adelante, el futuro del Big Data te espera!