Bienvenida e introducción al curso

1

Big Data en la Nube: Análisis, Transformación y Seguridad

2

Transformación de Datos en Cloud: Automatización y Seguridad

3

Big Data en la Nube: Escalabilidad, Automatización y Eficiencia

4

Almacenamiento y Procesamiento de Datos en la Nube

5

Comparativa de AWS y GCP para proyectos BigData

Arquitecturas

6

Arquitectura Lambda para Procesamiento de Datos en la Nube

7

Arquitectura Capa: Procesamiento de Datos en Tiempo Real

8

Arquitectura Batch: Procesamiento de Datos Histórico en la Nube

Extracción de información

9

Extracción de Datos a la Nube: Estrategias y Herramientas

10

Uso de Python y AWS Cloud9 para Proyectos de Big Data

11

Uso de Boto3 para Servicios AWS en Python

12

Integración de AWS API Gateway en Proyectos de Big Data

13

Uso de Storage Gateway para Integración de Datos en la Nube

14

Procesamiento de Datos en Tiempo Real con AWS Kinesis Data Stream

15

Creación de Kinesis Data Streams en AWS

16

Despliegue de Kinesis con AWS CloudFormation

17

Entrega y Transformación de Datos con Kinesis Firehose en AWS

18

Configuración de Kinesis Firehose en AWS paso a paso

19

Configuración Básica de Amazon Kinesis Firehose en AWS

20

AWS MSK: Implementación y Gestión de Apache Kafka en la Nube

21

Despliegue de Clúster MSK en AWS paso a paso

Transformación de Información

22

Transformación de Datos con AWS Glue: ETL y Catálogo de Metadatos

23

Instalación y Configuración de Apache Zeppelin para AWS Glue

24

Configuración de Developer Endpoint en AWS Glue para Apache Zeppelin

25

Conexión y configuración de Apache Zeppelin para ETL en AWS

26

Creación de un ETL con AWS Glue: Crawlers y Catalogación de Datos

27

Configuración y Ejecución de ETL en AWS Glue paso a paso

28

Creación y Ejecución de ETL con AWS Glue y S3

29

Procesamiento de Datos con EMR en AWS

30

Creación de un clúster EMR en AWS paso a paso

31

Conexión y Configuración de Zeppelin en Clúster EMR

32

Automatización de Clústeres EMR con Plantillas de CloudFormation

33

AWS Lambda en Proyectos de Big Data en Tiempo Real

34

Uso de Lambda en Arquitecturas de Big Data Real Time y Batch

35

Configuración de Funciones Lambda para Big Data en AWS

Carga de Información

36

Consultas SQL en Big Data con AWS Athena y S3

37

Consultas SQL en S3 con AWS Athena y Glue Catalog

38

AWS Redshift: Almacenamiento y Análisis de Datos Masivos

39

Configuración de Amazon Redshift en AWS paso a paso

40

Lake Formation: Automatización y Seguridad en Gestión de Data Lakes

Consumo de información

41

Implementación de Elasticsearch en AWS: Búsqueda y Visualización

42

Despliegue de Clúster Elasticsearch en AWS Paso a Paso

43

Visualización de Datos con Kibana y Elasticsearch en AWS

44

Visualización de Datos en AWS con QuickSight

45

Habilitación y uso de QuickSight en AWS

Seguridad, Orquestación y Automatización

46

Seguridad en Big Data con AWS: Cifrado, Permisos y Monitoreo

47

Seguridad de Datos en AWS con Amazon Macie

48

Habilitación y Configuración de AWS Macie para Gestión de Datos Seguros

49

Orquestación de ETLs con Apache Airflow y Python en Big Data

50

Despliegue y Orquestación de Tareas con Google Cloud Composer

51

Arquitecturas de Big Data en Cloud: Batch y Tiempo Real

Clase pública

52

Fundamentos de Big Data: Volumen, Velocidad, Variedad, Veracidad y Valor

No tienes acceso a esta clase

¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera

Curso de Big Data en AWS

Curso de Big Data en AWS

Carlos Andrés Zambrano Barrera

Carlos Andrés Zambrano Barrera

Arquitecturas de Big Data en Cloud: Batch y Tiempo Real

51/52
Recursos

¿Cómo integrar servicios en arquitecturas de referencia para Big Data en la nube?

¡Las soluciones de Big Data han revolucionado la forma en que manejamos la información en la nube! En este artículo, te mostraremos cómo integrar los servicios de AWS y Google Cloud en arquitecturas de procesamiento tanto en batch como en tiempo real, optimizando cada paso del flujo de datos. Vamos a profundizar en cómo los servicios como CloudWatch, S3, EMR, Glue, Kinesis y otros pueden trabajar en conjunto para transformar y visualizar datos de manera eficiente y segura.

¿Cómo diseñar una arquitectura de procesamiento en batch usando AWS?

En el procesamiento en batch, los datos se recopilan y procesan a intervalos establecidos. La arquitectura que presentamos utiliza el siguiente flujo:

  1. Recepción de datos: Todos los días, los logs de una aplicación móvil se reciben en CloudWatch.
  2. Extracción y almacenamiento: Un proceso en Python usa Boto3 para extraer y encriptar estos logs, los cuales se almacenan en S3 como datos crudos.
  3. Transformación de datos:
    • Servicios como Glue o EMR se conectan a los datos en S3 para realizar las transformaciones necesarias.
    • Los datos transformados se almacenan nuevamente en S3.
  4. Consultas y análisis:
    • Un catálogo de Glue se genera para facilitar consultas a través de Athena.
    • Stakeholders usan Athena para obtener información procesada útil para realizar análisis como compliance en transacciones financieras.

Para orquestar todo este flujo de manera automática, Apache Airflow puede utilizarse, eliminando la necesidad de procesamientos manuales diarios.

¿Qué papel juega el procesamiento en tiempo real con Kinesis?

El procesamiento en tiempo real tiene como objetivo manejar eventos o datos a medida que ocurren. La arquitectura utiliza AWS Kinesis para este propósito:

  1. Entrada de datos:

    • Una aplicación móvil envía logs a través de un clúster de contenedores a Kinesis.
    • Kinesis puede manejar hasta 80 millones de registros de logs diarios en tiempo real.
  2. Transformación y distribución:

    • Una función Lambda filtra y distribuye logs a diferentes servicios a través de SQS o SNS.
    • Los registros pueden ser procesados por otro Lambda para evitar duplicados y transformarse mediante Kinesis Firehose.
  3. Visualización y análisis:

    • Por un lado, los datos pueden alimentar aplicaciones de terceros, herramientas de marketing, visualización, o seguridad.
    • Por otro lado, los datos pueden visualizarse en tiempo real con Kibana mediante creación de dashboards de monitoreo.

Stakeholders como áreas de marketing, analítica o desarrollo pueden beneficiarse enormemente al tener acceso a esta información en tiempo real, optimizando la toma de decisiones.

¿Qué hemos aprendido sobre la ejecución de proyectos de Big Data en la nube?

Al entender estas arquitecturas de referencia para Big Data, ahora puedes apreciar cómo estos servicios se entrelazan para ofrecer una solución robusta desde la extracción de datos hasta su visualización. Estas arquitecturas no solo aseguran un manejo eficiente de datos, sino también garantizan la seguridad y la orquestación automática de todos los procesos involucrados.

Sigue avanzando en este apasionante campo de Big Data en la nube, aprovechando todas las herramientas y servicios que AWS y Google Cloud tienen para ofrecer. Con perseverancia y dedicación, podrás implementar proyectos exitosos que transformen el manejo de data en tu organización. ¡Adelante, el futuro del Big Data te espera!

Aportes 8

Preguntas 1

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad?

Este curso fue enfocado como de conocimiento general sobre los servicios disponibles para trabajar con big Data en AWS, pero siento que no hubo articulación entre varias de las secciones del mismo, solo se trató de hacer algunos ejercicios que no tenían ningún tipo de relación entre sí a lo largo de los videos. Hubiese sido más valioso haber hecho un proyecto completo que integrase todas las fases del proceso ETL discutidas en las diferentes clases.

Aparte de lo costoso que es ejecutar estos servicios, se pudieron anticipar a notificar sobre ello a los estudiantes, para que se borraran las instancias y elementos creados al final de cada ejercicio si no iban a ser utilizados más adelante.

Hubiera sido bueno aunque sea una clase con un ejemplo completo de como se integran todos los servicios, ya que como comentan varios compañeros, los costos son elevados de los servicios, incluso varios de ellos no se pueden ejecutar desde AWS Educate. En general el curso me sirve para conocer los servicios pero de igual forma ya tocaría actualización a 2 años de que salió este curso.

se podria organizar en sub cursos para que no quede tan largo y con temas tan grandes sino en varios no como este.
Todos los temas son fascinantes y cada video y AWS servicio es potente y util de acuerdo a la necesidad.
Dividirlo todos estos temas tan grandes en otros cursos. y realizar mas ejercicios o projecto.

auqnue la dinamica de AWS es que cobra por todo lo que se usa hace dificil que se mantengan isntalados e integrados toodos los servicios como kinesis, emr, glue, s3, msk, redshift, kibana, quicksight etc. igual Amazon cobra siendo asi el lider con la de mayor porcentaje del mercado de cloud computing y que rankea al dueño Jeff Bezon como el hombre mas rico del mundo. en los ultimos años. junto con su amazon ecommerce

El contenido al igual toca que cada uno lea y profundicemos en la amplia documentacion qie toeme Amazon aws.

excelente contenido Porfe Carlos, aunque se puede mejorar en la metodologia de aprender temas tan grandes y utiles.

tenía muchas expectativas con el curso, con el proceso de ETL y visualización, pero mucha información y poca practica,

Le falta agregar los costos de los sevicios o indicar que se deben ir borrando los servicios utilizados como ejemplo

Como comentan un curso muy teórico que aborda la mayoría de servicios sobre big data sin embargo, no proveen de un proyecto completo del curso, incluso cuando la caratula del curso menciona “Implementarás una prueba de concepto de cómo funcionaría la arquitectura con una porción de los datos. Para esto construirás un Pipeline completo desde que llega la data hasta que se pueda visualizar en un dashboard” lo cual es mentira, una pena de verdad, mucha info y poca aplicación.

Solo es un curso que aporta información muy básica de cada servicio de AWS relacionado a Big Data. No se implementó ningún proyecto para concretar la teoría (Mucha) y así afirmar los conocimientos. La metodología usada por el instructor, fue de lo más paupérrima. No solo en este, sino en muchos otros cursos, se siente que la visión de Platzi es transmitir solo lo básico. Se paga una suscripción para obtener mejor formación.

### **Arquitectura de Referencia** 🏗️ Una **arquitectura de referencia** es un modelo estándar que describe la estructura y los componentes clave de un sistema. Se utiliza como guía para diseñar e implementar soluciones en diferentes dominios, como la **nube, bases de datos, Big Data, AI/ML, seguridad, microservicios y más**. ## **1️⃣ Elementos Claves de una Arquitectura de Referencia** 🔹 **Capas**: Organización del sistema en niveles como presentación, lógica de negocio y datos. 🔹 **Componentes**: Servicios, APIs, bases de datos, almacenamiento, seguridad, etc. 🔹 **Flujo de Datos**: Cómo la información fluye entre los diferentes elementos. 🔹 **Escalabilidad**: Diseño para crecer en carga y volumen. 🔹 **Seguridad**: Control de acceso, cifrado y auditoría. 🔹 **Resiliencia**: Capacidad de recuperación ante fallos. ## **2️⃣ Ejemplos de Arquitecturas de Referencia por Dominio** ### **📌 Cloud Computing (AWS, GCP, Azure)** 🔹 Arquitectura **serverless** con **AWS Lambda + API Gateway + DynamoDB**. 🔹 Arquitectura de **microservicios** con **Kubernetes (EKS/GKE/AKS)**. 🔹 Arquitectura de **Big Data** con **S3, Glue, Redshift, Athena, QuickSight**. ### **📌 Data Engineering & Big Data** 🔹 **Data Lakehouse** → **Delta Lake (Databricks) + Spark + Redshift/Snowflake**. 🔹 **ETL con Apache Airflow** → Extracción (S3, APIs) → Transformación (Spark, Pandas) → Carga (Redshift, Snowflake). 🔹 **Streaming** → **Kafka + Flink/Spark Streaming + Data Warehouse**. ### **📌 AI/ML & Analytics** 🔹 **MLOps** → **SageMaker / Vertex AI / Azure ML** con CI/CD para modelos. 🔹 **Análisis en Tiempo Real** → **Kafka + Spark Streaming + ELK Stack (Elasticsearch, Logstash, Kibana)**. 🔹 **Dashboarding** → **Power BI / QuickSight / Looker sobre Snowflake/Redshift**. ### **📌 Seguridad & Compliance** 🔹 **Zero Trust Architecture** → Autenticación basada en identidades (IAM, MFA). 🔹 **Cifrado de Datos** → **AWS KMS, HashiCorp Vault, TLS/SSL**. 🔹 **Monitorización** → **SIEM (Splunk, AWS Security Hub, GuardDuty, Macie)**. ## **3️⃣ Ejemplo de Arquitectura en AWS para Data Lakehouse** +----------------+ +------------------+ +-----------------+ | Ingestión | ----> | Almacenamiento | ----> | Procesamiento | +----------------+ +------------------+ +-----------------+ | | | Kafka / Kinesis S3 / Lake Formation Glue / Spark / EMR | | | +----------------+ +------------------+ +-----------------+ | Análisis | ----> | Reporting | ----> | Visualización | +----------------+ +------------------+ +-----------------+ Redshift / Athena QuickSight / Tableau Looker / Power BI ## **4️⃣ Beneficios de una Arquitectura de Referencia** ✅ **Estandarización** → Mejores prácticas para soluciones robustas. ✅ **Escalabilidad** → Permite crecimiento sin rediseño significativo. ✅ **Reutilización** → Fácil adaptación para diferentes proyectos. ✅ **Seguridad y Compliance** → Cumple con regulaciones y normativas. 📌 **Conclusión**: La elección de una arquitectura de referencia adecuada depende de los requerimientos del negocio, la tecnología disponible y las mejores prácticas del dominio específico. 🚀