Por qué big data en cloud es más eficiente

Clase 3 de 52 • Curso de Big Data en AWS

Resumen

Adoptar cloud computing en proyectos de big data cambia las reglas: escalabilidad de megabytes a exabytes, automatización para reducir carga operativa, eficiencia por servicios listos para usar y ahorro con costo por demanda. Además, a diferencia de entornos on-premise, el acceso es inmediato y sin grandes inversiones iniciales.

¿Por qué cloud computing cambia los proyectos de big data?

Trabajar en la nube con cualquier cloud provider ofrece un crecimiento elástico y transparente. El proveedor soporta el procesamiento de grandes volúmenes sin que debas sobredimensionar infraestructura ni bloquear capital.

¿Qué es el crecimiento escalable y por qué importa?

Crecer de megabytes a gigabytes, petabytes y hasta exabytes sin rediseñar todo.
Ajustar capacidad según el volumen real de datos.
Mantener el rendimiento a medida que las fuentes de datos aumentan.

¿Cómo se compara con un data center on-premise?

Antes, soportar grandes volúmenes era muy costoso.
Requería altos conocimientos técnicos y compras de servidores.
En la nube, registras una cuenta y aprovisionas servicios de big data en minutos.

¿Cómo escalar y automatizar el procesamiento de datos?

La escalabilidad se vuelve crítica cuando el negocio crece de forma inesperada. La automatización y la orquestación de servicios permiten que el procesamiento aumente sin intervención manual, evitando cuellos de botella.

¿Qué pasa cuando la app pasa de 100 mil a 500 mil usuarios?

La data crece de forma abrupta por campañas de referidos o marketing.
Lo que funcionaba para 100 mil usuarios no basta para 500 mil.
En la nube, el procesamiento escala automáticamente junto con la aplicación.

¿Cómo ayuda la automatización y la orquestación?

Ejecutar tareas de procesamiento sin pasos manuales.
Coordinar servicios para que trabajen en cadena.
Reducir carga administrativa y errores operativos.

¿Qué ventajas ofrece el costo por demanda y la eficiencia?

La combinación de eficiencia y costo por demanda evita pagar por capacidad ociosa. Pagas solo por los datos procesados y el tiempo de ejecución, maximizando el valor de cada tarea.

¿Cómo se paga al procesar millones de datos?

Si procesas un millón, pagas por ese millón y por el tiempo usado.
Si mañana son diez millones, pagas por esos diez millones y su tiempo.
Sin costos ocultos por capacidad sin utilizar.

¿Por qué hablar de eficiencia y aprovisionamiento rápido?

Los servicios de big data están al alcance de todos.
Se pueden aprovisionar con un par de clics.
Habilidad clave: diseñar flujos eficientes que consuman solo lo necesario.

¿Dónde encaja la flexibilidad?

Permite adaptar arquitectura y servicios a necesidades cambiantes.
Facilita iterar sin rediseñar desde cero.
Complementa la escalabilidad y el costo por demanda.

Habilidades y conceptos activables desde ya:

Escalabilidad: ajustar recursos al volumen de datos real.
Automatización: ejecutar pipelines sin intervención manual.
Orquestación: coordinar múltiples servicios en la nube.
Eficiencia: usar servicios gestionados para reducir complejidad.
Costo por demanda: pagar solo por lo que se procesa y cuando se procesa.
Aprovisionamiento ágil: activar servicios de big data con rapidez.
Cloud provider y on-premise: entender las diferencias de costos y operación.

¿Tienes un caso de crecimiento acelerado o buscas optimizar costos en tu pipeline de datos? Cuéntalo y exploramos cómo aplicar estas prácticas en tu contexto.

Juan David Cajamarca Acuña

student•

Aspectos importante a tener en cuenta cuando comencemos un proyecto en BigData (son totalmente transparentes y aplican a cualquier Cloud Provider):

Cantidad: Cuando trabajamos en la nube, podemos tener un crecimiento completamente escalable (MB -> GB -> TB -> PB-> EB), y una de las ventajas que nos dan los Cloud Providers es que nos soportan el procesamiento de estas grandes cantidades de datos.
Escalabilidad: Crecimiento por demanda. El Cloud Provider nos permite tener escalabilidad en los servicios que tenemos en la nube. Con esto, a medida que nuestra aplicación crezca, el procesamiento de datos también crece de forma automática.
Automatización: Nos permite entender y orquestar todos los servicios de forma que puedan ejecutarse automáticamente (con el fin de quitarnos carga administrativa como administradores de la nube).
Eficiencia: En la nube tenemos al alcance diferentes servicios de BigData.
Ahorros: En las arquitecturas más importantes lo que buscamos es que el costo de los servicios sea por demanda.
Flexibilidad: Hay muchos Cloud Providers (GCP, AWS, Azure, etc.). Dentro de cada uno, hay una variedad de servicios para BigData; dentro de cada servicio, hay diferentes tipos de configuración. También se pueden hacer migraciones, o trabajos multi-cloud con estos Cloud Providers sin perder información, seguridad, etc.

Juan Camilo Mora Olmos

student•

Claro y conciso 👌

Carlos Andrés Zambrano Barrera

teacher•

:) Gracias

Darvin Orozco

student•

en total acuerdo.

Andres Camilo Graciano Higuita

student•

Muy interesante cómo la clase aborda la escalabilidad y la eficiencia del Big Data en la nube. Me queda la inquietud de cómo podríamos definir criterios claros para elegir el servicio más adecuado entre tantos proveedores y configuraciones posibles. También sería útil conocer buenas prácticas para automatizar procesos sin generar sobrecostos o pérdida de control en el manejo de datos. ¿Alguien ha tenido experiencia implementando estrategias de escalado automático en AWS y podría compartir qué factores fueron más determinantes para lograr un buen rendimiento?

Darvin Orozco

student•

¿Quién audita que realmente Amazon está cobrando sólo por lo que se procesa/consume en su nube?

Carlos Andrés Zambrano Barrera

teacher•

Realmente no hay un ente auditor, pero en tu billing podrás ver el detalle y si no estas de acuerdo pones un caso a amazon, usualmente en estos casos amazon hace un refund solo para que el cliente este tranquilo. Me paso alguna vez con un endpoint que deje creado y no usé, cree un caso a AWS explique que no lo habia usado y recibi un refund de 439 US.

Darvin Orozco

student•

Wow, ese refund de 439 está fantástico, y Amazon deja contento a otro cliente. Gracias por comentar tu experiencia. Saludos @czam01

Mario Alexander Vargas Celis

student•

🌥️ Introducción al Manejo de Datos en Cloud

El manejo de datos en la nube (Cloud Data Management) es una estrategia clave para empresas y organizaciones que desean almacenar, procesar y analizar datos de manera eficiente y escalable. La computación en la nube ha transformado la forma en que los datos son gestionados, eliminando las limitaciones de la infraestructura local y ofreciendo soluciones flexibles y de pago por uso.

🔹 ¿Qué es el Manejo de Datos en la Nube?

Es el conjunto de técnicas y herramientas utilizadas para almacenar, procesar, proteger y analizar datos en plataformas de nube como AWS, Google Cloud y Microsoft Azure.

Los datos pueden almacenarse en diferentes formatos y tipos de almacenamiento, dependiendo de su estructura y finalidad:

✅ Estructurados → Bases de datos relacionales (SQL). ✅ No estructurados → Archivos multimedia, documentos, correos electrónicos. ✅ Semiestructurados → JSON, XML, logs de servidores.

🚀 Beneficios del Manejo de Datos en la Nube

1️⃣ Escalabilidad

Capacidad de aumentar o reducir los recursos según la demanda.
Ejemplo: Google BigQuery escala automáticamente según las consultas.

2️⃣ Costo-Eficiencia

Pago por uso, evitando inversiones en hardware.
Opciones de almacenamiento económico como Amazon S3 Glacier para datos archivados.

3️⃣ Alta Disponibilidad y Resiliencia

Replicación de datos en múltiples regiones.
Ejemplo: Azure Storage replica datos en diferentes ubicaciones.

4️⃣ Seguridad y Cumplimiento

Cifrado de datos en tránsito y en reposo.
Cumplimiento con normativas como GDPR, HIPAA, SOC2.

5️⃣ Accesibilidad Global

Datos accesibles desde cualquier parte del mundo con baja latencia.
Integración con APIs y herramientas de analítica avanzada.

🔧 Principales Servicios Cloud para el Manejo de Datos

📌 Almacenamiento

Amazon S3, Google Cloud Storage, Azure Blob Storage → Archivos y datos no estructurados.
Amazon EBS, Google Persistent Disk, Azure Managed Disks → Almacenamiento para máquinas virtuales.

📌 Bases de Datos

Relacionales: Amazon RDS, Cloud SQL, Azure SQL Database.
NoSQL: Amazon DynamoDB, Google Firestore, Azure Cosmos DB.

📌 Procesamiento de Datos

Batch: AWS Glue, Google Dataflow, Azure Data Factory.
Streaming: AWS Kinesis, Google Pub/Sub, Azure Event Hubs.

📌 Análisis y Visualización

BigQuery (GCP), Amazon Redshift, Azure Synapse → Analítica de datos a gran escala.
Amazon QuickSight, Google Looker, Power BI → Dashboards e informes.

📊 Casos de Uso en la Nube

🔹 Empresas de Retail 🛒 → Uso de BigQuery para análisis de tendencias de compra. 🔹 Finanzas 💳 → DynamoDB + SageMaker para detección de fraudes en AWS. 🔹 Salud 🏥 → FHIR en Google Cloud para gestionar historiales clínicos. 🔹 Streaming y Entretenimiento 🎬 → Uso de Azure Media Services para distribución de contenido.

🌟 Conclusión

El manejo de datos en la nube permite a las organizaciones ser más ágiles, reducir costos y aprovechar el poder del Big Data y la Inteligencia Artificial. La combinación de almacenamiento escalable, seguridad robusta y herramientas avanzadas de análisis hacen de la nube la mejor opción para gestionar datos en la era digital.

Elvis Garcia

student•

La data puede ser relacionado de lo que sea ¿

Enrique Mandujano Cruz

student•

Si con esta pregunta, te refieres a si la información puede ser estructurada, no estructurada ó semiestructurada. Si.

Juan Nishiguchi Mendoza

company_admin•

El aprovisionamiento nos ayuda demasiado, para poder escalar rápidamente.

Usuario anónimo

user•

Super Chevere!!! Todas estas posibilidades

Juan Nishiguchi Mendoza

company_admin•

Automatización de procesos, solo cuando la información este en la Nube o se puede automatizar y orquestar cuando la información llegue a on-premise y luego hacer todo el proceso??

Darvin Orozco

student•

Ha sido una gran clase porque aprendí un nuevo concepto que no imaginaba: ++Multi-Cloud++. En un mundo globalizado, es muy importante trabajar con los datos de varias/múltiples Nubes de forma clara, transparente y/o segura.

Usuario anónimo

user•

Cuando trabajas en la nube puedes tener un crecimiento completamente escalable, iniciando desde MB hasta EB. A medida que tu aplicación crezca puedes ir escalando el procesamiento de datos en la nube. En Cloud tienes acceso a un gran nivel de eficiencia a un bajo costo, solamente te van a cobrar mientras utilices las herramientas. Existen muchos servicios de procesamiento en la nube, escoge el que más se acomode a tus necesidades.

Usuario anónimo

user•

Muy bien.

Usuario anónimo

user•

Flexibilidad.

Elvis Garcia

student•

La data puede ser relacionado de lo que sea ?

Darvin Orozco

student•

¿Te refieres a cualquier negocio? De ser así, yo creo que la data puede estar relacionado con cualquier negocio.

Carlos Andrés Zambrano Barrera

teacher•

Lo maravilloso de BigData es que podes usar data estructurada y no estructurada.... con esos datos hacemos magia! Generamos insights para tu negocio.

Usuario anónimo

user•

escalabilidad

Usuario anónimo

user•

orquestación

Usuario anónimo

user•

gracias

Usuario anónimo

user•

Super. Esta muy interesante

john ct

student•

interesante intro

john ct

student•

Topics to keep in Mind: a-Quantity b-Scalabitlity c-Automation d-efficiency e-Savings f-Flexibility

Por qué big data en cloud es más eficiente

Bienvenida e introducción al curso

Big Data en la Nube: Análisis, Transformación y Seguridad

Big Data en Cloud desde origen a visualización

Por qué big data en cloud es más eficiente

Extracción vs ingesta en proyectos big data

Comparativa de AWS y GCP para proyectos BigData

Arquitecturas

Arquitectura Lambda: 3 capas para datos en tiempo real

Arquitectura capa: el tiempo real como ventaja

Cómo funciona la arquitectura batch

Extracción de información

Cómo mover datos a cloud con SDK y CLI

Python y boto3 para listar buckets S3

Boto3: inicializar clients de AWS en Python

API Gateway como puerta de big data

Storage Gateway: puerta entre on-premise y S3

AWS Kinesis: streaming masivo de datos

Cómo crear Kinesis Data Stream en AWS

Despliegue automatizado de Kinesis con CloudFormation

Cómo Kinesis Firehose entrega datos en tiempo real

Configuración de Kinesis Firehose en AWS

Configuración Básica de Amazon Kinesis Firehose en AWS

MSK vs Kinesis: cuál elegir en AWS

Creación de clúster AWS MSK desde la consola

Transformación de Información

Cómo AWS Glue transforma datos en la nube

Instalación de Apache Zeppelin paso a paso

Configurar developer endpoint de AWS Glue con Zeppelin

Conexión de Apache Zeppelin con AWS

Configurar AWS Glue Crawler para poblar catálogo

Configuración de Developer Endpoint en AWS Glue

Cómo configurar AWS Glue ETL desde S3 a Parquet

Qué es EMR y cuándo usarlo

Crear tu primer cluster de AWS EMR

Conectar Apache Zeppelin a EMR

EMR automatizado con CloudFormation

AWS Lambda para proyectos de big data

Lambdas en big data: real time y batch

Configuración de AWS Lambda para Big Data

Carga de Información

Cómo Athena consulta datos en S3 con SQL

Cómo funciona AWS Athena con S3

Redshift vs Athena: cuándo usar cada uno

Configuración de cluster Redshift en AWS

AWS Lake Formation automatiza tu data lake

Consumo de información

Cómo dimensionar shards de Elasticsearch en AWS

Cómo crear un clúster Elasticsearch en AWS

Cómo funciona Kibana con Elasticsearch

QuickSight: el BI en cloud de AWS

Configuración completa de QuickSight en AWS

Seguridad, Orquestación y Automatización

5 reglas de seguridad para Big Data en AWS

Cómo AWS Macie protege datos en S3

Configuración de AWS Macie en 5 pasos

Apache Airflow vs Step Functions para ETL

Despliegue de Apache Airflow en GCP

Arquitecturas batch y streaming en AWS

Clase pública

Las cinco B de big data explicadas