Por qué big data en cloud es más eficiente
Clase 3 de 52 • Curso de Big Data en AWS
Contenido del curso
Arquitecturas
Extracción de información
- 9

Cómo mover datos a cloud con SDK y CLI
02:21 min - 10

Python y boto3 para listar buckets S3
10:16 min - 11

Boto3: inicializar clients de AWS en Python
03:56 min - 12

API Gateway como puerta de big data
03:40 min - 13

Storage Gateway: puerta entre on-premise y S3
03:13 min - 14

AWS Kinesis: streaming masivo de datos
05:53 min - 15

Cómo crear Kinesis Data Stream en AWS
06:50 min - 16

Despliegue automatizado de Kinesis con CloudFormation
10:42 min - 17

Cómo Kinesis Firehose entrega datos en tiempo real
03:27 min - 18

Configuración de Kinesis Firehose en AWS
05:45 min - 19
Configuración Básica de Amazon Kinesis Firehose en AWS
02:53 min - 20

MSK vs Kinesis: cuál elegir en AWS
03:42 min - 21

Creación de clúster AWS MSK desde la consola
07:21 min
Transformación de Información
- 22

Cómo AWS Glue transforma datos en la nube
06:33 min - 23

Instalación de Apache Zeppelin paso a paso
04:49 min - 24

Configurar developer endpoint de AWS Glue con Zeppelin
05:38 min - 25

Conexión de Apache Zeppelin con AWS
08:29 min - 26

Configurar AWS Glue Crawler para poblar catálogo
08:15 min - 27

Configuración de Developer Endpoint en AWS Glue
08:00 min - 28

Cómo configurar AWS Glue ETL desde S3 a Parquet
10:23 min - 29

Qué es EMR y cuándo usarlo
05:30 min - 30

Crear tu primer cluster de AWS EMR
09:01 min - 31

Conectar Apache Zeppelin a EMR
03:18 min - 32

EMR automatizado con CloudFormation
06:32 min - 33

AWS Lambda para proyectos de big data
07:02 min - 34

Lambdas en big data: real time y batch
04:54 min - 35

Configuración de AWS Lambda para Big Data
07:16 min
Carga de Información
Consumo de información
Seguridad, Orquestación y Automatización
Clase pública
Adoptar cloud computing en proyectos de big data cambia las reglas: escalabilidad de megabytes a exabytes, automatización para reducir carga operativa, eficiencia por servicios listos para usar y ahorro con costo por demanda. Además, a diferencia de entornos on-premise, el acceso es inmediato y sin grandes inversiones iniciales.
¿Por qué cloud computing cambia los proyectos de big data?
Trabajar en la nube con cualquier cloud provider ofrece un crecimiento elástico y transparente. El proveedor soporta el procesamiento de grandes volúmenes sin que debas sobredimensionar infraestructura ni bloquear capital.
¿Qué es el crecimiento escalable y por qué importa?
- Crecer de megabytes a gigabytes, petabytes y hasta exabytes sin rediseñar todo.
- Ajustar capacidad según el volumen real de datos.
- Mantener el rendimiento a medida que las fuentes de datos aumentan.
¿Cómo se compara con un data center on-premise?
- Antes, soportar grandes volúmenes era muy costoso.
- Requería altos conocimientos técnicos y compras de servidores.
- En la nube, registras una cuenta y aprovisionas servicios de big data en minutos.
¿Cómo escalar y automatizar el procesamiento de datos?
La escalabilidad se vuelve crítica cuando el negocio crece de forma inesperada. La automatización y la orquestación de servicios permiten que el procesamiento aumente sin intervención manual, evitando cuellos de botella.
¿Qué pasa cuando la app pasa de 100 mil a 500 mil usuarios?
- La data crece de forma abrupta por campañas de referidos o marketing.
- Lo que funcionaba para 100 mil usuarios no basta para 500 mil.
- En la nube, el procesamiento escala automáticamente junto con la aplicación.
¿Cómo ayuda la automatización y la orquestación?
- Ejecutar tareas de procesamiento sin pasos manuales.
- Coordinar servicios para que trabajen en cadena.
- Reducir carga administrativa y errores operativos.
¿Qué ventajas ofrece el costo por demanda y la eficiencia?
La combinación de eficiencia y costo por demanda evita pagar por capacidad ociosa. Pagas solo por los datos procesados y el tiempo de ejecución, maximizando el valor de cada tarea.
¿Cómo se paga al procesar millones de datos?
- Si procesas un millón, pagas por ese millón y por el tiempo usado.
- Si mañana son diez millones, pagas por esos diez millones y su tiempo.
- Sin costos ocultos por capacidad sin utilizar.
¿Por qué hablar de eficiencia y aprovisionamiento rápido?
- Los servicios de big data están al alcance de todos.
- Se pueden aprovisionar con un par de clics.
- Habilidad clave: diseñar flujos eficientes que consuman solo lo necesario.
¿Dónde encaja la flexibilidad?
- Permite adaptar arquitectura y servicios a necesidades cambiantes.
- Facilita iterar sin rediseñar desde cero.
- Complementa la escalabilidad y el costo por demanda.
Habilidades y conceptos activables desde ya: - Escalabilidad: ajustar recursos al volumen de datos real. - Automatización: ejecutar pipelines sin intervención manual. - Orquestación: coordinar múltiples servicios en la nube. - Eficiencia: usar servicios gestionados para reducir complejidad. - Costo por demanda: pagar solo por lo que se procesa y cuando se procesa. - Aprovisionamiento ágil: activar servicios de big data con rapidez. - Cloud provider y on-premise: entender las diferencias de costos y operación.
¿Tienes un caso de crecimiento acelerado o buscas optimizar costos en tu pipeline de datos? Cuéntalo y exploramos cómo aplicar estas prácticas en tu contexto.