Cómo mover datos a cloud con SDK y CLI
Clase 9 de 52 • Curso de Big Data en AWS
Contenido del curso
Arquitecturas
Extracción de información
- 9

Cómo mover datos a cloud con SDK y CLI
Viendo ahora - 10

Python y boto3 para listar buckets S3
10:16 min - 11

Boto3: inicializar clients de AWS en Python
03:56 min - 12

API Gateway como puerta de big data
03:40 min - 13

Storage Gateway: puerta entre on-premise y S3
03:13 min - 14

AWS Kinesis: streaming masivo de datos
05:53 min - 15

Cómo crear Kinesis Data Stream en AWS
06:50 min - 16

Despliegue automatizado de Kinesis con CloudFormation
10:42 min - 17

Cómo Kinesis Firehose entrega datos en tiempo real
03:27 min - 18

Configuración de Kinesis Firehose en AWS
05:45 min - 19
Configuración Básica de Amazon Kinesis Firehose en AWS
02:53 min - 20

MSK vs Kinesis: cuál elegir en AWS
03:42 min - 21

Creación de clúster AWS MSK desde la consola
07:21 min
Transformación de Información
- 22

Cómo AWS Glue transforma datos en la nube
06:33 min - 23

Instalación de Apache Zeppelin paso a paso
04:49 min - 24

Configurar developer endpoint de AWS Glue con Zeppelin
05:38 min - 25

Conexión de Apache Zeppelin con AWS
08:29 min - 26

Configurar AWS Glue Crawler para poblar catálogo
08:15 min - 27

Configuración de Developer Endpoint en AWS Glue
08:00 min - 28

Cómo configurar AWS Glue ETL desde S3 a Parquet
10:23 min - 29

Qué es EMR y cuándo usarlo
05:30 min - 30

Crear tu primer cluster de AWS EMR
09:01 min - 31

Conectar Apache Zeppelin a EMR
03:18 min - 32

EMR automatizado con CloudFormation
06:32 min - 33

AWS Lambda para proyectos de big data
07:02 min - 34

Lambdas en big data: real time y batch
04:54 min - 35

Configuración de AWS Lambda para Big Data
07:16 min
Carga de Información
Consumo de información
Seguridad, Orquestación y Automatización
Clase pública
Mover datos a cloud puede ser simple y flexible si dominas la fase de extracción de información. Aquí verás cómo aprovechar tres estrategias clave —SDK, CLI y servicios especializados— y cómo combinarlas para llevar datos desde múltiples orígenes hacia proveedores como Amazon y Google Cloud, con ejemplos prácticos como Python y S3.
¿Qué es la fase de extracción de información y por qué importa?
La extracción de información es el proceso de llevar datos desde N cantidad de fuentes a cloud. Su valor está en la flexibilidad: puedes elegir la vía más conveniente o combinar opciones según el requerimiento.
- Objetivo: mover datos desde tus orígenes hacia el proveedor de cloud elegido.
- Opciones disponibles: SDK, CLI y servicios especializados.
- Beneficio clave: combinar estrategias para cubrir necesidades específicas.
¿Qué orígenes y destinos se contemplan?
Los orígenes pueden ser múltiples y heterogéneos. El destino es un servicio en cloud del proveedor elegido. Por ejemplo, con un script en Python puedes ingerir datos en S3 dentro de Amazon, o conectarte a servicios de Google Cloud.
- Fuentes: varias y simultáneas según tu contexto.
- Destinos en cloud: servicios como S3 u ofertas de Google Cloud.
- Conector: tu herramienta elegida entre SDK, CLI o servicios.
¿Cómo funciona una SDK con tu lenguaje?
Todos los servicios en cloud permiten interacción mediante SDK. Puedes usar tu lenguaje de programación preferido para conectarte y operar con los servicios del proveedor.
- Usar SDK te da control desde tu código.
- El lenguaje que dominas acelera el desarrollo.
- Permite integrar la ingesta en flujos existentes.
¿Qué aporta un script en Python?
Si dominas Python, es natural crear un script que tome datos del origen e ingeste a un servicio como S3. Es directo, repetible y fácil de mantener.
- Ejemplo típico: script en Python que envía datos a S3.
- Ventaja: flexibilidad para adaptar a tu caso.
- Resultado: ingesta controlada desde código.
¿Para qué usar la CLI y servicios especializados?
La CLI ofrece una shell para ejecutar las mismas operaciones de forma scriptable. Con bash, puedes automatizar la transferencia desde un origen hacia el cloud del proveedor que uses.
- CLI: ideal para automatización rápida y repetible.
- bash: útil para orquestar pasos en secuencia.
- Portabilidad: disponible en distintos cloud providers.
¿Cómo combinar opciones para mayor flexibilidad?
La combinación es el mayor valor: servicios especializados + SDK + CLI. Si un servicio simplifica la extracción pero necesitas un ajuste, compleméntalo con un script en Python o con bash.
- Integrar un servicio con una SDK para personalizar.
- Encadenar comandos de CLI en bash para automatizar.
- Cubrir requerimientos especiales sin perder eficiencia.
En tu práctica diaria, enfócate en dominar SDK, CLI, scripts en Python y bash, y en identificar cuándo combinar servicios para lograr la mayor flexibilidad al mover datos a cloud. ¿Qué combinación te funciona mejor hoy? Comenta tu contexto y experiencia.