Cómo mover datos a cloud con SDK y CLI

Clase 9 de 52 • Curso de Big Data en AWS

Resumen

Mover datos a cloud puede ser simple y flexible si dominas la fase de extracción de información. Aquí verás cómo aprovechar tres estrategias clave —SDK, CLI y servicios especializados— y cómo combinarlas para llevar datos desde múltiples orígenes hacia proveedores como Amazon y Google Cloud, con ejemplos prácticos como Python y S3.

¿Qué es la fase de extracción de información y por qué importa?

La extracción de información es el proceso de llevar datos desde N cantidad de fuentes a cloud. Su valor está en la flexibilidad: puedes elegir la vía más conveniente o combinar opciones según el requerimiento.

Objetivo: mover datos desde tus orígenes hacia el proveedor de cloud elegido.
Opciones disponibles: SDK, CLI y servicios especializados.
Beneficio clave: combinar estrategias para cubrir necesidades específicas.

¿Qué orígenes y destinos se contemplan?

Los orígenes pueden ser múltiples y heterogéneos. El destino es un servicio en cloud del proveedor elegido. Por ejemplo, con un script en Python puedes ingerir datos en S3 dentro de Amazon, o conectarte a servicios de Google Cloud.

Fuentes: varias y simultáneas según tu contexto.
Destinos en cloud: servicios como S3 u ofertas de Google Cloud.
Conector: tu herramienta elegida entre SDK, CLI o servicios.

¿Cómo funciona una SDK con tu lenguaje?

Todos los servicios en cloud permiten interacción mediante SDK. Puedes usar tu lenguaje de programación preferido para conectarte y operar con los servicios del proveedor.

Usar SDK te da control desde tu código.
El lenguaje que dominas acelera el desarrollo.
Permite integrar la ingesta en flujos existentes.

¿Qué aporta un script en Python?

Si dominas Python, es natural crear un script que tome datos del origen e ingeste a un servicio como S3. Es directo, repetible y fácil de mantener.

Ejemplo típico: script en Python que envía datos a S3.
Ventaja: flexibilidad para adaptar a tu caso.
Resultado: ingesta controlada desde código.

¿Para qué usar la CLI y servicios especializados?

La CLI ofrece una shell para ejecutar las mismas operaciones de forma scriptable. Con bash, puedes automatizar la transferencia desde un origen hacia el cloud del proveedor que uses.

CLI: ideal para automatización rápida y repetible.
bash: útil para orquestar pasos en secuencia.
Portabilidad: disponible en distintos cloud providers.

¿Cómo combinar opciones para mayor flexibilidad?

La combinación es el mayor valor: servicios especializados + SDK + CLI. Si un servicio simplifica la extracción pero necesitas un ajuste, compleméntalo con un script en Python o con bash.

Integrar un servicio con una SDK para personalizar.
Encadenar comandos de CLI en bash para automatizar.
Cubrir requerimientos especiales sin perder eficiencia.

En tu práctica diaria, enfócate en dominar SDK, CLI, scripts en Python y bash, y en identificar cuándo combinar servicios para lograr la mayor flexibilidad al mover datos a cloud. ¿Qué combinación te funciona mejor hoy? Comenta tu contexto y experiencia.

Juan David Cajamarca Acuña

student•

Existen diversas estrategias para conectar nuestro sistema en la nube con la fuente de origen de datos.

SDK: Podemos establecer una comunicación con todos los servicios en la nube a través de las SDKs. Aquí entran en juego los lenguajes de programación.
CLI: Los Cloud Providers cuentan con interfaces de líneas de comandos a través de las cuales podemos interactuar con los servicios en la nube.
Servicios: Aquí nos referimos a servicios especializados para realizar estas tareas (recibir/extraer información desde diferentes fuentes).

Podemos también combinar estas estrategias entre sí.

Héctor Remedios Fernández

student•

Estas clases se cortan!!!! no tienen un cierre

Sara Ramirez

student•

que diferencias hay en usar la sdk con phyton, la CLI o servicios? como se cual usar? en empresas grandes creo que solo he escuchado que usan servicios. gracias

Erick Benites Cuenca

student•

Yo creo que son solo diferentes formas de hacer lo mismo, según lo que necesites, si deseas utilizar los servicios de aws de forma programática como desde tu propia aplicación (ideal para desarrolladores) el sdk es la mejor alternativa, o si solo deseas crear scripts que corren bajo líneas de comandos para automatizar algunos despliegues en aws puedes usar el cli y por último, si no puedes usar ninguno de los lenguajes compatibles con el sdk o no puedes usar el cli, puedes utilizar las apis que te permiten invocarlas desde cualquier plataforma estándar.

Usuario anónimo

user•

Super poder trabajar con las 3 formas: sdk, cli y por medio de Servicios.

Usuario anónimo

user•

SDK CLI Servicios

José Alberto Ortiz Vargas

student•

Wow! Super brutal las diferentes opciones que podemos combinar para conectar nuestra data con la nube.

Usuario anónimo

user•

Existen distintas formas de conectar tu sistema en la nube con la fuente de origen de datos que necesitas, algunas opciones son:

Utilizar el SDK de la nube utilizando el lenguaje de programación de tu preferencia. Usar el CLI para conectarse a la nube. Utilizar servicios especializados para la tarea.

Emmanuel Sosa Reyes

student•

En caso de que se necesite conectarse a un CRM para extraer información de los clientes para un proyecto con AWS Personalize, ¿se debería usar Glue para esto? ¿Cómo conecto Glue al CRM para extraer los datos? ¿O qué herramienta sería la adecuada? No se desea hacer streaming de los datos en tiempo real.

Mario Alexander Vargas Celis

student•

Migrar tu información a la nube (Cloud) implica trasladar datos, aplicaciones y cargas de trabajo desde infraestructuras locales a servicios en la nube proporcionados por empresas como AWS, Google Cloud o Azure.

Ventajas de mover tu información a la nube

✅ Escalabilidad: Puedes aumentar o reducir recursos según la demanda. ✅ Alta disponibilidad: Accede a tus datos desde cualquier lugar con conexión a internet. ✅ Seguridad: La mayoría de los proveedores ofrecen cifrado y medidas de seguridad avanzadas. ✅ Reducción de costos: Evita gastos en hardware y mantenimiento.

Tipos de migración a la nube

☁ Lift and Shift: Mover los datos y aplicaciones sin modificaciones. ☁ Replataforming: Adaptar aplicaciones para aprovechar mejor los servicios en la nube. ☁ Refactoring: Rediseñar aplicaciones para optimizar su desempeño en la nube.

Servicios clave en la nube para almacenar información

📌 Amazon S3: Almacenamiento escalable y seguro. 📌 Google Cloud Storage: Almacén de objetos para cargas de trabajo empresariales. 📌 Azure Blob Storage: Solución de almacenamiento de Microsoft. 📌 Bases de datos en la nube: DynamoDB, Aurora, BigQuery, Firestore, entre otras.

Si quieres más detalles sobre cómo migrar a la nube, dime qué tipo de datos o cargas de trabajo deseas mover. 🚀

Norberto Iván Tolaba

student•

De diez esta info, me esclarece la potencialidad

Usuario anónimo

user•

Gracias

Usuario anónimo

user•

Es posible combinar esas opciones para llevar la información que necesites a tu cloud provider.

Usuario anónimo

user•

gracias

Usuario anónimo

user•

flexible

Usuario anónimo

user•

muy interesante

LUIS GERARDO CAMBAL BARAHONA

student•

Formas de extraer datos hacia nuestra nube: SDK, CLI, Servicios

Usuario anónimo

user•

Sorprendente.

john ct

student•

De los 2:21 mins no se corto nada. quiza ya fue arreglado- interesante la informacion...

Orlando Jimenez

student•

Hola Prof, que capa de servicio hay en Azure para llevar los datos. Saludos. Gracias

Mariano Cordoba

student•

Orlando, tengo entendido que este servicio especifico de azure se puede utilizar

https://azure.microsoft.com/es-es/services/data-factory/

Este sirve para integrar la informacion de difernetes fuentes de datos hacia nuestras distintas bases de datos , DW o algun datalke que tengamos en la nube.

Saludos.

Cómo mover datos a cloud con SDK y CLI

Bienvenida e introducción al curso

Big Data en la Nube: Análisis, Transformación y Seguridad

Big Data en Cloud desde origen a visualización

Por qué big data en cloud es más eficiente

Extracción vs ingesta en proyectos big data

Comparativa de AWS y GCP para proyectos BigData

Arquitecturas

Arquitectura Lambda: 3 capas para datos en tiempo real

Arquitectura capa: el tiempo real como ventaja

Cómo funciona la arquitectura batch

Extracción de información

Cómo mover datos a cloud con SDK y CLI

Python y boto3 para listar buckets S3

Boto3: inicializar clients de AWS en Python

API Gateway como puerta de big data

Storage Gateway: puerta entre on-premise y S3

AWS Kinesis: streaming masivo de datos

Cómo crear Kinesis Data Stream en AWS

Despliegue automatizado de Kinesis con CloudFormation

Cómo Kinesis Firehose entrega datos en tiempo real

Configuración de Kinesis Firehose en AWS

Configuración Básica de Amazon Kinesis Firehose en AWS

MSK vs Kinesis: cuál elegir en AWS

Creación de clúster AWS MSK desde la consola

Transformación de Información

Cómo AWS Glue transforma datos en la nube

Instalación de Apache Zeppelin paso a paso

Configurar developer endpoint de AWS Glue con Zeppelin

Conexión de Apache Zeppelin con AWS

Configurar AWS Glue Crawler para poblar catálogo

Configuración de Developer Endpoint en AWS Glue

Cómo configurar AWS Glue ETL desde S3 a Parquet

Qué es EMR y cuándo usarlo

Crear tu primer cluster de AWS EMR

Conectar Apache Zeppelin a EMR

EMR automatizado con CloudFormation

AWS Lambda para proyectos de big data

Lambdas en big data: real time y batch

Configuración de AWS Lambda para Big Data

Carga de Información

Cómo Athena consulta datos en S3 con SQL

Cómo funciona AWS Athena con S3

Redshift vs Athena: cuándo usar cada uno

Configuración de cluster Redshift en AWS

AWS Lake Formation automatiza tu data lake

Consumo de información

Cómo dimensionar shards de Elasticsearch en AWS

Cómo crear un clúster Elasticsearch en AWS

Cómo funciona Kibana con Elasticsearch

QuickSight: el BI en cloud de AWS

Configuración completa de QuickSight en AWS

Seguridad, Orquestación y Automatización

5 reglas de seguridad para Big Data en AWS

Cómo AWS Macie protege datos en S3

Configuración de AWS Macie en 5 pasos

Apache Airflow vs Step Functions para ETL

Despliegue de Apache Airflow en GCP

Arquitecturas batch y streaming en AWS

Clase pública

Las cinco B de big data explicadas