buenas… si comienzo a usar este servicio (Zeppelin), como serian los cobros al usarlo con AWS ??
Bienvenida e introducción al curso
Iniciando con Big Data
Cloud Computing en proyectos de BigData
Introducción al manejo de datos en Cloud
Datos en Cloud
¿Qué nube debería utilizar en mi proyecto de Big Data?
Arquitecturas
Arquitecturas Lambda
Arquitectura Kappa
Arquitectura Batch
Extracción de información
Llevar tu información al cloud
Demo - Creando nuestro IDE en la nube con Python - Boto3
¿Cómo usar Boto3?
API Gateway
Storage Gateway
Kinesis Data Streams
Configuración de Kinesis Data Streams
Demo - Despegando Kinesis con Cloudformation
Kinesis Firehose
Demo - Configuración de Kinesis Firehose
Reto - Configurando Kinesis Firehose
AWS - MSK
Demo - Despliegue de un clúster con MSK
Transformación de Información
AWS - Glue
Demo - Instalando Apache Zeppelin
Creación del Developer Endpoint
Demo - Conectando nuestro developer Endpoint a nuestro Zeppelin Edpoint
Demo - Creando nuestro primer ETL - Crawling
Demo - Creando nuestro primer ETL - Ejecución
Demo - Creando nuestro primer ETL - Carga
AWS - EMR
Demo - Desplegando nuestro primer clúster con EMR
Demo - Conectándonos a Apache Zeppelin en EMR
Demo- Despliegue automático de EMR con cloudformation
AWS - Lambda
Ejemplos AWS- Lambda
Demo - Creando una lambda para BigData
Carga de Información
AWS - Athena
Demo - Consultando data con Athena
AWS - RedShift
Demo - Creando nuestro primer clúster de RedShift
AWS - Lake Formation
Consumo de información
AWS - ElasticSearch
Demo - Creando nuestro primer clúster de ElasticSearch
AWS - Kibana
AWS - QuickSight
Demo - Visualizando nuestra data con QuickSight
Seguridad, Orquestación y Automatización
Seguridad en los Datos
AWS Macie
Demo - Configurando AWS Macie
Apache Airflow
Demo - Creando nuestro primer clúster en Cloud Composer
Arquitectura de referencia
Clase pública
¿Qué es Big Data?
Aún no tienes acceso a esta clase
Crea una cuenta y continúa viendo este curso
Aportes 10
Preguntas 3
buenas… si comienzo a usar este servicio (Zeppelin), como serian los cobros al usarlo con AWS ??
recuerden desinstalar todo lo configurado en este demo s3 y demas services AWS no perdona el charging of services y se los carga a su Tarjeta de credito.
Upload RAW data to S3 and setup the data catalog
Tuve inconvenientes cuando los archivos se encuentran en el mismo directorio, de esta manera se creaban las tablas en Glue catalog pero desde Athena me retornaba cero registros.
Para resolverlo, encontré en internet que es buena practica un folder por archivo, volví a ejecutarlo y funcionó correctamente
Cada json de origen lo crea como una tabla
El origen de la data en Crawler puede ser, un bucket en S3, una DynamoDB o una conexión tipo JDBC.
Classifier para identificar una estructura particular en nuestra data y la pueda leer de forma adecuada.
Glue Catalog es un catalogo de metadatos persistente, es decir tiene información de donde esta la data almacenada y que estructura tiene para que otros servicios mediante ese catalogo puedan acceder a esa información.
El Crawling es una tarea que va a ir a nuestro bucket de S3, identifica la data y lo coloca en el Glue catalog
Al pasar un tiempo, han cambiado las políticas de Amazon y ahora dejan el bucket privado o sin una política sin restricción.
No es la mejor solución, pero si en el bucket de S3 agregan la siguiente policy funcionará:
{
"Version": "2012-10-17",
"Id": "Policyesv",
"Statement": [
{
"Sid": "Statement1",
"Effect": "Allow",
"Principal": "*",
"Action": "s3:GetObject",
"Resource": "arn:aws:s3:::origen-platzi-esv/*"
}
]
}
Se darán cuenta si les ocurre el problema cuando ejecutan bajo demanda siguiendo el tutorial de Carlos Zambrano, pero no les actualiza las 6 tablas.
Deben cambiar en la policy en el campo “Resource” lo que este en “origen-platzi-esv” por el nombre del origen que ustedes hayan colocado.
¿Quieres ver más aportes, preguntas y respuestas de la comunidad? Crea una cuenta o inicia sesión.