Curso de Big Data en AWS

Clases del Curso de Big Data en AWS

Instruido por:
Carlos Zambrano
Carlos Zambrano
Intermedio
5 horas de contenido
Ver la ruta de aprendizaje
Diseña un Pipeline de transformación de datos
Proyecto del curso
Diseña un Pipeline de transformación de datos

Realiza la arquitectura para procesar la información generada por todos los usuarios de una aplicación móvil, para que pueda ser consultada por las áreas de Marketing, Compliance y Finanzas de una empresa. Implementarás una prueba de concepto de cómo funcionaría la arquitectura con una porción de los datos. Para esto construirás un Pipeline completo desde que llega la data hasta que se pueda visualizar en un dashboard, este contendrá: Extracción de datos todos los días a media noche, transformación de datos y visualización de los datos en un dashboard interactivo.

Curso de Big Data en AWS

Curso de Big Data en AWS

Progreso del curso:0/52contenidos(0%)

Contenido del Curso
Tutoriales de estudiantes
Preguntas de estudiantes

Progreso del curso:0/52contenidos(0%)

Bienvenida e introducción al curso

Iniciando con Big Data

00:40 min

Material Thumbnail

Cloud Computing en proyectos de BigData

01:32 min

Material Thumbnail

Introducción al manejo de datos en Cloud

04:30 min

¿Qué nube debería utilizar en mi proyecto de Big Data?

01:17 min

Arquitecturas

Material Thumbnail

Arquitecturas Lambda

03:35 min

Material Thumbnail

Arquitectura Kappa

04:05 min

Material Thumbnail

Arquitectura Batch

02:30 min

Extracción de información

Material Thumbnail

Llevar tu información al cloud

02:21 min

Material Thumbnail

Demo - Creando nuestro IDE en la nube con Python - Boto3

10:16 min

Material Thumbnail

¿Cómo usar Boto3?

03:56 min

Material Thumbnail

Kinesis Data Streams

05:53 min

Material Thumbnail

Configuración de Kinesis Data Streams

06:50 min

Material Thumbnail

Demo - Despegando Kinesis con Cloudformation

10:42 min

Material Thumbnail

Demo - Configuración de Kinesis Firehose

05:45 min

Reto - Configurando Kinesis Firehose

02:53 min

Material Thumbnail

Demo - Despliegue de un clúster con MSK

07:21 min

Transformación de Información

Material Thumbnail

Demo - Instalando Apache Zeppelin

04:49 min

Material Thumbnail

Creación del Developer Endpoint

05:38 min

Material Thumbnail

Demo - Conectando nuestro developer Endpoint a nuestro Zeppelin Edpoint

08:29 min

Material Thumbnail

Demo - Creando nuestro primer ETL - Crawling

08:15 min

Material Thumbnail

Demo - Creando nuestro primer ETL - Ejecución

08:00 min

Material Thumbnail

Demo - Creando nuestro primer ETL - Carga

10:23 min

Material Thumbnail

Demo - Desplegando nuestro primer clúster con EMR

09:01 min

Material Thumbnail

Demo - Conectándonos a Apache Zeppelin en EMR

03:18 min

Material Thumbnail

Demo- Despliegue automático de EMR con cloudformation

06:32 min

Material Thumbnail

Ejemplos AWS- Lambda

04:54 min

Material Thumbnail

Demo - Creando una lambda para BigData

07:16 min

Carga de Información

Material Thumbnail

Demo - Consultando data con Athena

04:05 min

Material Thumbnail

Demo - Creando nuestro primer clúster de RedShift

05:05 min

Material Thumbnail

AWS - Lake Formation

06:20 min

Consumo de información

Material Thumbnail

AWS - ElasticSearch

06:54 min

Material Thumbnail

Demo - Creando nuestro primer clúster de ElasticSearch

07:28 min

Material Thumbnail

Demo - Visualizando nuestra data con QuickSight

09:08 min

Seguridad, Orquestación y Automatización

Material Thumbnail

Seguridad en los Datos

03:51 min

Material Thumbnail

Demo - Configurando AWS Macie

06:16 min

Material Thumbnail

Demo - Creando nuestro primer clúster en Cloud Composer

10:03 min

Material Thumbnail

Arquitectura de referencia

05:53 min

Clase pública

Material Thumbnail

¿Qué es Big Data?

02:01 min

nuevosmás votadossin responder
cnexans
cnexans
Estudiante

Donde puedo encontrar el archivo con el codigo del DAG? 😃

0
Sara Ramirez
Sara Ramirez
Estudiante

que diferencias hay en usar la sdk con phyton, la CLI o servicios? como se cual usar? en empresas grandes creo que solo he escuchado que usan servicios. gracias

4
johncastillotellez7
johncastillotellez7
Estudiante

donde hay ejemplos de projectos pequeños/medianos o laboratorios para practicar lo aprendido?

2
johncastillotellez7
johncastillotellez7
Estudiante

que otra aplicacion aparte de zeppelin apache podriamos usar y q sea compatible con aws glue

1
johncastillotellez7
johncastillotellez7
Estudiante

Amazon Managed Streaming for Apache Kafka (Amazon MSK) is a fully managed service that enables you to build and run applications that use Apache Kafka to process streaming data. Amazon MSK provides the control-plane operations, such as those for creating, updating, and deleting clusters.

2
johncastillotellez7
johncastillotellez7
Estudiante

copiar la route que sale despues de subir los docs en el S3> URL del objeto. y esa es la que vamos a usar para el cloudformation

1
johncastillotellez7
johncastillotellez7
Estudiante

outputs: son utiles por que son exportados a una parte de cloudformation, nos sirve para reutilizar a futuro la conexion de ese kinesis. usando los outputs del kinesis y la adaptas para tu nuevo template

1
johncastillotellez7
johncastillotellez7
Estudiante

importante
KinesisShardNumber:
Description: "Select the number of shards"
Type:Number
Default: 1

1
Danilo Pazos
Danilo Pazos
Estudiante

Tengo un inconveniente con ESS, alguien que me pueda apoyar o dar una visión con el problema.

He incrementado el “indices.breaker.request.limit” al 50%, pero a pesar de eso el problema continua de forma intermitente. Por ratos arroja el error y por ratos todo OK.

La instancia es un r5.larage.elasticsearch
16gb de ram
4 nodos y 4 shards

{
    "error": {
        "root_cause": [
            {
                "type": "circuit_breaking_exception",
                "reason": "[parent] Data too large, data for [<transport_request>] would be [8155261782/7.5gb], which is larger than the limit of [8143876915/7.5gb], real usage: [8155261560/7.5gb], new bytes reserved: [222/222b], usages [request=0/0b, fielddata=0/0b, in_flight_requests=520/520b, accounting=5635001/5.3mb]",
                "bytes_wanted": 8155261782,
                "bytes_limit": 8143876915,
                "durability": "PERMANENT"
            }
        ],
        "type": "circuit_breaking_exception",
        "reason": "[parent] Data too large, data for [<transport_request>] would be [8155261782/7.5gb], which is larger than the limit of [8143876915/7.5gb], real usage: [8155261560/7.5gb], new bytes reserved: [222/222b], usages [request=0/0b, fielddata=0/0b, in_flight_requests=520/520b, accounting=5635001/5.3mb]",
        "bytes_wanted": 8155261782,
        "bytes_limit": 8143876915,
        "durability": "PERMANENT"
    },
    "status": 429
}

Alguna manita, llevo dos días intentando saber que es.

Gracias.

1
GAETE BRAVO CESAR AUGUSTO
GAETE BRAVO CESAR AUGUSTO
Estudiante
La instancia mínima que utilizas para Cloud9 es parte de la capa gratuita por lo tanto no hay cobro, pero el uso del servicio de Cloud9 conectado a S3 por ejemplo en donde ejecuto instrucciones tipo sync, ls o cp sobre un bucket ¿Tiene un costo asociado?.
1