- 1
Big Data en la Nube: Análisis, Transformación y Seguridad
00:40 - 2

Transformación de Datos en Cloud: Automatización y Seguridad
01:32 - 3

Big Data en la Nube: Escalabilidad, Automatización y Eficiencia
04:30 - 4

Almacenamiento y Procesamiento de Datos en la Nube
04:09 - 5
Comparativa de AWS y GCP para proyectos BigData
01:17
Configuración de Amazon Redshift en AWS paso a paso
Clase 39 de 52 • Curso de Big Data en AWS
Contenido del curso
- 9

Extracción de Datos a la Nube: Estrategias y Herramientas
02:21 - 10

Uso de Python y AWS Cloud9 para Proyectos de Big Data
10:16 - 11

Uso de Boto3 para Servicios AWS en Python
03:56 - 12

Integración de AWS API Gateway en Proyectos de Big Data
03:40 - 13

Uso de Storage Gateway para Integración de Datos en la Nube
03:13 - 14

Procesamiento de Datos en Tiempo Real con AWS Kinesis Data Stream
05:53 - 15

Creación de Kinesis Data Streams en AWS
06:50 - 16

Despliegue de Kinesis con AWS CloudFormation
10:42 - 17

Entrega y Transformación de Datos con Kinesis Firehose en AWS
03:27 - 18

Configuración de Kinesis Firehose en AWS paso a paso
05:45 - 19
Configuración Básica de Amazon Kinesis Firehose en AWS
02:53 - 20

AWS MSK: Implementación y Gestión de Apache Kafka en la Nube
03:42 - 21

Despliegue de Clúster MSK en AWS paso a paso
07:21
- 22

Transformación de Datos con AWS Glue: ETL y Catálogo de Metadatos
06:33 - 23

Instalación y Configuración de Apache Zeppelin para AWS Glue
04:49 - 24

Configuración de Developer Endpoint en AWS Glue para Apache Zeppelin
05:38 - 25

Conexión y configuración de Apache Zeppelin para ETL en AWS
08:29 - 26

Creación de un ETL con AWS Glue: Crawlers y Catalogación de Datos
08:15 - 27

Configuración y Ejecución de ETL en AWS Glue paso a paso
08:00 - 28

Creación y Ejecución de ETL con AWS Glue y S3
10:23 - 29

Procesamiento de Datos con EMR en AWS
05:30 - 30

Creación de un clúster EMR en AWS paso a paso
09:01 - 31

Conexión y Configuración de Zeppelin en Clúster EMR
03:18 - 32

Automatización de Clústeres EMR con Plantillas de CloudFormation
06:32 - 33

AWS Lambda en Proyectos de Big Data en Tiempo Real
07:02 - 34

Uso de Lambda en Arquitecturas de Big Data Real Time y Batch
04:54 - 35

Configuración de Funciones Lambda para Big Data en AWS
07:16
- 36

Consultas SQL en Big Data con AWS Athena y S3
04:50 - 37

Consultas SQL en S3 con AWS Athena y Glue Catalog
04:05 - 38

AWS Redshift: Almacenamiento y Análisis de Datos Masivos
06:37 - 39

Configuración de Amazon Redshift en AWS paso a paso
05:05 - 40

Lake Formation: Automatización y Seguridad en Gestión de Data Lakes
06:20
- 46

Seguridad en Big Data con AWS: Cifrado, Permisos y Monitoreo
03:51 - 47

Seguridad de Datos en AWS con Amazon Macie
07:32 - 48

Habilitación y Configuración de AWS Macie para Gestión de Datos Seguros
06:16 - 49

Orquestación de ETLs con Apache Airflow y Python en Big Data
04:27 - 50

Despliegue y Orquestación de Tareas con Google Cloud Composer
10:03 - 51

Arquitecturas de Big Data en Cloud: Batch y Tiempo Real
05:53
¿Cómo configurar Amazon Redshift en AWS?
Amazon Redshift es una herramienta poderosa en la gestión de grandes cantidades de datos dentro del ecosistema de AWS. Sin embargo, configurarlo adecuadamente es crucial para optimizar su rendimiento y costos. A continuación, exploramos cómo hacerlo eficientemente desde la consola de AWS.
¿Cómo iniciar un cluster en Redshift?
Para comenzar, accede a la consola de AWS y localiza el servicio de Amazon Redshift. Dentro de la sección de Clusters, sigue los pasos para lanzar un nuevo cluster:
- Identificador del cluster: Asigna un nombre a tu cluster, por ejemplo, "Platzi Cluster".
- Base de datos: Define la base de datos asociada, recordando que detrás de Redshift hay un PostgreSQL, por ejemplo, "platzi db".
- Configuración de acceso: Establece un nombre de usuario, como "admin", y un password cumpliendo políticas de compliance (mínimo una mayúscula, una minúscula y longitud mínima).
- Tipo de nodo: Este es un punto crítico ya que afectará directamente el costo. Investiga el Pricing de cada tipo de nodo. Por ejemplo, el DC2.large ofrece 15 GB de memoria por nodo.
# Ejemplo de configuración básica del cluster:
Cluster Identifier: Platzi Cluster
Database Name: platzi db
Port: 5439
Username: admin
Node Type: DC2.large
Number of Nodes: 1 (opcionalmente se puede expandir)
¿Por qué es importante el tipo de nodo?
El tipo de nodo determina no solo el rendimiento, sino también el costo del servicio. Examina las especificaciones técnicas de los nodos disponibles. Para un nodo DC2.large, obtienes una memoria de 15 GB y dos Virtual Core. Si se opta por nodos más grandes, se incrementan tanto los recursos como el costo. Siempre considera el balance adecuado entre desempeño y precio acorde a tus necesidades.
¿Qué hay que considerar en términos de seguridad y despliegue?
- Datos de VPC: Vital para conexiones con herramientas de terceros vía JDBC y ODBC. Configura adecuadamente tu clúster para hechos como acceso público y seguridad de grupos.
- Zona de disponibilidad: Puedes elegir una zona para desplegar tu cluster, asegurando disponibilidad y redundancia.
- Seguridad adyacente: Considera integrar con servicios como HSM y gestiona las seguridades con Parameter Groups para configuraciones detalladas. Los grupos de parámetros te permiten ajustar aspectos del motor de base de datos PostgreSQL subyacente.
¿Cuáles son las opciones adicionales útiles?
- Dashboard y consulta: Utiliza el dashboard para monitorizar tu clúster, ejecuta consultas y gestiona snapshots.
- Reserva de nodos: Para uso prolongado del cluster, la reserva de nodos puede reducir costos significativamente.
- Integración de roles y mantenimiento: Agrega roles que tu cluster usará y configura ventanas de mantenimiento.
- Conexión y manejo de eventos: Explora diferentes formas de conectar y manejar eventos para personalizar el funcionamiento del cluster.
Amazon Redshift es una herramienta invaluable en la gestión de datos en la nube; sin embargo, la clave para su uso eficiente radica en una configuración cuidadosa que alinee pros y contras de los diferentes aspectos técnicos y económicos. Con este enfoque, puedes maximizar los beneficios de su implementación en tu organización.