Gestión de Datos y Consultas en Repsheat

Clase 33 de 33 • Curso de AWS Redshift para Manejo de Big Data

Contenido del curso

Primeros pasos en la arquitectura no transaccional

Configura tu entorno de trabajo para Redshift

Cómo diseñar tu base de datos para mejorar su desempeño

Manipular enormes cantidades de datos

Buenas prácticas para diseñar y ejecutar consultas en tu base de datos

Análisis de comportamiento y descarga de datos con Redshift

Conclusiones

33
Gestión de Datos y Consultas en Repsheat
Viendo ahora

Tomar examen

Resumen

A lo largo de todo el curso se abordaron los pilares fundamentales para trabajar con Amazon Redshift, desde los conceptos iniciales de almacenamiento de datos hasta las mejores prácticas de mantenimiento y rendimiento. Este repaso final permite conectar cada tema y entender cómo encajan dentro de un flujo de trabajo real con un Data Warehouse en la nube.

¿Qué temas cubre un curso integral de Redshift?

El recorrido comenzó con la definición de Data Warehouse, es decir, un sistema diseñado específicamente para consultas analíticas sobre grandes volúmenes de información histórica. A partir de ahí se explicaron las bases de datos columnares [0:14], que almacenan la información por columnas en lugar de filas, lo que permite lecturas mucho más eficientes cuando se trabaja con agregaciones y filtros sobre conjuntos masivos de datos.

Dentro del diseño de Redshift se cubrieron tres aspectos esenciales:

Compresión: reduce el espacio en disco y acelera las lecturas al codificar los datos de forma óptima por columna.
Ordenamientos (sort keys): definen el orden físico de los datos en disco para que las consultas filtren rangos de manera más rápida.
Estilos de distribución (distribution styles): determinan cómo se reparten las filas entre los nodos del clúster, minimizando la transferencia de datos entre ellos durante las consultas.

¿Cómo mover datos hacia y desde Redshift?

Una parte importante del curso se centró en la carga y extracción de datos [0:27]. Llevar información a Redshift implica conocer herramientas como el comando COPY, que permite ingestar archivos desde Amazon S3 de forma paralela y eficiente. Del mismo modo, sacar datos del warehouse requiere entender el comando UNLOAD y las conexiones con otros servicios de AWS.

¿Cómo garantizar consultas eficientes?

No basta con tener los datos dentro del clúster. Se revisó cómo escribir buenas consultas y, sobre todo, cómo medir el rendimiento de cada una [0:33]. Esto incluye el análisis de planes de ejecución y la identificación de cuellos de botella, dos habilidades indispensables para cualquier ingeniero de datos que trabaje con Redshift.

¿Por qué es importante el mantenimiento de la base de datos?

Redshift necesita estadísticas actualizadas para que el optimizador de consultas elija los mejores planes de ejecución. Operaciones como ANALYZE y VACUUM mantienen la base de datos limpia y con metadatos precisos [0:38]. Sin este mantenimiento periódico, el rendimiento se degrada con el tiempo.

¿Qué buenas prácticas conviene aplicar en Redshift?

El curso también abordó buenas prácticas orientadas al manejo de logs, monitoreo de consultas y gestión de datos [0:43]. Utilizar las tablas de sistema —como STL_QUERY, STL_ALERT_EVENT_LOG y SVL_QUERY_SUMMARY— permite detectar patrones problemáticos, consultas lentas y alertas del motor antes de que se conviertan en incidentes.

Además, se mencionó que Redshift ofrece posibilidades de integración con otros servicios como DynamoDB, así como el uso de funciones y procedimientos almacenados [0:52], temas que amplían las capacidades del warehouse más allá de las consultas SQL tradicionales.

Si trabajas con Redshift o estás considerando implementarlo, comparte tu experiencia y las dudas que tengas en la sección de comentarios; siempre es valioso intercambiar aprendizajes con la comunidad.

Comentarios

Isay Humberto Lucas Hernandez

student•

Excelente curso!

Mi mundo se acaba de sacudir por completo dado a que vengo de desarrollar en PLSQL en Oracle, un DBMS relacional. Se me han ocurrido un sin fin de ideas y proyectos con los conocimientos adquiridos. Muchísimas gracias!

Brayan Betancourt Villegas

student•

Es importante eliminar el cluster cuando se deje de usar Redshfit , sino AWS te cobrara despues de sobrepasar la cantidad de horas gratuitas. En este link estan los pasos : https://docs.aws.amazon.com/es_es/redshift/latest/gsg/rs-gsg-clean-up-tasks.html

Josue Alonso

student•

Gracias !

Karla Verónica Álvarez Vázquez

student•

Me gustaría un curso de Snowflake.

Alarcon7a

student•

Muy interesante esta base de datos, lo tendremos muy en cuenta.

Daniel Eishu Oyama Arevalo

student•

Muy buen curso, bien explicado y fácil de entender.

Me encantaría que abarcáramos los otros servicios de AWS relacionados con datos de esta forma como EMR, Glue, Athena, Kinesis, o los servicios de visualización y consumo de datos igual de AWS.

Saludos y gracias.

Alarcon7a

student•

Excelente, lo tendremos muy en cuenta, saludos!

José Carlos Díaz

student•

A pesar que disfruté mucho el curso y el profesor se ve que es un crack, siento que hay un cierto vacío maluco en la ruta de data Science en cuanto a bases de datos. Pasamos de dos cursos prácticamente idénticos manejando una base de datos de 10's-100's de registros transaccionales de una tienda de libros (gateando) a perder los estribos con 60M's de registros en Ohio (triathlon). Definitivamente revisaré este curso cuando retome la ruta de bases de datos.

Alarcon7a

student•

Gracias por tu comentario, si estaos reformando esa ruta para afianzar mejor algunos conceptos antes de llegar a temas como estos.

José Rodrigo Navas Maldonado

student•

Que buen curso, me gustó muchísimo. Inicialmente lo he recibido porque en mi trabajo vamos a empezar a utilizar RedShift, así que también cree este Notion con todas las cosas útiles que aprendí en el curso, para compartir con mis compañeros de trabajo, pero les dejo el acceso también a todos para que se apoyen en él, y pueden dejar comentarios para ir agregando y mejorando el mismo.

Red Shift Cheat Sheet

Saludos

Karla Verónica Álvarez Vázquez

student•

Muy buen curso !! 👌

Alarcon7a

student•

muchas gracias! :)

Felipe de Jesús Garza Montante

student•

Muy buen curso y exelente profesor!! Espero verlo en proximos cursos.

Alarcon7a

student•

asi sera!

Robin Angel Romero

student•

curso de 10 Estrellas, estoy la ruta de la escuela de data Science, y sin temor a equivocarme es una de los cursos mejor elaborados y desarrollados, en mi caso me mostrar un camino claro para empezar agregar valor productivo a algunos los proyectos que he ido contrayendo en mi aprendizaje. me queda la duda de como haria para hacer algún tipo de deployment o si existe alguna forma de mostrar en un portafolio proyectos que hagan uso de redshift, a manera de algún tipos de repositorio o algo similar

Alarcon7a

student•

Muchas gracias, me alegro mucho que te gustara el curso, usualmente he visto repos con los DDL de cosntruccion de un modelo de datos, y tener un buen modelo de datos dice mucho de tus capacidades.

Francisco Ruben Méndez Gómez

student•

¿Cómo cancelo mi cuenta gratuita de Redshift para que no me genere cargos a la tarjeta en un futuro?, ¿o se deja tal y como está y no me genera ningún pago después de terminados los dos meses de prueba y se cancela solo?

Alarcon7a

student•

Elimina el cluster de redshift cuando acabes, es lo mas seguro.

Cristhian Eduardo Ninanya Cerron

student•

Este curso es excepcional. Ofrece un equilibrio perfecto entre la presentación de conceptos clave de manera concisa y su aplicación práctica. En mi opinión, es el mejor de todos los cursos de AWS disponibles en Platzi. Es un ejemplo de cómo deberían ser todos los cursos en esta plataforma. ¡Altamente recomendado

Juan Felipe Caro Valencia

student•

Muchas gracias por el curso profesor. Explica muy bien y fue muy ameno, aprendí mucho.

Edison Javier Yepes Sanchez

teacher•

Excelente curso Carlos, Muy buen material, bien explicado y práctico. Me quedo con el COPY, las buenas prácticas en creación de tablas y los comandos para el mantenimiento del performance de la base de datos en el tiempo.

Edith Montes Polanco

student•

Muy bueno el curso y ni se diga el profesor, con muchos ejercicios y a pesar de que fue largo y algunos videos son extensos no aburre para nada.

Josue Alonso

student•

Increible curso, puede durar 20 minutos una lección pero es entretenido y no me duermo ni nada, la verdad es genial.

Daniel López Martínez

student•

Increíble curso. Es mi primer acercamiento a Redshift y no sé si se tocaron la mayoría de temas de la herramienta pero todo lo que se trabajó estuvo excelente y con buena profundidad, sobre todo por los ejemplos y ejercicios. Lo único que me gustaría que se agregara es el ingestar datos desde otros servicios de AWS, porque el copy es fantástico pero en una organización que ya esté trabajando de lleno con AWS la data puede venir de muchas otras fuentes aparte de S3; me quedé con ganas de ver esos ejemplos y si también se tienen las mismas opciones como en copy para optimizar. De los mejores cursos que he tomado en Platzi y me gustaría que con esa misma profundidad se realizaran cursos de otras herramientas de AWS, como Lambda, API Gateway, etc, y no introducción como en el resto de la ruta de AWS.

Alarcon7a

student•

muchas gracias por tus comentarios y recomendaciones, me alegro mucho que te gustara el curso.

Carlos Felipe Saldarriaga Bejarano

student•

Te agradezco por este curso, como ingeniero industrial no ha sido muy fácil ciertos aspectos de ciencias computacionales, pero cierras con broche de oro lo que nos ofrece platzi para DBs, me gustaría que a futuro tengamos retos de consultas y manejos de DBs usando todas las herramientas que nos han compartido y poder incluir mucho más.

Mayra Carolina Morataya Guerra

student•

Que genial curso!

Alarcon7a

student•

Javier Rodolfo

student•

muy buen curso, lastima que no se pueda practicar, no quiero correr el riesgo con amazon que terminen cargando costos a la tarjeta, por tanto volumen de información. aunque el profesor dice que no genera costos, pero mejor no correr riesgos.

Alarcon7a

student•

uno de los estudiantes nos dejo este comentario https://platzi.com/comentario/1722124/, de igual manera puedes ver las condiciones de uso aca https://aws.amazon.com/es/redshift/free-trial/, me gustaria que pudieras practicar lo aprendido :)

Cesar Augusto Morales Godoy

student•

Yo hice toda la parte practica del curso completa, coloqué mi TC y me cargó 1 dolar para verificar mis datos, como cualquier servicio online. y ya lo regresó! Sin miedo que hacer la práctica es lo más provechoso de este tipo de cursos! Por cierto excelente! 👍🏼

Ricardo Gamero Coronado

student•

EXCELENTE CURSO!!! que otros curso enseña ???

Alarcon7a

student•

Este mes sale un curso de redes neuronales con python y keras

Gestión de Datos y Consultas en Repsheat

Primeros pasos en la arquitectura no transaccional

Manejo de Big Data con Reptiit en Amazon AWS

Data Warehouse y Modelo Dimensional en Amazon Repsheet

Bases de Datos Columnares: Eficiencia en Consultas Analíticas

Procesamiento de Datos con Repsheet y Clústeres SQL

Configura tu entorno de trabajo para Redshift

Configuración de IAM y S3 en AWS para Repsheet

Configuración de Clúster en Amazon Repsheet para Big Data

Conexión y Configuración de Repsheet con Clientes Externos

Carga de Datos a Redshift desde Amazon S3: Paso a Paso

Cómo diseñar tu base de datos para mejorar su desempeño

Compresión de Datos en Repsheet: Algoritmos y Aplicaciones

Algoritmos de Compresión de Datos: Musley y Otros Métodos Eficientes

Compresión de Datos en SQL: Evaluación y Comparación de Algoritmos

Compresión de Datos en Repsheet: Optimización y Análisis

Algoritmos de Distribución de Datos en Repsheet

Distribución de Datos en Tablas SQL con Repsheet

Llaves de Ordenamiento en Bases de Datos: Compuesta vs. Intercalada

Pruebas de Algoritmos de Ordenamiento en SQL con AWS S3 y Redshift

Consultas SQL y Algoritmos de Ordenamiento Avanzados

Optimización de Datos en Data Warehouses con Repsheet

Manejo de Tipos de Datos en Amazon Redshift

Optimización de Bases de Datos en Modelos Dimensionales

Manipular enormes cantidades de datos

Carga Masiva de Datos en Repshit con el Comando COPY

Cargar datos JSON a Redshift usando el comando Copy

Parámetros Comunes del Comando COPY en Amazon Redshift

Carga Masiva de Datos sin Delimitador en RedSheet

Inserción de Datos en Repsheet sin Archivos Planos

Actualización Eficiente de Datos en Repsheet con Tablas Auxiliares

Optimización de Bases de Datos con Analyze y Vacuum en Repsheet

Optimización de Bases de Datos: Estadísticas y Limpieza de Tablas

Buenas prácticas para diseñar y ejecutar consultas en tu base de datos

Buenas prácticas de SQL en bases de datos columnares

Optimización de Consultas SQL con Plan de Ejecución y Llaves de Ordenamiento

Análisis de comportamiento y descarga de datos con Redshift

Exportación de Datos desde Repsheet a Amazon S3 con Unload

Tablas útiles para administración en Repsheet

Conclusiones

Gestión de Datos y Consultas en Repsheat