Optimización de Bases de Datos con Analyze y Vacuum en Repsheet

Clase 27 de 33 • Curso de AWS Redshift para Manejo de Big Data

Contenido del curso

Primeros pasos en la arquitectura no transaccional

Configura tu entorno de trabajo para Redshift

Cómo diseñar tu base de datos para mejorar su desempeño

Manipular enormes cantidades de datos

Buenas prácticas para diseñar y ejecutar consultas en tu base de datos

Análisis de comportamiento y descarga de datos con Redshift

Conclusiones

33
Gestión de Datos y Consultas en Repsheat
01:58 min

Tomar examen

Resumen

Cuando trabajas con grandes volúmenes de datos en Amazon Redshift, el rendimiento no se mantiene solo. Cada inserción, actualización o eliminación puede degradar la eficiencia de las consultas si no se ejecutan las tareas de mantenimiento adecuadas. Dos comandos fundamentales permiten conservar la salud de tu base de datos: analyze y vacuum. Comprender cuándo y cómo usarlos marca la diferencia entre un clúster ágil y uno que responde con lentitud.

¿Qué hace analyze y por qué es esencial para las consultas?

El comando analyze se encarga de actualizar las estadísticas y los metadatos internos de las tablas [0:23]. Redshift utiliza estos metadatos para determinar el mejor plan de ejecución cuando recibe una consulta compleja. Los metadatos incluyen información sobre cómo están distribuidos los datos, en qué slices se encuentran, cuántos registros contiene cada tabla y qué columnas se utilizan frecuentemente para filtros o combinaciones (joins).

Sin estadísticas actualizadas, el optimizador de consultas toma decisiones incorrectas y el rendimiento cae de forma notable. Analyze consume recursos de procesamiento, por lo que no se ejecuta con cada cambio, sino cuando los datos nuevos superan cierto porcentaje del total de la tabla [1:08].

Redshift puede ejecutar analyze de forma automática, pero también puedes controlarlo manualmente con una instrucción como:

sql SET analyze_threshold_percent TO 10;

Esto indica que la tarea de analyze se ejecutará cuando el porcentaje de datos nuevos o modificados alcance el 10 % de la tabla [1:18].

¿Cómo funciona vacuum y qué tipos existen?

El comando vacuum es la operación de limpieza y reorganización de Redshift [1:42]. Cuando eliminas registros de una tabla, estos dejan de ser visibles en las consultas, pero no se borran físicamente hasta que se ejecuta vacuum.

Existen varios modos de vacuum, cada uno con un propósito específico [2:02]:

Vacuum full: elimina permanentemente los registros borrados y libera espacio en disco.
Sort only: reordena los datos en los nodos y slices según las sort keys definidas, sin eliminar registros.
Delete only: únicamente ejecuta la limpieza de registros marcados como eliminados.
Reindex: tarea específica para tablas con ordenamiento intercalado (interleaved sort key), que redistribuye y reordena datos en cada nodo y slice [2:42]. Es una operación pesada porque la inserción en tablas con este tipo de ordenamiento es mucho más costosa.

¿Por qué los datos se desordenan después de un copy?

Cada vez que ejecutas un copy para cargar lotes de datos, los registros nuevos se colocan al final de la tabla sin respetar el orden existente [3:28]. Si tu tabla tiene una columna ordenada por ID, después de varios copies los valores quedarán intercalados y desordenados: diez, veinte, treinta, diez, veinte, treinta.

El vacuum sort resuelve esto en dos pasos [3:58]:

Primero, ordena los registros nuevos según las llaves de ordenamiento.
Luego, ejecuta un merge con la tabla original para que todos los datos queden en el orden correcto.

¿Qué impacto tiene vacuum en la disponibilidad de las tablas?

Esta operación bloquea la tabla mientras se ejecuta [4:28]. Si un proceso de ETL intenta insertar datos durante un vacuum, no podrá hacerlo. La tabla queda indisponible porque vacuum está reorganizando, moviendo datos entre nodos, borrando registros y reconstruyendo índices.

Por esta razón, es fundamental programar vacuum en ventanas de baja o nula transaccionalidad [4:48]. También puedes configurar un umbral de desorden para que se ejecute solo cuando sea necesario:

sql VACUUM SORT ONLY sales TO 85 PERCENT;

Este comando ordena la tabla sales cuando el desorden alcance el 85 % [3:12].

¿Cuándo deberías ejecutar analyze y vacuum manualmente?

Ambos comandos se ejecutan de forma automática bajo ciertas condiciones, pero hay escenarios donde conviene tomar el control:

Después de cargas masivas de datos con copy.
Tras operaciones de eliminación o actualización a gran escala.
Antes de ejecutar consultas analíticas críticas que requieran máximo rendimiento.

El equilibrio entre automatización y ejecución manual depende del volumen de cambios y la criticidad de tus consultas. Si tienes dudas sobre cómo aplicar estos comandos en tu clúster, comparte tu experiencia en los comentarios.

Comentarios

Cesar Augusto Morales Godoy

student•

Trabajar con autovacuum de PostgreSQL en Amazon RDS

Recomendamos encarecidamente que utilice la función de autovacuum para las bases de datos de PostgreSQL para mantener la salud de su instancia de base de datos de PostgreSQL. Autovacuum automatiza el inicio de los comandos VACUUM y ANALYZE. Autovacuum comprueba las tablas que han tenido una gran cantidad de tuplas insertadas, actualizadas o eliminadas. Luego, Autovacuum recupera el almacenamiento eliminando los datos obsoletos o las tuplas de la base de datos de PostgreSQL.

Autovacuum está habilitada de forma predeterminada para todas las nuevas instancias de base de datos PostgreSQL de Amazon RDS, y los parámetros de configuración de autovacuum relacionados se establecen de forma predeterminada. Debido a que nuestros valores predeterminados son algo genéricos, puede beneficiarse de ajustar los parámetros a su carga de trabajo específica. La siguiente sección puede ayudarte a realizar el ajuste de autovacuum necesario.

Mario Alexander Vargas Celis

student•

Mantener el desempeño de una base de datos, especialmente en un entorno como Amazon Redshift, requiere una combinación de diseño inicial adecuado, monitoreo continuo y optimización regular. Aquí hay estrategias clave para lograrlo:

1. Diseña correctamente las tablas

Usa estilos de distribución adecuados:
- KEY: Para tablas relacionadas mediante una clave común.
- ALL: Para tablas pequeñas referenciadas con frecuencia (dimensiones).
- EVEN: Para tablas grandes sin claves específicas.
Define claves de ordenamiento (SORTKEY):
- Optimiza consultas mediante columnas que aparecen frecuentemente en filtros (WHERE) o en ordenamientos (ORDER BY).
Aplica compresión:
- Usa el comando ANALYZE COMPRESSION para identificar los mejores algoritmos de compresión y reducir el tamaño del almacenamiento.

2. Monitorea y limpia regularmente

Ejecuta VACUUM:
- Elimina fragmentación y organiza los bloques de datos.
- Ejemplo:VACUUM FULL my_table;
Ejecuta ANALYZE:
- Actualiza las estadísticas para mejorar el desempeño del optimizador de consultas.
- Ejemplo:ANALYZE my_table;
Usa tablas temporales para actualizaciones y eliminaciones:
- Redshift no maneja eficientemente transacciones que actualizan o eliminan datos directamente. Reemplazar tablas es más rápido.

3. Optimiza consultas

Evita SELECT *:
- Selecciona solo las columnas necesarias para reducir el tamaño de los resultados.
Divide consultas complejas:
- Usa vistas materializadas o tablas intermedias para procesar datos en pasos más pequeños.
Usa índices eficientes:
- Aprovecha las claves de ordenamiento para reducir la cantidad de bloques leídos.
Revisa el plan de consultas:EXPLAIN SELECT * FROM my_table WHERE col = 'value';
- Usa EXPLAIN para entender cómo se ejecuta una consulta.

4. Administra carga y recursos

Distribuye la carga de trabajo:
- Programa tareas intensivas en momentos de baja actividad.
Cargas eficientes:
- Usa el comando COPY para cargar datos en lugar de INSERT.
- Ejemplo:COPY my_table FROM 's3://mybucket/data.csv' CREDENTIALS 'aws_access_key_id=KEY;aws_secret_access_key=SECRET' REGION 'us-west-2';
Divide cargas masivas en particiones:
- Procesa datos en bloques más pequeños para evitar tiempos de espera prolongados.

5. Escala y monitorea el clúster

Aumenta nodos si es necesario:
- Escala horizontalmente el clúster agregando nodos para manejar mayores volúmenes de datos.
Monitorea métricas clave:
- Uso de CPU, memoria y espacio en disco.
- Identifica consultas lentas usando el sistema de vistas como STL_QUERY y SVV_TABLE_INFO.

6. Automatiza y planifica el mantenimiento

Scripts automatizados:
- Usa herramientas como AWS Lambda o cron jobs para ejecutar VACUUM y ANALYZE regularmente.
Backups periódicos:
- Redshift ofrece snapshots automáticos; asegúrate de configurar el intervalo adecuado.
Actualizaciones del clúster:
- Mantén el clúster actualizado con los parches y mejoras más recientes de Redshift.

7. Usa herramientas y vistas del sistema

Vistas del sistema:
- Revisa vistas como STL_QUERY para analizar el desempeño de las consultas.
- Ejemplo:SELECT * FROM STL_QUERY WHERE userid > 1 ORDER BY starttime DESC LIMIT 10;
Monitorización con Amazon CloudWatch:
- Configura alarmas para detectar uso excesivo de recursos.

Con estas prácticas, puedes mantener una base de datos en Redshift eficiente, minimizando problemas de rendimiento y optimizando el análisis de datos.

Kelvin Alvarado

student•

¿Que herramienta me recomiendan para Control de Versión de Queries?

Alberto Gurrion

student•

Liquibase : https://www.liquibase.org/ e.g. https://sdos.es/blog/gestiona-el-versionado-de-los-scripts-de-base-de-datos-con-liquibase

Nestor Rojas

student•

Cual serial la mejor practica para realizar un vacuum en una tabla que se esta llenando concurrente mente?

Alarcon7a

student•

si son bastantes registros los que llegan (millones) es mejor una vez termine en copy hacer vaccum... de no ser asi redshift automaticamente hace vacuum cuando la base de datos tiene menos transacciones.

Sergio de Jesús Huesca Nieva

student•

todas estas caracteristicas son propias de postgress o son implementadas por redshift?

IBM tiene una base de datos llamada Netezza que tambien trabaja con postgress, ´tambien tiene distribución de información pero con otros comandos, por eso mi pregunta.

Alarcon7a

student•

el core esta basado en postgres pero si que existen diferencias, como los bloques de acceso o triggers y cosas por el estilo.

Carlos Javier Guevara Contreras

student•

Muy Interesante

Optimización de Bases de Datos con Analyze y Vacuum en Repsheet

Primeros pasos en la arquitectura no transaccional

Manejo de Big Data con Reptiit en Amazon AWS

Data Warehouse y Modelo Dimensional en Amazon Repsheet

Bases de Datos Columnares: Eficiencia en Consultas Analíticas

Procesamiento de Datos con Repsheet y Clústeres SQL

Configura tu entorno de trabajo para Redshift

Configuración de IAM y S3 en AWS para Repsheet

Configuración de Clúster en Amazon Repsheet para Big Data

Conexión y Configuración de Repsheet con Clientes Externos

Carga de Datos a Redshift desde Amazon S3: Paso a Paso

Cómo diseñar tu base de datos para mejorar su desempeño

Compresión de Datos en Repsheet: Algoritmos y Aplicaciones

Algoritmos de Compresión de Datos: Musley y Otros Métodos Eficientes

Compresión de Datos en SQL: Evaluación y Comparación de Algoritmos

Compresión de Datos en Repsheet: Optimización y Análisis

Algoritmos de Distribución de Datos en Repsheet

Distribución de Datos en Tablas SQL con Repsheet

Llaves de Ordenamiento en Bases de Datos: Compuesta vs. Intercalada

Pruebas de Algoritmos de Ordenamiento en SQL con AWS S3 y Redshift

Consultas SQL y Algoritmos de Ordenamiento Avanzados

Optimización de Datos en Data Warehouses con Repsheet

Manejo de Tipos de Datos en Amazon Redshift

Optimización de Bases de Datos en Modelos Dimensionales

Manipular enormes cantidades de datos

Carga Masiva de Datos en Repshit con el Comando COPY

Cargar datos JSON a Redshift usando el comando Copy

Parámetros Comunes del Comando COPY en Amazon Redshift

Carga Masiva de Datos sin Delimitador en RedSheet

Inserción de Datos en Repsheet sin Archivos Planos

Actualización Eficiente de Datos en Repsheet con Tablas Auxiliares