Optimización de Bases de Datos: Estadísticas y Limpieza de Tablas

Clase 28 de 33 • Curso de AWS Redshift para Manejo de Big Data

Contenido del curso

Primeros pasos en la arquitectura no transaccional

Configura tu entorno de trabajo para Redshift

Cómo diseñar tu base de datos para mejorar su desempeño

Manipular enormes cantidades de datos

Buenas prácticas para diseñar y ejecutar consultas en tu base de datos

Análisis de comportamiento y descarga de datos con Redshift

Conclusiones

33
Gestión de Datos y Consultas en Repsheat
01:58 min

Tomar examen

Resumen

Mantener las estadísticas al día y las tablas limpias es fundamental para que tus consultas en Amazon Redshift respondan con velocidad. Conocer los comandos ANALYZE y VACUUM te permite controlar directamente el rendimiento de tu base de datos, ya sea de forma manual o complementando lo que Redshift hace de manera automática.

¿Cómo funciona el comando analyze en Redshift?

Antes de ejecutar el comando, conviene revisar el estado actual de las estadísticas. Para ello existe la tabla interna pg_statistic_indicator [0:20], que muestra cuántas filas tenía una tabla cuando se corrieron las últimas estadísticas, cuántas filas nuevas se insertaron y cuántas se eliminaron desde ese momento.

Para ubicar el identificador de una tabla específica puedes apoyarte en stv_tbl_perm [0:33], filtrando por el nombre de la tabla. Una vez localizado el ID, consultas pg_statistic_indicator y obtienes un panorama claro de los cambios pendientes de analizar.

¿De qué formas puedo ejecutar analyze?

El comando ANALYZE admite tres modalidades [1:16]:

Por columnas específicas: útil cuando sabes exactamente qué columnas cambiaron tras un COPY o un UPDATE. Ejemplo: ANALYZE sales(pricebyte, salesid);.
Por predicate columns: Redshift identifica automáticamente las columnas que suelen aparecer en cláusulas WHERE. Con ANALYZE sales PREDICATE COLUMNS; actualizas solo esas estadísticas [1:55].
Análisis completo de la tabla: simplemente ejecutas ANALYZE sales; y se recalculan todas las estadísticas [2:12].

Puedes correrlo manualmente cuando lo necesites, aunque lo recomendable es dejarlo en automático o programarlo en ventanas de baja transaccionalidad.

¿Cómo revisar el historial de análisis con stl_analyze?

La tabla STL_Analyze [2:30] guarda un log completo de cada análisis ejecutado. Incluye si fue un análisis full, cuántas columnas se actualizaron, el porcentaje bajo el cual se realizó y un campo llamado is_background: cuando es true, significa que lo ejecutó Redshift automáticamente; cuando es false, fue una ejecución manual del usuario [3:15].

Esta información resulta valiosa para auditar cuándo y cómo se actualizaron las estadísticas de cada tabla. Además, el comando ANALYZE alimenta directamente al explain plan, una herramienta que verás más adelante y que define cómo Redshift resuelve queries complejos basándose en esas estadísticas.

¿Qué hace el comando vacuum y cuándo usarlo?

El comando VACUUM se encarga de la limpieza física de las tablas: elimina marcas de registros borrados y reordena los datos según la sort key definida [3:48].

Para saber si una tabla necesita limpieza, consulta SVV_TABLE_INFO [4:00]. Las columnas más relevantes son:

unsorted: porcentaje de datos desordenados.
vacuum_sort_benefit: beneficio estimado de ejecutar un vacuum de ordenamiento.

Si una tabla muestra un 50 % desordenado, como ocurre con la tabla users en el ejemplo [4:30], vale la pena ejecutar la operación.

¿Qué tipos de vacuum existen?

Puedes elegir entre varias modalidades según la necesidad [4:50]:

VACUUM sales: operación general de limpieza.
VACUUM SORT ONLY sales TO 75 PERCENT: reordena la tabla solo si al menos el 75 % ya está ordenado; el porcentaje restante es lo que se encuentra desordenado.
VACUUM DELETE ONLY sales: elimina exclusivamente las filas marcadas como borradas tras operaciones DELETE.
VACUUM REINDEX sales: reconstruye los índices intercalados. Esta operación solo funciona en tablas con ordenamiento intercalado (interleaved sort key) [5:30].

El VACUUM REINDEX falla si la tabla no usa ese tipo de ordenamiento. Además, es una operación costosa en tiempo y recursos: depende de la cantidad de datos y del número de nodos del clúster [5:45].

¿Cuál es el costo real del ordenamiento intercalado?

El interleaved sort key ofrece excelentes resultados en consultas, pero implica sacrificios importantes [6:00]:

Mayor tiempo en operaciones de inserción.
Necesidad de ejecutar VACUUM REINDEX periódicamente para mantener el rendimiento.

Si tu tabla recibe inserciones o copies con mucha frecuencia, tendrás que planificar ventanas de mantenimiento para esta operación.

¿Quién debería ejecutar estas tareas?

Depende del rol dentro del equipo [6:25]. Un DBA (database administrator) suele encargarse de mantener estadísticas y limpieza de forma rutinaria. Si eres desarrollador, quizá no lo ejecutes directamente, pero conviene que lo tengas presente: cuando tus queries pierdan rendimiento sin razón aparente, puedes solicitar una actualización de estadísticas o una limpieza de tablas específicas.

Si te quedaron dudas sobre cuándo aplicar cada tipo de vacuum o cómo interpretar las tablas de estadísticas, comparte tus preguntas en los comentarios.

Comentarios

Mayra Carolina Morataya Guerra

student•

Les comparto los querys:

SELECT *
FROM pg_statistic_indicator
WHERE stairelid = (SELECT DISTINCT id
FROM stv_tbl_perm
WHERE name = 'sales');

SELECT *
FROM pg_table_def
WHERE tablename = 'sales';

analyze sales(salesid, pricepaid);
analyze sales predicate columns;
analyze sales;

SELECT *
FROM stl_analyze;

--Vaccum
SELECT "table", unsorted, vacuum_sort_benefit
FROM svv_table_info;

vacuum sales;
vacuum sort only sales to 75 percent;
vacuum delete only sales to 75 percent;
vacuum reindex sales;

JAVIER SANTIAGO SALGADO

student•

---- Analyze

SELECT * FROM pg_catalog.pg_statistic_indicator;

SELECT * FROM stv_tbl_perm
WHERE name = 'sales'; --101656

SELECT * FROM pg_catalog.pg_statistic_indicator
WHERE stairelid = 101656;

SELECT * FROM pg_catalog.pg_table_def 
WHERE tablename = 'sales';

ANALYZE sales(salesid ,pricepaid);

ANALYZE sales predicate columns;

ANALYZE sales;

SELECT * FROM pg_catalog.stl_analyze;

-----Vacuum

SELECT * FROM svv_table_info;

SELECT "table", unsorted, vacuum_sort_benefit FROM svv_table_info;

VACUUM sales;
VACUUM sort ONLY sales TO 75 PERCENT;
VACUUM DELETE ONLY sales TO 75 PERCENT;
VACUUM reindex sales; -- solo intercalado

Mario Alexander Vargas Celis

student•

Para realizar estadísticas y limpieza en tablas de bases de datos como Redshift, es importante seguir algunos pasos clave. Aquí algunos consejos:

1. Actualización de estadísticas:

Refrescar estadísticas: En Redshift, las estadísticas deben mantenerse actualizadas para que las consultas sean eficientes. Puedes actualizar las estadísticas manualmente o configurar un trabajo automatizado para hacerlo regularmente.ANALYZE TABLE nombre_tabla;
Parámetro relevante:
- autovacuum y vacuum: Mantener una buena gestión de estos parámetros ayuda a mantener las estadísticas y la limpieza de datos.

2. Limpieza de datos:

Eliminar datos antiguos o redundantes:DELETE FROM nombre_tabla WHERE fecha_columna < 'fecha_limite';
Optimización de almacenamiento:VACUUM nombre_tabla;
- Evaluar el uso de compresión y distribución para reducir el tamaño de las tablas.
- Usar vacuum para liberar espacio ocupado por datos eliminados.

3. Optimización de rendimiento:

Revisar y ajustar las distribuciones de las tablas según su uso.
Verificar el uso de índices y optimizar las claves.

Si necesitas más detalles sobre cómo implementar estos procesos, ¡hazmelo saber!

Alfonso Rodrigo Feria Cruz

student•

Hola, tengo una duda, cuando hacemos alter de la llave de distribución y llave de ordenamiento, es recomendable aplicar este comando de limpieza ?

Alarcon7a

student•

Si, al realizar este cambio, la distribucion de nuestros datos no es inmediata, es mejor hacer la limpieza para que se organice como debe ser, usualmente este proceso es automatico en redshift en los momentos de menos uso en el cluster.

Orlando Murcia Perdomo

student•

Hola profe tengo una duda estaba estudiando el tema de las tablas 'PG' pero increíblemente ahora no puedo consultar gran parte de ellas porque al parecer la tabla 'pg_class_extended' se dañó algúna idea del por qué y cómo repararla ?

Alarcon7a

student•

Qué error te sale ???

Carlos Javier Guevara Contreras

student•

Muy Util

Optimización de Bases de Datos: Estadísticas y Limpieza de Tablas

Primeros pasos en la arquitectura no transaccional

Manejo de Big Data con Reptiit en Amazon AWS

Data Warehouse y Modelo Dimensional en Amazon Repsheet

Bases de Datos Columnares: Eficiencia en Consultas Analíticas

Procesamiento de Datos con Repsheet y Clústeres SQL

Configura tu entorno de trabajo para Redshift

Configuración de IAM y S3 en AWS para Repsheet

Configuración de Clúster en Amazon Repsheet para Big Data

Conexión y Configuración de Repsheet con Clientes Externos

Carga de Datos a Redshift desde Amazon S3: Paso a Paso

Cómo diseñar tu base de datos para mejorar su desempeño

Compresión de Datos en Repsheet: Algoritmos y Aplicaciones

Algoritmos de Compresión de Datos: Musley y Otros Métodos Eficientes

Compresión de Datos en SQL: Evaluación y Comparación de Algoritmos

Compresión de Datos en Repsheet: Optimización y Análisis

Algoritmos de Distribución de Datos en Repsheet

Distribución de Datos en Tablas SQL con Repsheet

Llaves de Ordenamiento en Bases de Datos: Compuesta vs. Intercalada

Pruebas de Algoritmos de Ordenamiento en SQL con AWS S3 y Redshift

Consultas SQL y Algoritmos de Ordenamiento Avanzados

Optimización de Datos en Data Warehouses con Repsheet

Manejo de Tipos de Datos en Amazon Redshift

Optimización de Bases de Datos en Modelos Dimensionales

Manipular enormes cantidades de datos

Carga Masiva de Datos en Repshit con el Comando COPY

Cargar datos JSON a Redshift usando el comando Copy

Parámetros Comunes del Comando COPY en Amazon Redshift

Carga Masiva de Datos sin Delimitador en RedSheet

Inserción de Datos en Repsheet sin Archivos Planos

Actualización Eficiente de Datos en Repsheet con Tablas Auxiliares

Optimización de Bases de Datos con Analyze y Vacuum en Repsheet