Inserción de Datos en Repsheet sin Archivos Planos

Clase 25 de 33 • Curso de AWS Redshift para Manejo de Big Data

Contenido del curso

Primeros pasos en la arquitectura no transaccional

Configura tu entorno de trabajo para Redshift

Cómo diseñar tu base de datos para mejorar su desempeño

Manipular enormes cantidades de datos

Buenas prácticas para diseñar y ejecutar consultas en tu base de datos

Análisis de comportamiento y descarga de datos con Redshift

Conclusiones

33
Gestión de Datos y Consultas en Repsheat
01:58 min

Tomar examen

Resumen

Cuando no tienes acceso a un bucket de S3 ni dispones de archivos planos, el comando Copy deja de ser una opción viable para cargar datos en Amazon Redshift. Sin embargo, existen métodos alternativos que, aunque no alcanzan la eficiencia del Copy, permiten poblar tus tablas sin consumir recursos excesivos. Conocer estas técnicas te da flexibilidad para resolver escenarios reales donde la fuente de datos no se ajusta al flujo ideal.

¿Cómo insertar múltiples filas con un solo INSERT en Redshift?

El INSERT funciona en Redshift igual que en una base de datos transaccional, pero con una restricción fundamental: nunca debes ejecutar un insert por cada fila individual. Hacer inserciones fila por fila destruye el rendimiento de bases de datos orientadas a columnas, al punto de que pueden dejar de responder [01:17].

La práctica correcta es realizar inserciones por lotes dentro de una sola instrucción. La sintaxis agrupa varios conjuntos de valores separados por comas:

sql INSERT INTO estudiante VALUES (5, 'Brandon', 'Huertas', 24, '2020-01-01'), (6, 'Cristian', 'Salas', 30, '2020-01-01'), (7, 'Holman', 'Campos', 30, '2020-01-01'), (8, 'Natalia', 'Montenegro', 30, '2020-01-01');

De esta manera, Redshift aprovecha mejor su capacidad de multiproceso y procesa toda la carga como una sola tarea [02:24]. Aunque el ejemplo utiliza pocos registros, el principio aplica para volúmenes mayores:

Agrupa tus datos en un único INSERT con múltiples valores.
Evita ejecutar un INSERT por cada registro.
Recuerda que este método es viable cuando no tienes archivos planos ni acceso al bucket.

¿Qué es el bulk select insert y cuándo conviene usarlo?

El bulk select insert es una técnica que permite poblar una tabla nueva a partir de datos que ya existen dentro de Redshift. Resulta un poco paradójico porque requiere que los datos ya estén cargados, pero es extremadamente útil para crear tablas orientadas a analítica [03:04].

Su funcionamiento combina un CREATE TABLE con un query que resuelve joins, funciones de agrupamiento y transformaciones:

sql CREATE TABLE total_price_by_event AS SELECT e.eventname, e.starttime, SUM(s.pricepaid) AS price_paid, SUM(s.commission) AS commission FROM sales s INNER JOIN event e ON s.eventid = e.eventid GROUP BY e.eventname, e.starttime;

Este proceso es bastante rápido porque Redshift utiliza su arquitectura paralelizada para resolver el query e insertar los resultados en una sola operación [04:25]. El resultado es una tabla consolidada donde, por ejemplo, puedes ver por cada evento cuándo empezó, cuánto recaudó por precio y por comisión.

¿Qué ventajas ofrece el deep copy en Redshift?

El deep copy es una estrategia que combina varias instrucciones para reemplazar una tabla sin que los usuarios noten el cambio. El flujo completo sigue estos pasos [05:05]:

Crear una tabla espejo con la misma estructura usando CREATE TABLE like_sales (LIKE sales).
Copiar los datos con INSERT INTO like_sales SELECT * FROM sales.
Eliminar la tabla original con DROP TABLE sales.
Renombrar la tabla espejo con ALTER TABLE like_sales RENAME TO sales.

Este patrón es especialmente poderoso cuando necesitas optimizar el esquema de una tabla existente. Puedes cargar los datos crudos, analizar la compresión, crear una nueva tabla con mejores configuraciones, trasladar los datos y renombrarla. Para los usuarios finales, la tabla sales sigue existiendo como si nada hubiera cambiado [05:50].

Todo el proceso aprovecha el paralelismo de Redshift, lo que lo hace rápido y efectivo.

¿Cuál es la mejor práctica para cargar datos?

Siempre que sea posible, el comando Copy sigue siendo la opción superior. Las alternativas que vimos son válidas y resuelven escenarios específicos:

INSERT por lotes: cuando no tienes archivos planos ni acceso a S3.
Bulk select insert: cuando necesitas crear tablas analíticas a partir de datos existentes.
Deep copy: cuando requieres reestructurar o mejorar la configuración de una tabla sin afectar a los consumidores.

Si tienes dudas sobre tiempos de carga, parámetros adicionales del Copy o cualquiera de estos métodos, comparte tus preguntas en los comentarios.

Mario Alexander Vargas Celis

student•

Métodos de Carga Alternativos al Comando COPY en Amazon Redshift

Aunque el comando COPY es el método más eficiente para cargar datos en Amazon Redshift, existen alternativas que pueden ser útiles según el caso de uso, el volumen de datos o las herramientas disponibles.

1. INSERT Statements

El método más básico para insertar datos en Amazon Redshift.

Uso

INSERT INTO table_name (column1, column2, ...) VALUES ('value1', 'value2', ...), ('value3', 'value4', ...);

Ventajas

Sencillo para cargas pequeñas o pruebas rápidas.
Útil para datos generados dinámicamente.

Desventajas

Lento para grandes volúmenes de datos.
No aprovecha las optimizaciones internas de Redshift para cargas masivas.

2. Amazon Redshift Data API

Permite interactuar con Redshift sin necesidad de un cliente o controlador JDBC/ODBC.

Uso

La API acepta comandos SQL, incluidos INSERT y COPY, desde aplicaciones modernas.

Ventajas

Ideal para aplicaciones serverless o sin infraestructura fija.
Puede integrarse con herramientas como AWS Lambda.

Desventajas

Menos eficiente que COPY para cargas masivas.

3. AWS Glue

AWS Glue puede usarse para preparar y cargar datos en Amazon Redshift.

Proceso

Configurar un catálogo de datos en Glue.
Crear y ejecutar un trabajo de ETL (Extract, Transform, Load) en Glue.
Escribir los datos transformados directamente en una tabla de Redshift.

Ventajas

Excelente para transformar y cargar datos complejos.
Automático y escalable.

Desventajas

Configuración inicial más compleja.
Puede ser más lento que COPY si no se optimiza.

4. Redshift Spectrum

Carga datos directamente desde S3 sin necesidad de moverlos a Redshift, ideal para análisis en datos no estructurados.

Uso

Crea una tabla externa vinculada a un bucket de S3:

CREATE EXTERNAL TABLE schema_name.table_name ( column1 data_type, column2 data_type ) STORED AS file_format LOCATION 's3://bucket_name/';

Ventajas

Permite trabajar directamente con grandes volúmenes de datos en S3.
No es necesario cargar los datos físicamente a Redshift.

Desventajas

Las consultas pueden ser más lentas que con tablas internas.
Requiere AWS Glue para definir el catálogo.

5. Amazon Kinesis Data Firehose

Envía flujos de datos en tiempo real a Amazon Redshift.

Proceso

Configura una entrega de datos en Kinesis Data Firehose con destino a Redshift.
Proporciona las credenciales y la tabla de destino.

Ventajas

Ideal para cargas en tiempo real.
Automatiza la ingesta de datos.

Desventajas

No es adecuado para grandes volúmenes de datos históricos.
Configuración más avanzada.

6. Herramientas de ETL Externas

Herramientas de terceros como Informatica, Talend, Matillion, o Pentaho pueden integrarse con Redshift para cargar datos.

Ventajas

Interfaces gráficas fáciles de usar.
Funciones avanzadas de transformación.

Desventajas

Licencias y costos adicionales.
Menor control sobre la optimización.

7. Unload/Load desde y hacia Amazon S3

Se utiliza para mover datos entre tablas de Redshift o entre clústeres.

Proceso

Exporta los datos desde Redshift a S3 con UNLOAD.UNLOAD ('SELECT * FROM table_name') TO 's3://bucket_name/prefix' CREDENTIALS 'aws_iam_role=arn:aws:iam::123456789012:role/MyRole' PARALLEL ON;
Carga los datos en otra tabla o clúster usando COPY.

Ventajas

Ideal para migraciones o copias entre entornos.
Mantiene la eficiencia del comando COPY.

Desventajas

Requiere espacio en S3 para datos temporales.
Puede ser más lento que COPY directo.

8. Federated Queries

Permite cargar datos desde bases de datos externas como RDS o Aurora directamente a Redshift.

Uso

Define una fuente de datos externa y utiliza consultas SQL para cargar los datos:

CREATE EXTERNAL SCHEMA ext_schema FROM POSTGRES DATABASE 'db_name' URI 'jdbc:postgresql://host:port' IAM_ROLE 'arn:aws:iam::123456789012:role/MyRole';

Ventajas

No es necesario extraer datos manualmente.
Reduce la duplicación de datos.

Desventajas

Las consultas federadas pueden ser más lentas que el uso de COPY.

Conclusión

Volúmenes grandes y cargas masivas: El comando COPY sigue siendo el más eficiente.
Datos en tiempo real: Kinesis Data Firehose es la mejor opción.
Transformación compleja de datos: AWS Glue o herramientas de ETL externas.
Análisis directo en S3: Redshift Spectrum.

Elegir el método adecuado depende de las necesidades específicas, la infraestructura existente y los requisitos de transformación y velocidad.

Inserción de Datos en Repsheet sin Archivos Planos

Primeros pasos en la arquitectura no transaccional

Manejo de Big Data con Reptiit en Amazon AWS

Data Warehouse y Modelo Dimensional en Amazon Repsheet

Bases de Datos Columnares: Eficiencia en Consultas Analíticas

Procesamiento de Datos con Repsheet y Clústeres SQL

Configura tu entorno de trabajo para Redshift

Configuración de IAM y S3 en AWS para Repsheet

Configuración de Clúster en Amazon Repsheet para Big Data

Conexión y Configuración de Repsheet con Clientes Externos

Carga de Datos a Redshift desde Amazon S3: Paso a Paso

Cómo diseñar tu base de datos para mejorar su desempeño

Compresión de Datos en Repsheet: Algoritmos y Aplicaciones

Algoritmos de Compresión de Datos: Musley y Otros Métodos Eficientes

Compresión de Datos en SQL: Evaluación y Comparación de Algoritmos

Compresión de Datos en Repsheet: Optimización y Análisis

Algoritmos de Distribución de Datos en Repsheet

Distribución de Datos en Tablas SQL con Repsheet

Llaves de Ordenamiento en Bases de Datos: Compuesta vs. Intercalada

Pruebas de Algoritmos de Ordenamiento en SQL con AWS S3 y Redshift

Consultas SQL y Algoritmos de Ordenamiento Avanzados

Optimización de Datos en Data Warehouses con Repsheet

Manejo de Tipos de Datos en Amazon Redshift

Optimización de Bases de Datos en Modelos Dimensionales

Manipular enormes cantidades de datos

Carga Masiva de Datos en Repshit con el Comando COPY

Cargar datos JSON a Redshift usando el comando Copy

Parámetros Comunes del Comando COPY en Amazon Redshift

Carga Masiva de Datos sin Delimitador en RedSheet