Bases de Datos Columnares: Eficiencia en Consultas Analíticas

Clase 3 de 33 • Curso de AWS Redshift para Manejo de Big Data

Contenido del curso

Primeros pasos en la arquitectura no transaccional

Configura tu entorno de trabajo para Redshift

Cómo diseñar tu base de datos para mejorar su desempeño

Manipular enormes cantidades de datos

Buenas prácticas para diseñar y ejecutar consultas en tu base de datos

Análisis de comportamiento y descarga de datos con Redshift

Conclusiones

33
Gestión de Datos y Consultas en Repsheat
01:58 min

Tomar examen

Resumen

Procesar grandes volúmenes de datos de forma rápida y eficiente es el objetivo central de las bases de datos columnares. Redshift, el servicio de Amazon, es una de las más populares en este campo, y entender su diferencia con las bases de datos tradicionales orientadas a filas es fundamental para cualquier profesional que trabaje con datos a escala.

¿Cómo almacenan los datos las bases de datos orientadas a filas?

Las bases de datos que probablemente ya conoces, como Postgres, MySQL u Oracle, son bases de datos orientadas a filas [01:00]. Su propósito es claro: procesar la lectura y escritura de filas únicas de manera rápida e íntegra. Cada fila completa se almacena en un bloque de datos en el disco duro.

Piensa en el ejemplo de un banco. Cuando un cliente retira dinero, la base de datos necesita localizar un solo registro (la tarjeta específica) y actualizar su saldo [02:02]. Esto ocurre miles de veces por segundo, y las bases de datos orientadas a filas están optimizadas exactamente para eso.

Estas bases de datos están orientadas al modelo OLTP (Online Transaction Processing) [02:50], que soporta toda la operación transaccional de un negocio, desde una startup hasta un banco.

¿Cuáles son las limitaciones para la analítica?

Aunque puedes hacer reportes sobre bases de datos orientadas a filas, existen dos problemas grandes cuando se trata de analítica [03:22]:

Los bloques de datos usualmente pesan 32 kilobytes. Si una fila pesa menos, de igual manera ocupa ese espacio, lo que genera desperdicio.
Si necesitas analizar solo dos columnas de una tabla de diez, la base de datos debe recorrer los bloques completos con las ocho columnas restantes que no necesitas.

Esto se traduce en consultas lentas e ineficientes cuando trabajas con grandes volúmenes de datos para fines analíticos.

¿Qué hace diferente a una base de datos columnar?

El cambio es conceptualmente sencillo pero poderoso: en lugar de guardar cada fila completa en un bloque, la base de datos columnar almacena columna por columna en bloques de datos independientes [04:17]. La primera columna ocupa su propio bloque, la segunda otro, y así sucesivamente.

En analítica de datos no buscas un registro específico para actualizarlo. Quieres ver cómo se comportan los datos como un todo, identificar tendencias y patrones [04:40].

¿Por qué Redshift es tan eficiente en consultas analíticas?

Redshift ocupa un megabyte por cada bloque de datos [05:04], mucho más espacio que los 32 kilobytes de las bases orientadas a filas. Esto significa que en un solo bloque puedes tener muchas más filas agrupadas de una única columna, optimizando enormemente el almacenamiento.

Además, si solo necesitas dos columnas para tu análisis, la consulta accede únicamente a esos dos bloques de datos. El resto ni siquiera se toca [05:23]. Esto se traduce en tiempos de respuesta mucho más bajos, algo que le salva la vida a cualquier data scientist.

¿Cuáles son las desventajas de las bases columnares?

Las operaciones de actualización y eliminación son un verdadero dolor de cabeza [05:52]. Un ejemplo real lo ilustra perfectamente: durante un proceso de ETL (Extract, Transform, Load) alimentando un data warehouse, se duplicó un valor en aproximadamente dos mil registros [06:15].

En una base orientada a filas, esos registros se actualizan de forma sencilla usando la llave primaria.
En la base columnar, el update no respondió después de media hora [06:55].
La solución fue eliminar los datos mal creados mediante una tabla extra y volver a cargarlos [07:16].

Esto ocurre porque para cambiar un valor en una columna hay que identificarlo a través de otra columna almacenada en un bloque completamente diferente.

¿Qué alternativas existen y por qué elegir Redshift?

Existen otras bases de datos columnares destacadas en el mercado [07:56]:

Google BigQuery: rápida y capaz de procesar grandes cantidades de datos.
Apache HBase: parte del ecosistema Hadoop, muy usada en big data.
Snowflake: ha ganado mucha fuerza en los últimos años.

Sin embargo, Redshift ofrece ventajas competitivas claras [08:18]:

Integración total con el ecosistema de Amazon: bases de datos, file servers, permisos y roles se conectan de forma nativa.
Es actualmente la base de datos más rápida y más económica en la nube [08:47].
Es compatible con cualquier cliente SQL como DBeaver o SQL Workbench [09:05], sin necesidad de aprender herramientas propietarias.

La regla es simple: las bases orientadas a filas son perfectas para OLTP y aplicaciones transaccionales, mientras que las columnares brillan en el procesamiento y la analítica de datos [07:30]. Cada una puede hacer lo que hace la otra, pero con tiempos significativamente más lentos. Elegir la herramienta correcta marca toda la diferencia en tu arquitectura de datos.

Comentarios

Isay Humberto Lucas Hernandez

student•

Con el ejemplo que el profesor menciona en el minuto 8:20 sobre la diferencia de tiempo en realizar un UPDATE en una base de datos relacional y una base de datos columnar se puede apreciar la diferencia ABISMAL que hay entre los objetivos específicos para los que fueron diseñadas cada una de estas.

Base de datos relacional: Orientada a la alta transaccionalidad
Base de datos columnas: Orientada a la analítica

Sergio de Jesús Huesca Nieva

student•

Debe ser una analítica ya bien definida pues si andan haciendo pruebas y piden actualizar unos datos por que se vio que el calculo no es el correcto, va a ser un dolor de cabeza

Ricardo Mazuera

student•

Bases de datos columnares y arquitectura orientada a optimización de consultas

¿Qué es una base de datos columnar?

Redshift es una de ellas. Es una BD optimizada para lograr una recuperación rápida de columnas de datos, normalmente en aplicaciones analíticas, esto permite procesar queries complejos de una manera óptima

Base de datos basadas en filas: Enfocados en la transaccionalidad y en la lectura y escritura rápida de filas únicas.
- Están enfocadas en OLTP (Transacciones Online) y están pensadas para la lectura rápida de filas únicas.
- Un registro a cada bloque de datos (pueden ser mas)
- Una consulta a una tabla de 10 columnas de las cuales solo requiero 2, leería las 8 innecesarias también
Base de datos basadas en columnas: Procesan grandes cantidades de información, se encuentran optimizadas para procesos de analítica.
- Sus registros se guardan columna a columna en el bloque de datos.
- Excelentes para aplicaciones de analítica
- En redshift cada columna se almacena en bloques de 1MB
- Una consulta a una tabla de 10 columnas de las cuales solo requiero 2, leería únicamente las 2 necesarias. . Desventajas:
- Si tengo items duplicados que debo modificar o eliminar es un dolor de cabeza porque toca reemplazarlas con otra tabla. . Las base de datos orientadas a filas son perfectas para las aplicaciones OLTP y las orientadas a columnas son perfectas para el análisis de datos y el procesamiento de datos. .

Bases de datos columnares

Beneficios de usar Redshift

💡 Características Redshift:

Integración total con AWS
La base de datos más rápida en la nube
Los costos más bajos en la nube
Alta escalabilidad
Clientes SQL

Usuario anónimo

user•

Amazon Redshift es un servicio de almacén de datos completamente administrado, empresarial y de varios petabytes.

Esta guía se centra en el uso de Amazon Redshift para crear y administrar un data warehouse. Si trabaja con bases de datos como diseñador, desarrollador de software o administrador, le proporciona la información que necesita para diseñar, desarrollar, hacer consultas y mantener el data warehouse.

Martin Jurado

company_admin•

Cassandra es igual una base de datos columnar, es de la familia Apache, por lo regular he visto mucho de estas arquitecturas implementadas en varias industrias en ambientes On-premise y para eventos casi en real-time, dicha arquitectura vive en un ambiente distribuido.

Mario Chavez

student•

Las bases de datos columnares se parecen a la estructura de los DataFrames de Pandas, supongo que tiene sentido porque Pandas esta orientado al análisis de información.

Carlos Javier Guevara Contreras

student•

Base de datos columnar Mientras que la mayoría de las bases de datos distribuyen la información en filas, las bases de datos columnares funcionan de la manera contraria: los datos se distribuyen en columnas. ¿Por qué se hace esto? En el siguiente artículo descubrirás las ventajas de las bases de datos conocidas como columnar databases.

¿Cómo están estructuradas las bases de datos columnares? En general, las bases de datos se orientan a filas. El sistema de gestión de base de datos (SGBD) crea una línea para cada entrada. Los campos con la información se listan uno tras otro. Un ejemplo clásico lo encontramos en las bases de datos relacionales. Las bases de datos columnares hacen lo contrario: por cada entrada, hay una columna, por lo tanto, los datos de cada entrada están dispuestos uno debajo del otro (y no uno al lado del otro, como en la variante orientada a filas).

Ámbitos de aplicación de las bases de datos columnares Los sistemas relacionales basados en líneas se utilizan sobre todo cuando hay que realizar muchas transacciones rápidamente. Escribir, cambiar, borrar entradas: todo esto funciona muy bien con bases de datos relacionales. Las bases de datos columnares se utilizan cuando hay que analizar grandes cantidades de datos.

En muchos campos de aplicación (por ejemplo, pero no exclusivamente, en la investigación) los datos pasan por evaluaciones continuas. Esto es mucho más rápido con sistemas basados en columnas: la razón de esto es que se requiere acceder menosal disco duro. Los datos de una categoría se almacenan muy próximos entre sí. Si se desea leer y evaluar un registro de datos, basta con cargar un bloque; no es necesario leer la base de datos completa.

Ventajas y desventajas de la base de datos columnar Las bases de datos columnares hacen alarde de sus ventajas cuando se deben realizar operaciones de evaluación de grandes volúmenes de datos –big data. Dado que el acceso al disco duro suele ser el cuello de botella en la lectura de cualquier base de datos y el acceso a una base de datos columnar es más eficiente, es aquí donde radica la mayor ventaja de la variante basada en columnas.

Sin embargo, en las aplicaciones transaccionales los accesos son diferentes en la mayoría de los casos: aquí, los datos nuevos se deben distribuir a través de toda la base de datos. En esta tarea, una base de datos orientada a columnas sería más lenta que el modelo clásico.

Otra ventaja de las bases de datos columnares es la posibilidad de compresión. Los datos de una columna son siempre del mismo tipo, por ejemplo, una cadena o un entero. Como todas las entradas de un tipo están próximas entre sí, se pueden comprimir de forma más eficiente.

JAVIER SANTIAGO SALGADO

student•

Documentacion DBeaver

Giovany samaca

student•

hola me encantaría saber desde cuántos registros o desde cuanto tamaño en memoria comienza a ser bigdata?

Alarcon7a

student•

muchas personas hablan de 5 teras... pero debe contar con las 5 V del big data

Volumen
Velocidad
Variedad
Veracidad
Valor

Macarena Igoillo

student•

Entiendo que el data Warehouse se usaría en casos donde tengo más de una base de datos, para poder analizar todo en conjunto. Ahora, mi duda es, si tengo un negocio con una única base de datos, es posible realizar la analítica (Explotación de datos) directamente sobre esta BD sin tener que realizar un DW ? En caso de que no, cuáles serían los motivos? Porque no logro de cerrar esa idea.

Muchas gracias,

Saludos.

Alarcon7a

student•

Si es posible, lo que si hay que tener en cuenta es que si son muchos datos y muchas agregaciones es mejor ir a una base de datos columnar

Luis Oscar Jaramillo

student•

Excelente clase, se entiende por completo todo, me hubiera gustado que se usara sqlworkbench porque es el que mejor manejo, pero no importa, igual se aprende el otro sistema

Mario Alexander Vargas Celis

student•

Bases de Datos Columnares

Las bases de datos columnares están diseñadas para manejar eficientemente grandes volúmenes de datos en columnas en lugar de filas. A diferencia de las bases de datos tradicionales orientadas a filas, las columnares almacenan y procesan datos de forma optimizada por columnas, lo que permite:

Optimización en consultas analíticas: Las bases de datos columnares están especialmente optimizadas para consultas analíticas, ya que permiten realizar operaciones sobre columnas específicas, lo que reduce la cantidad de datos leídos y procesados.
Eficiencia en almacenamiento: Almacenamiento más eficiente debido a la compresión columnar, lo que resulta en un menor uso de disco y una mejor utilización de recursos.
Mejora del rendimiento en lecturas: Son ideales para consultas de agregación, sumas, promedios, y otros cálculos que operan en grandes conjuntos de datos.

Arquitectura Orientada a Optimización de Consultas

La arquitectura orientada a la optimización de consultas es un diseño de bases de datos que prioriza el rendimiento en la ejecución de consultas. Esta arquitectura incluye varios componentes clave:

Indexación Avanzada: Utilización de índices específicos para acelerar las búsquedas y filtrados.
Técnicas de particionado: División de grandes conjuntos de datos en particiones más pequeñas para acelerar consultas específicas.
Caché: Almacenamiento temporal de resultados para consultas repetidas, reduciendo el tiempo de acceso a los datos.
Optimización de Consulta: Técnicas como predicción de índices, agrupamiento de datos y ejecución paralela para mejorar el rendimiento.
Compresión y almacenamiento eficiente: Reducción del espacio ocupado por los datos mediante técnicas avanzadas de almacenamiento, tanto físicas como lógico-físicas.

En conjunto, estas características ayudan a optimizar el rendimiento de las bases de datos y a satisfacer demandas de procesamiento masivo de datos.

Manuel Sosa

student•

😍😍

Gerardo Andrés Cabrera Medina

student•

Excelente la explicacion, muy buna presentacion

Bases de Datos Columnares: Eficiencia en Consultas Analíticas

Primeros pasos en la arquitectura no transaccional

Manejo de Big Data con Reptiit en Amazon AWS

Data Warehouse y Modelo Dimensional en Amazon Repsheet