Tipos de tablas en Hiperescala y su distribución eficiente

Clase 11 de 18 • Curso de Bases de Datos en Azure

Resumen

¿Cuáles son los tipos de tablas disponibles en Hiperescala?

Para gestionar grandes volúmenes de datos, Hiperescala ofrece tres tipos de tablas: distribuidas, de referencia y locales. Cada una tiene un propósito y características específicas para optimizar la gestión y consulta de datos en sistemas complejos. Profundicemos en cada tipo.

¿Qué características tienen las tablas distribuidas?

Las tablas distribuidas son esenciales para almacenar grandes cantidades de información, generalmente superiores a diez gigabytes. Son fragmentadas, lo que significa que sus datos se distribuyen en diferentes partes de la base de datos. Este enfoque es común en soluciones analíticas, donde se denominan tablas de hechos. El diseño de estas tablas requiere especial atención para elegir correctamente la forma de distribución y fragmentación, garantizando así la eficiencia de las consultas.

¿Cómo funcionan las tablas de referencia?

Contrario a las distribuidas, las tablas de referencia son más pequeñas, usualmente ocupan menos de diez gigabytes. Su particularidad radica en que sus datos se replican en todos los nodos del sistema, facilitando así las consultas entre tablas fragmentadas y tablas de referencia. En el contexto de una bodega de datos desplegada en Hiperescala, a menudo aparecen como tablas de dimensiones. Es crucial controlar su tamaño, pues al superar los diez gigabytes deberían tratarse como tablas fragmentadas.

¿Cuál es el propósito de las tablas locales?

Las tablas locales se utilizan principalmente para la administración interna. Almacenan metadatos de Hiperescala y son accesibles desde el nodo coordinador. Normalmente, no se cruzan con tablas de referencia o distribuidas. Este tipo de tablas es esencial para optimizar el procesamiento de consultas en Hiperescala, permitiendo incluso la paralelización para maximizar el uso de múltiples nodos de cálculo.

¿Qué es la coubicación en Hiperescala y por qué es importante?

La coubicación es un concepto clave para optimizar consultas en bases de datos Hiperescala. Implica almacenar datos relacionados dentro de la misma ubicación o nodo. El objetivo es asegurar que, al realizar consultas, cada nodo maneje solo los datos necesarios sin depender de otros nodos. Esto permite que las consultas sean más rápidas y eficientes, ya que reduce la necesidad de intercambio de información entre nodos.

¿Cuáles son los tipos de distribución de tablas disponibles?

Elegir el tipo de distribución adecuado para las tablas es fundamental para maximizar las capacidades de Hiperescala. Veamos los tipos principales:

¿Cómo se distribuyen las tablas por identificador?

Este método permite dividir los datos de las tablas a partir de un identificador. Así, los datos se reparten equitativamente entre todos los nodos disponibles. Al hacer consultas, se consulta cada nodo individualmente y luego se integran los resultados. Esta distribución es útil para garantizar que el procesamiento esté igualmente distribuido.

¿Qué implica la distribución de tablas por inquilino o multitenant?

La distribución por inquilino asegura que toda la información relacionada de un nodo se almacene conjuntamente. Esto no solo facilita la comunicación dentro del nodo, sino que también permite obtener rápidamente los resultados de las consultas, ya que no es necesario intercambiar información con otros nodos.

¿Cómo configurar un servidor de Hiperescala en Azure?

Configurar un servidor de Hiperescala en Azure es un procedimiento simple que permite aprovechar al máximo las capacidades de procesamiento de datos.

¿Cuáles son los pasos para crear un servidor de Hiperescala?

Crear recurso: Acceda al menú de Azure y seleccione Azure Database for PostgreSQL.
Configurar características: Elija las configuraciones necesarias, incluyendo la suscripción y el grupo de recursos.
Ajustar nodos: Seleccione el número de nodos y la configuración según las necesidades de transaccionalidad.
Revisar configuraciones: Verifique las configuraciones y ajuste el firewall para definir accesos.
Desplegar servidor: Con todas las configuraciones comprobadas, proceda a crear el recurso.

¿Qué consideraciones tener al configurar un servidor Hiperescala?

Capacidad de nodos: Empiece con una configuración mínima y ajuste según las necesidades.
Uso de características Preview: Estas deben utilizarse solo en ambientes de desarrollo o pruebas, no en producción.
Requerimientos de procesamiento: Evalúe si un servidor simple puede satisfacer las necesidades antes de optar por Hiperescala.

Hiperescala es una solución poderosa, pero requiere una cuidadosa planificación y diseño para aprovechar al máximo su capacidad de procesamiento. Conocer las características de las tablas, entender la importancia de la coubicación y elegir la correcta estrategia de distribución son claves para maximizar sus beneficios.