Construcción de un Data Lakehouse con Google BigQuery
Clase 35 de 48 • Entrenamiento de Google Cloud Platform
Resumen
¿Qué es un repositorio de datos moderno y cómo ayuda Google a implementarlo?
Los repositorios de datos modernos, como el Google BigQuery, son una innovación imprescindible en el mundo de los datos. Estos sistemas permiten consolidar información de múltiples fuentes, ofreciendo una vista 360 del cliente y permitiendo lanzamientos efectivos como "next best action" y ofertas personalizadas. Además, estos repositorios están diseñados para procesar datos en tiempo real y ofrecer características avanzadas de seguridad y gobernanza.
¿Qué características hacen único a BigQuery?
BigQuery no es un simple data warehouse, sino que se destaca como un data lakehouse por sus características únicas:
- Serverless: No requiere aprovisionar servidores previos, lo que simplifica su uso.
- Procesamiento en tiempo real: Permite la gestión de información sin costos excesivos ya que no es necesario mantener el cómputo encendido.
- Machine Learning embebido: Posibilita análisis avanzados con algoritmos de regresión y clusterización sin necesidad de saber R o Python.
- Democratización del BI: Con el BI Engine se evita la replicación de datos, permitiendo construir cubos de información de manera directa y eficiente.
¿Cómo es la arquitectura serverless de BigQuery?
Comprender la arquitectura serverless de BigQuery ayuda a visualizar su eficiencia:
- Desacople de almacenamiento y cómputo: Esta separación permite insertar información en paradigmas de Batch y en tiempo real sin la necesidad de mantener nodos de cómputo.
- Modelo de pago por uso: Se centra en el almacenamiento y no cobra por el cómputo hasta realizar consultas, lo que se traduce en un ahorro significativo.
¿Cuáles son los beneficios económicos de usar BigQuery?
Google BigQuery ofrece beneficios económicos notables cuando se compara con otros proveedores y soluciones:
- Costo total de propiedad reducido: Ofrece entre un 26% y 52% de ahorro en comparación con soluciones como RedShift, Azure, Snowflake y data warehouses on-premises.
- Velocidad de rendimiento: Casos de uso como Macy’s han mostrado reducciones dramáticas en tiempos de consulta, destacando la eficiencia y rendimiento de BigQuery.
¿Cuál es la diferencia entre un data warehouse, un data lake y un data lakehouse?
Analizar la evolución de los repositorios de datos ayuda a entender sus ventajas:
- Data Warehouse: Diseñado para manejar grandes volúmenes de datos estructurados y procesarlos rápidamente.
- Data Lake: Introduce la capacidad de almacenar datos no estructurados como fotos o vídeos, además de datos JSON o XML.
- Data Lakehouse: Combina lo mejor de ambos con capacidades avanzadas de machine learning y procesamientos en tiempo real, junto con mejor gobernanza y democratización del BI.
Estas funcionalidades son perfectas para quienes buscan maximizar el potencial de sus datos sin comprometer en costos ni infraestructura compleja. ¡Te esperamos en la próxima clase para profundizar más en estas características!