Potenciando los Datos en la Nube: Data Science, Big Data, ML e AI

Clase 35 de 36 • Curso de Bases de Datos con SQL - Deprecado

Contenido del curso

¡El poder de los datos!

1
¡El poder de los datos!
03:31 min

Introducción a las bases de datos relacionales

Manipulación de Datos

Manipulación Avanzada de Datos

Agrupación de Datos

Transformación de Datos

Procedimientos Almacenados

Administración de Base de Datos

Análisis de Datos Avanzados

Tomar examen

Resumen

Dominar el procesamiento de datos es solo el punto de partida. Lo que realmente transforma a las organizaciones es saber qué hacer con esa información y qué procesos aplicar según las necesidades del negocio. Desde la inteligencia de negocios hasta el deep learning, existe un ecosistema completo de disciplinas que trabajan con datos, y cada una cumple un rol específico en la toma de decisiones y la generación de valor.

¿Qué es business intelligence y por qué es el proceso más tradicional?

Business intelligence (inteligencia de negocios) es un conjunto de tecnologías y herramientas diseñadas para procesar datos y entregar resultados a juntas directivas o altos cargos, permitiéndoles tomar decisiones basadas en información real [0:18]. Es el proceso con más trayectoria dentro del mundo de los datos.

Su funcionamiento se apoya en un proceso de ETL o ELT: extraer la información, transformar los datos y cargarlos en una fuente específica donde el cliente lo necesite [0:42]. Este flujo suele acompañarse de visualizaciones como tableros que muestran:

Indicadores de producción de una industria.
Incidentes o reportes generados por usuarios.
Ventas, promedio de costos de facturación o productos más y menos vendidos.

¿Cómo se diferencia big data del business intelligence?

Mientras que business intelligence trabaja con volúmenes manejables, big data analiza cantidades de información muchísimo mayores [1:17]. Estas presentan más dificultades y requieren un proceso de limpieza más fuerte, una transformación más precisa, aplicación de reglas de negocio a alto nivel, y la integración de cuatro, cinco o muchas más fuentes de datos.

Una forma de identificar un proyecto de big data es a través del concepto de las cinco V [1:42]: volumen, volatilidad, veracidad, y otras dos que vale la pena investigar para completar el panorama.

¿Qué hace la ciencia de datos y en qué se distingue?

La ciencia de datos se enfoca en buscar patrones en la información [2:05]. A diferencia del business intelligence y el big data, aquí el objetivo es detectar qué ocurre constantemente en los datos para generar acciones concretas.

Por ejemplo, si se identifica que un producto se vende más en horarios o fechas específicas, esa información se comunica al equipo de marketing para lanzar campañas en esos momentos, ayudando a la empresa a aumentar ingresos [2:28].

¿Qué papel juegan machine learning y deep learning en los datos?

Machine learning permite generar modelos de recomendación [2:52]. Si usas plataformas como Amazon o MercadoLibre, notarás que según tus búsquedas el sistema arroja sugerencias personalizadas. Incluso cuando hablas de un tema, tu celular empieza a mostrarte recomendaciones relacionadas en la web.

Estos modelos facilitan el estudio del comportamiento de los usuarios a nivel de industria y negocio [3:20]. Sin embargo, machine learning no se limita a recomendaciones: existen muchos otros tipos de modelos que vale la pena explorar.

Más allá están el deep learning y la inteligencia artificial, procesos que usan como input todo lo que generan los datos y las ETL [3:43]. Por eso es fundamental dominar un buen ciclo de procesamiento, transformación y depuración de datos.

¿Qué tipos de arquitectura existen para trabajar con datos?

Cuando se trabaja con datos de manera profesional, surgen tres tipos de arquitectura [4:05]:

On premise: infraestructura local. Herramientas recomendadas incluyen SQL, Analysis Service, Reporting Service, Integration Service y Power BI.
Cloud: plataformas en la nube como GCP, AWS o Azure.
Híbrida: combinación de ambas.

¿Cómo se migra una arquitectura on premise a la nube?

Un escenario típico on premise funciona así: los datos de entrada viven en SQL, se transforman con Integration Service, se depositan en un cubo OLAP o ROLAP dentro de Analysis Service, y se visualizan en Power BI [4:35].

La migración a Azure podría replicarse de esta forma [5:10]:

Almacenar la información fuente en un lago de datos (generación uno o dos).
Procesar y aplicar reglas de negocio, KPIs e indicadores con Databricks, usando lenguajes como SQL, PySpark, Python o R [5:28].
Depositar los resultados en Synapse, completando el ciclo de ETL en la nube.
Visualizar con Power BI, Tableau o Microstrategy.

Las migraciones deben hacerse paso a paso [6:15]. Entender el negocio y la lógica detrás de cada desarrollo es lo que garantiza procesos de datos de excelente calidad. ¿Ya conocías estas arquitecturas? Comparte tu experiencia en los comentarios.

Andre Huaman Yovera

student•

# Potenciando los Datos en la Nube: Data Science, Big Data, ML e IA

### 1. Data Science en la Nube


\-- Ejemplo de análisis de datos con SQL

\-- Análisis de comportamiento de clientes

SELECT&#x20;

&#x20;   c.categoria\_cliente,

&#x20;   COUNT(\*) as total\_clientes,

&#x20;   AVG(v.monto\_total) as promedio\_compra,

&#x20;   SUM(v.monto\_total) as ventas\_totales

FROM clientes c

JOIN ventas v ON c.id = v.cliente\_id

GROUP BY c.categoria\_cliente

HAVING COUNT(\*) > 100

ORDER BY ventas\_totales DESC;

### 2. Big Data - Procesamiento de Grandes Volúmenes


\-- Particionamiento de tablas para Big Data

CREATE TABLE ventas\_historicas (

&#x20;   id BIGINT,

&#x20;   fecha DATE,

&#x20;   monto DECIMAL(15,2),

&#x20;   cliente\_id BIGINT

) PARTITION BY RANGE (YEAR(fecha)) (

&#x20;   PARTITION p2022 VALUES LESS THAN (2023),

&#x20;   PARTITION p2023 VALUES LESS THAN (2024),

&#x20;   PARTITION p2024 VALUES LESS THAN MAXVALUE

);



\-- Consulta optimizada para grandes volúmenes

SELECT&#x20;

&#x20;   DATE\_TRUNC('month', fecha) as mes,

&#x20;   SUM(monto) as total\_ventas

FROM ventas\_historicas

WHERE fecha >= '2023-01-01'

GROUP BY DATE\_TRUNC('month', fecha);

### 3. Machine Learning - Predicciones


\-- Preparación de datos para ML

WITH datos\_entrenamiento AS (

&#x20;   SELECT&#x20;

&#x20;       c.edad,

&#x20;       c.genero,

&#x20;       c.ubicacion,

&#x20;       COUNT(v.id) as frecuencia\_compra,

&#x20;       AVG(v.monto) as ticket\_promedio,

&#x20;       MAX(CASE WHEN v.monto > 1000 THEN 1 ELSE 0 END) as cliente\_premium

&#x20;   FROM clientes c

&#x20;   JOIN ventas v ON c.id = v.cliente\_id

&#x20;   GROUP BY c.id, c.edad, c.genero, c.ubicacion

)

SELECT \* FROM datos\_entrenamiento;



\-- Ejemplo de predicción simple

CREATE FUNCTION predecir\_compra(

&#x20;   p\_edad INT,

&#x20;   p\_frecuencia\_compra INT,

&#x20;   p\_ticket\_promedio DECIMAL

) RETURNS DECIMAL AS $$

BEGIN

&#x20;   RETURN (p\_edad \* 0.1 + p\_frecuencia\_compra \* 0.5 + p\_ticket\_promedio \* 0.01);

END;

$$ LANGUAGE plpgsql;

### 4. Inteligencia Artificial - Automatización


\-- Sistema de recomendaciones básico

CREATE VIEW recomendaciones\_productos AS

SELECT&#x20;

&#x20;   v1.cliente\_id,

&#x20;   p2.id as producto\_recomendado,

&#x20;   COUNT(\*) as frecuencia\_conjunta

FROM ventas v1

JOIN ventas v2 ON v1.cliente\_id = v2.cliente\_id

JOIN productos p1 ON v1.producto\_id = p1.id

JOIN productos p2 ON v2.producto\_id = p2.id

WHERE v1.producto\_id != v2.producto\_id

GROUP BY v1.cliente\_id, p2.id

HAVING COUNT(\*) > 5

ORDER BY frecuencia\_conjunta DESC;

### 5. Integración de Servicios en la Nube


\-- Ejemplo de ETL en la nube

CREATE PROCEDURE procesar\_datos\_nube()

BEGIN

&#x20;   \-- Extraer datos

&#x20;   INSERT INTO staging\_area

&#x20;   SELECT \* FROM cloud\_source\_data

&#x20;   WHERE fecha\_proceso = CURRENT\_DATE;

&#x20;  &#x20;

&#x20;   \-- Transformar

&#x20;   UPDATE staging\_area

&#x20;   SET datos\_procesados =&#x20;

&#x20;       CASE&#x20;

&#x20;           WHEN tipo = 'A' THEN proceso\_ml\_a(datos)

&#x20;           WHEN tipo = 'B' THEN proceso\_ml\_b(datos)

&#x20;           ELSE datos

&#x20;       END;

&#x20;  &#x20;

&#x20;   \-- Cargar

&#x20;   INSERT INTO data\_warehouse

&#x20;   SELECT \* FROM staging\_area

&#x20;   WHERE calidad\_dato > 0.8;

END;

### Casos de Uso Prácticos:

1. **Análisis Predictivo**


\-- Predicción de abandono de clientes

SELECT&#x20;

&#x20;   cliente\_id,

&#x20;   ultima\_compra,

&#x20;   frecuencia\_visitas,

&#x20;   CASE&#x20;

&#x20;       WHEN DATEDIFF(NOW(), ultima\_compra) > 90&#x20;

&#x20;       AND frecuencia\_visitas < 5&#x20;

&#x20;       THEN 'Alto Riesgo'

&#x20;       WHEN DATEDIFF(NOW(), ultima\_compra) > 60&#x20;

&#x20;       THEN 'Riesgo Medio'

&#x20;       ELSE 'Bajo Riesgo'

&#x20;   END as riesgo\_abandono

FROM metricas\_clientes;

2. **Segmentación de Clientes**


\-- Clustering básico de clientes

WITH metricas AS (

&#x20;   SELECT&#x20;

&#x20;       cliente\_id,

&#x20;       AVG(monto) as promedio\_compra,

&#x20;       COUNT(\*) as frecuencia,

&#x20;       MAX(fecha) as ultima\_compra

&#x20;   FROM ventas

&#x20;   GROUP BY cliente\_id

)

SELECT&#x20;

&#x20;   CASE&#x20;

&#x20;       WHEN promedio\_compra > 1000 AND frecuencia > 10 THEN 'VIP'

&#x20;       WHEN promedio\_compra > 500 OR frecuencia > 5 THEN 'Regular'

&#x20;       ELSE 'Ocasional'

&#x20;   END as segmento,

&#x20;   COUNT(\*) as total\_clientes

FROM metricas

GROUP BY segmento;

### Consideraciones Importantes:

1. **Escalabilidad**

- Particionamiento de datos

- Índices optimizados

- Procesamiento distribuido

2. **Seguridad**

- Encriptación de datos sensibles

- Control de acceso granular

- Auditoría de accesos

3. **Rendimiento**

- Optimización de consultas

- Caché de resultados

- Procesamiento paralelo

4. **Calidad de Datos**

- Validación de entrada

- Limpieza de datos

- Normalización

Estas tecnologías son fundamentales para:

- Toma de decisiones basada en datos

- Automatización de procesos

- Mejora de experiencia del cliente

- Optimización de recursos

Juan Carlos Quishpe

iecgerman .

Valeria Vanesa Zalazar

Juliana Castillo Araujo

Team Platzi•

Bruno Balzarelli

Ezequiel Saldivar

jesus manuel vergara arias

Arnol Daniel Degollado Garrocho

Ivan Camilo Buitrago Buitrago

Jhon Freddy Tavera Blandon

Hinder Adrian Alvarez Perlaza

Marcos Cabral

Andrés Velasquez

Leidy vanessa Perez

Daniel Guardia

Andres Buelvas Diago

Jonathan Iván Gordillo León

Kenneth Angulo L

Potenciando los Datos en la Nube: Data Science, Big Data, ML e AI

¡El poder de los datos!

¡El poder de los datos!

Introducción a las bases de datos relacionales

Buenas prácticas de bases de datos con SQL

Tipos de datos en SQL

¿Cómo crear una base de datos en SQL?

Práctica: Tu primera consulta en bases de datos

Historia y Evolución de SQL

Práctica: Creación de Tablas en SQL (CREATE TABLE)

Manipulación de Datos

Insertando Datos con SQL (INSERT)

Consultas y Selecciones en SQL (SELECT)

Práctica: SELECT en SQL

Actualización de Datos con SQL (UPDATE)

Eliminación de Datos con SQL (DELETE)

Práctica: CRUD con SQL

Manipulación Avanzada de Datos

Instalación de MySQL Server y MySQL Workbench

¿Qué es la cláusula WHERE de SQL?

Filtrar y Ordenar Datos en SQL (LIKE)

Práctica: Filtrar Datos con WHERE en SQL

Cláusulas de Comparación Textual en SQL (AND, NULL, IN, NOT)

Funciones de Aritmética Básica en SQL (COUNT, SUM, AVG)

Funciones de Aritmética Básica en SQL (MIN, MAX)

Agrupación de Datos

Agrupación de Datos en SQL: GROUP BY, HAVING y CASE para Análisis Avanzado

Práctica: Agrupamiento y Ordenamiento de Datos

Tipos de JOIN en SQL

¿Cómo funciona INNER JOIN, LEFT JOIN, RIGHT JOIN y FULL JOIN?

Práctica: LEFT JOIN en SQL

Transformación de Datos

Vistas Materializadas en SQL: Como optimizar tus consultas y reportes.

Práctica: Crear Vistas Materializadas en SQL

Optimización de Bases de Datos con SQL: CREATE INDEX y TRIGGER

Vistas Materializadas y Temporales en SQL

Expresiones de Tablas Comunes (CTE) en SQL

Procedimientos Almacenados

Procedimientos Almacenados en SQL

Procedimientos Almacenados en SQL: Gestión de Variables y Manejo de Excepciones

Administración de Base de Datos

Respaldos y Restauración de Bases de Datos

Seguridad en Bases de Datos SQL

Análisis de Datos Avanzados

Potenciando los Datos en la Nube: Data Science, Big Data, ML e AI

SQL para Análisis de Datos: Primeros pasos con Power BI