Potenciando los Datos en la Nube: Data Science, Big Data, ML e AI

Clase 35 de 36 • Curso de Bases de Datos con SQL - Deprecado

Contenido del curso

¡El poder de los datos!

1
¡El poder de los datos!
03:31 min

Introducción a las bases de datos relacionales

Manipulación de Datos

Manipulación Avanzada de Datos

Agrupación de Datos

Transformación de Datos

Procedimientos Almacenados

Administración de Base de Datos

Análisis de Datos Avanzados

Tomar examen

Resumen

Dominar el procesamiento de datos es solo el punto de partida. Lo que realmente transforma a las organizaciones es saber qué hacer con esa información y qué procesos aplicar según las necesidades del negocio. Desde la inteligencia de negocios hasta el deep learning, existe un ecosistema completo de disciplinas que trabajan con datos, y cada una cumple un rol específico en la toma de decisiones y la generación de valor.

¿Qué es business intelligence y por qué es el proceso más tradicional?

Business intelligence (inteligencia de negocios) es un conjunto de tecnologías y herramientas diseñadas para procesar datos y entregar resultados a juntas directivas o altos cargos, permitiéndoles tomar decisiones basadas en información real [0:18]. Es el proceso con más trayectoria dentro del mundo de los datos.

Su funcionamiento se apoya en un proceso de ETL o ELT: extraer la información, transformar los datos y cargarlos en una fuente específica donde el cliente lo necesite [0:42]. Este flujo suele acompañarse de visualizaciones como tableros que muestran:

Indicadores de producción de una industria.
Incidentes o reportes generados por usuarios.
Ventas, promedio de costos de facturación o productos más y menos vendidos.

¿Cómo se diferencia big data del business intelligence?

Mientras que business intelligence trabaja con volúmenes manejables, big data analiza cantidades de información muchísimo mayores [1:17]. Estas presentan más dificultades y requieren un proceso de limpieza más fuerte, una transformación más precisa, aplicación de reglas de negocio a alto nivel, y la integración de cuatro, cinco o muchas más fuentes de datos.

Una forma de identificar un proyecto de big data es a través del concepto de las cinco V [1:42]: volumen, volatilidad, veracidad, y otras dos que vale la pena investigar para completar el panorama.

¿Qué hace la ciencia de datos y en qué se distingue?

La ciencia de datos se enfoca en buscar patrones en la información [2:05]. A diferencia del business intelligence y el big data, aquí el objetivo es detectar qué ocurre constantemente en los datos para generar acciones concretas.

Por ejemplo, si se identifica que un producto se vende más en horarios o fechas específicas, esa información se comunica al equipo de marketing para lanzar campañas en esos momentos, ayudando a la empresa a aumentar ingresos [2:28].

¿Qué papel juegan machine learning y deep learning en los datos?

Machine learning permite generar modelos de recomendación [2:52]. Si usas plataformas como Amazon o MercadoLibre, notarás que según tus búsquedas el sistema arroja sugerencias personalizadas. Incluso cuando hablas de un tema, tu celular empieza a mostrarte recomendaciones relacionadas en la web.

Estos modelos facilitan el estudio del comportamiento de los usuarios a nivel de industria y negocio [3:20]. Sin embargo, machine learning no se limita a recomendaciones: existen muchos otros tipos de modelos que vale la pena explorar.

Más allá están el deep learning y la inteligencia artificial, procesos que usan como input todo lo que generan los datos y las ETL [3:43]. Por eso es fundamental dominar un buen ciclo de procesamiento, transformación y depuración de datos.

¿Qué tipos de arquitectura existen para trabajar con datos?

Cuando se trabaja con datos de manera profesional, surgen tres tipos de arquitectura [4:05]:

On premise: infraestructura local. Herramientas recomendadas incluyen SQL, Analysis Service, Reporting Service, Integration Service y Power BI.
Cloud: plataformas en la nube como GCP, AWS o Azure.
Híbrida: combinación de ambas.

¿Cómo se migra una arquitectura on premise a la nube?

Un escenario típico on premise funciona así: los datos de entrada viven en SQL, se transforman con Integration Service, se depositan en un cubo OLAP o ROLAP dentro de Analysis Service, y se visualizan en Power BI [4:35].

La migración a Azure podría replicarse de esta forma [5:10]:

Almacenar la información fuente en un lago de datos (generación uno o dos).
Procesar y aplicar reglas de negocio, KPIs e indicadores con Databricks, usando lenguajes como SQL, PySpark, Python o R [5:28].
Depositar los resultados en Synapse, completando el ciclo de ETL en la nube.
Visualizar con Power BI, Tableau o Microstrategy.

Las migraciones deben hacerse paso a paso [6:15]. Entender el negocio y la lógica detrás de cada desarrollo es lo que garantiza procesos de datos de excelente calidad. ¿Ya conocías estas arquitecturas? Comparte tu experiencia en los comentarios.

Comentarios

Juan Carlos Quishpe

student•

Business Intelligence (BI):

- Tecnologías y herramientas para procesar datos y ayudar a la toma de decisiones en altos cargos.

- Procesos tradicionales basados en ETL o ELT.

- Visualizaciones como tableros de indicadores y reportes de ventas.

Big Data:

- Análisis de grandes volúmenes de datos provenientes de múltiples fuentes.

- Importancia de la limpieza, transformación de datos y aplicación de reglas de negocios.

- Concepto de las 5V: Volume, Value, Variety, Velocity, Veracity.

Ciencia de Datos:

- Búsqueda de patrones en la información para apoyar decisiones estratégicas.

- Identificación de patrones de ventas y recomendaciones para aumentar ingresos.

Machine Learning:

- Generación de modelos de recomendación basados en el comportamiento del usuario.

- Aplicación en plataformas de ventas y publicidad.

Otros Procesos Avanzados:

- Deep Learning, inteligencia artificial y otros procesos que utilizan datos procesados.

Arquitecturas de Datos:

- On-premise, cloud, y arquitecturas híbridas.

- Herramientas on-premise recomendadas: SQL, Analysis Service, Reporting Service, Integration Service, Power BI.

- Herramientas cloud recomendadas: GCP, AWS, Azure.

Migración de Arquitecturas:

- Proceso de migración de on-premise a cloud.

- Ejemplo con Azure: Data Lake, Databricks, Synapses, y Power BI.

Importancia de las Migraciones Paso a Paso:

- Comprensión del negocio y lógica detrás de los desarrollos para asegurar la calidad en procesos de datos.

iecgerman .

student•

muy buen resumen te aventaste

Valeria Vanesa Zalazar

student•

Muchas gracias por la transcripción

Juliana Castillo Araujo

Team Platzi•

Caro 👩‍💻 las 5 V son:

Volumen
Velocidad
Variedad
Veracidad
Valor de los datos

Bruno Balzarelli

student•

No entendí nada :S

Ezequiel Saldivar

student•

Básicamente explica, porqué te serviría tener datos en tablas de SQL.

jesus manuel vergara arias

student•

pero no entender algo tan bien explicado expone alguna deficiencia en el aprendizaje....

Arnol Daniel Degollado Garrocho

student•

Las 5 V's del Big Data son las características que definen el volumen, la velocidad, la variedad, la veracidad y el valor de los datos masivos. Estas características son fundamentales para comprender y gestionar la complejidad de los datos en la era de la información.

1. Volumen (Volume):

Se refiere a la gran cantidad de datos que se generan y recopilan constantemente. Esta cantidad puede ser tan grande que supera la capacidad de los sistemas tradicionales de almacenamiento y procesamiento.

2. Velocidad (Velocity):

Hace referencia a la rapidez con la que se generan y cambian los datos. En el mundo del Big Data, los datos se generan en tiempo real o casi en tiempo real, lo que exige sistemas capaces de procesarlos y analizarlos de manera instantánea.

3. Variedad (Variety):

Describe la diversidad de formatos y tipos de datos que se encuentran en el Big Data. Estos pueden incluir datos estructurados, semi-estructurados y no estructurados, provenientes de diferentes fuentes como redes sociales, sensores, registros de transacciones, etc.

4. Veracidad (Veracity):

Se refiere a la precisión y confiabilidad de los datos. En el Big Data, la veracidad es crucial para tomar decisiones acertadas basadas en la información. Es necesario implementar mecanismos para garantizar la calidad y limpieza de los datos.

5. Valor (Value):

Representa la utilidad y el beneficio que se puede extraer de los datos. El objetivo final del Big Data es convertir los datos en información valiosa que permita tomar mejores decisiones, optimizar procesos, identificar nuevas oportunidades y generar conocimiento.

Ivan Camilo Buitrago Buitrago

student•

Guardar como favorita esta clase, me quedaron claro muchos conceptos que se parecen, pero son totalmente diferente a nivel técnico xd

Jhon Freddy Tavera Blandon

student•

Conclusión

El uso combinado de Data Science, Big Data, ML e AI en la nube ofrece una poderosa plataforma para transformar datos en valor tangible. Las organizaciones pueden aprovechar estos avances para mejorar la toma de decisiones, optimizar operaciones y ofrecer experiencias personalizadas, todo mientras se benefician de la flexibilidad, escalabilidad y costo-efectividad que ofrece la nube. La clave está en elegir las herramientas y servicios adecuados que se alineen con las necesidades y objetivos específicos de cada organización.

Hinder Adrian Alvarez Perlaza

student•

Como desde el minuto 6 todo se salió de control 😅 Para quien no tiene contexto de Ingeniería de Datos queda perdido.

Marcos Cabral

student•

Sí. Para alguien que apenas está aprendiendo eso se vuelve un monstruo inentendible.

Lo que recomendaría es buscar un poco de información sobre procesos ETL y de Integración Continua y Desarrollo Continuo.

Andrés Velasquez

student•

Desde la clase 28 entiendo mas por los comentarios que por la instructora...

Leidy vanessa Perez

student•

1. Volumen: Cantidad

2. Velocidad: Lo rápido que se generan

3. Variedad de los datos: Múltiples formatos

4. Veracidad de los datos: Grado de confianza, precisión de los datos.

5. Viabilidad : Factibilidad técnica y económica de gestionarlos

6. Variabilidad: Tiempo que los datos deben permanecer almacenados antes de perder su relevancia o utilidad.

7. Visualización de los datos: Forma en que se presentan los datos.

8. Valor de los datos: Beneficio potencial que se pueden obtener de los datos.

Daniel Guardia

student•

creo que el concepto de data scientist alberga ML , no habría porqué diferenciarlo

Andres Buelvas Diago

student•

Solía pensar igual, hasta que ví este [curso recomendado!](https://platzi.com/cursos/fundamentos-ingenieria-datos/)

Jonathan Iván Gordillo León

student•

Lo que se puede hacer en el sector de los datos es:

Business Intelligence: Se encarga de organizar los datos para presentarlos a una junta directiva y que ellos se encarguen de tomar decisiones adecuadas en base a estos datos.
Big Data: Es más complejo que el business Intelligence, pero se basa en lo mismo, sus procesos son más complicados, la cantidad de datos es mucho mayor, así mismo el proceso de limpieza y transformación es más complejo, un proceso de Big Data tiene las 5V (Volumen, velocidad, variedad, veracidad y valor de datos).
Ciencia de Datos: Esta se encarga de identificar patrones en los datos, y en base a esto tomar acciones, que los altos cargos actúen tomando en cuenta estos patrones.
Machine Learning: Se encarga de generar modelos de recomendación, en base a tus gustos, este te recomienda más cosas similares, es lo que utiliza Amazon, Mercado Libre, utiliza tus búsquedas para seguirte recomendando cosas similares.
Con los datos también se puede hacer el Deep Learning, Inteligencia Artificial.

Nos dice que hay diferentes tipos de arquitecturas (es en donde se está realizando el proceso de gestión de datos) en las que se puede trabajar con los datos.

On Premise: Sistemas de Gestión de datos relacionales como SQL, Análisis Service, Reporting Service, integretion Service y sobre todo Power BI.
CLOUD: Se tiene que aprender plataformas como: GCP, AWS, AZURE,
También están las Híbridas.

Kenneth Angulo L

student•

En esta clase la profesora hace mejor claridad sobre procesos y herramientas usadas cuando trabajamos con datos. Y aterriza que hace cada uno de los roles.

La clase que en cada cierre de curso se llamaría. ‘Siguientes pasos … ‘, ‘y ahora que sigue …’

En resumen, después de aprender SQL que puedo hacer con eso !

Y la ultima idea que quiero dejar por aquí, (trabaje en consultoría de BI) es que para abordar este tipo de trabajos, se necesita unas BASES MUY SOLIDAS DE SQL. Cuando se trabaja en equipo sobre todo aplicar buenas prácticas, desde la nomenclatura de campos, de tablas, algo que no se menciono y parece secundario, pero en los procesos de ETL que pueden tomar largo tiempo, y si son varias personas participando documentar el código un simple encabezado diciendo quien hizo, cuando lo hizo, y para que lo hizo.

Andre Huaman Yovera

student•

# Potenciando los Datos en la Nube: Data Science, Big Data, ML e IA

### 1. Data Science en la Nube


\-- Ejemplo de análisis de datos con SQL

\-- Análisis de comportamiento de clientes

SELECT&#x20;

&#x20;   c.categoria\_cliente,

&#x20;   COUNT(\*) as total\_clientes,

&#x20;   AVG(v.monto\_total) as promedio\_compra,

&#x20;   SUM(v.monto\_total) as ventas\_totales

FROM clientes c

JOIN ventas v ON c.id = v.cliente\_id

GROUP BY c.categoria\_cliente

HAVING COUNT(\*) > 100

ORDER BY ventas\_totales DESC;

### 2. Big Data - Procesamiento de Grandes Volúmenes


\-- Particionamiento de tablas para Big Data

CREATE TABLE ventas\_historicas (

&#x20;   id BIGINT,

&#x20;   fecha DATE,

&#x20;   monto DECIMAL(15,2),

&#x20;   cliente\_id BIGINT

) PARTITION BY RANGE (YEAR(fecha)) (

&#x20;   PARTITION p2022 VALUES LESS THAN (2023),

&#x20;   PARTITION p2023 VALUES LESS THAN (2024),

&#x20;   PARTITION p2024 VALUES LESS THAN MAXVALUE

);



\-- Consulta optimizada para grandes volúmenes

SELECT&#x20;

&#x20;   DATE\_TRUNC('month', fecha) as mes,

&#x20;   SUM(monto) as total\_ventas

FROM ventas\_historicas

WHERE fecha >= '2023-01-01'

GROUP BY DATE\_TRUNC('month', fecha);

### 3. Machine Learning - Predicciones


\-- Preparación de datos para ML

WITH datos\_entrenamiento AS (

&#x20;   SELECT&#x20;

&#x20;       c.edad,

&#x20;       c.genero,

&#x20;       c.ubicacion,

&#x20;       COUNT(v.id) as frecuencia\_compra,

&#x20;       AVG(v.monto) as ticket\_promedio,

&#x20;       MAX(CASE WHEN v.monto > 1000 THEN 1 ELSE 0 END) as cliente\_premium

&#x20;   FROM clientes c

&#x20;   JOIN ventas v ON c.id = v.cliente\_id

&#x20;   GROUP BY c.id, c.edad, c.genero, c.ubicacion

)

SELECT \* FROM datos\_entrenamiento;



\-- Ejemplo de predicción simple

CREATE FUNCTION predecir\_compra(

&#x20;   p\_edad INT,

&#x20;   p\_frecuencia\_compra INT,

&#x20;   p\_ticket\_promedio DECIMAL

) RETURNS DECIMAL AS $$

BEGIN

&#x20;   RETURN (p\_edad \* 0.1 + p\_frecuencia\_compra \* 0.5 + p\_ticket\_promedio \* 0.01);

END;

$$ LANGUAGE plpgsql;

### 4. Inteligencia Artificial - Automatización


\-- Sistema de recomendaciones básico

CREATE VIEW recomendaciones\_productos AS

SELECT&#x20;

&#x20;   v1.cliente\_id,

&#x20;   p2.id as producto\_recomendado,

&#x20;   COUNT(\*) as frecuencia\_conjunta

FROM ventas v1

JOIN ventas v2 ON v1.cliente\_id = v2.cliente\_id

JOIN productos p1 ON v1.producto\_id = p1.id

JOIN productos p2 ON v2.producto\_id = p2.id

WHERE v1.producto\_id != v2.producto\_id

GROUP BY v1.cliente\_id, p2.id

HAVING COUNT(\*) > 5

ORDER BY frecuencia\_conjunta DESC;

### 5. Integración de Servicios en la Nube


\-- Ejemplo de ETL en la nube

CREATE PROCEDURE procesar\_datos\_nube()

BEGIN

&#x20;   \-- Extraer datos

&#x20;   INSERT INTO staging\_area

&#x20;   SELECT \* FROM cloud\_source\_data

&#x20;   WHERE fecha\_proceso = CURRENT\_DATE;

&#x20;  &#x20;

&#x20;   \-- Transformar

&#x20;   UPDATE staging\_area

&#x20;   SET datos\_procesados =&#x20;

&#x20;       CASE&#x20;

&#x20;           WHEN tipo = 'A' THEN proceso\_ml\_a(datos)

&#x20;           WHEN tipo = 'B' THEN proceso\_ml\_b(datos)

&#x20;           ELSE datos

&#x20;       END;

&#x20;  &#x20;

&#x20;   \-- Cargar

&#x20;   INSERT INTO data\_warehouse

&#x20;   SELECT \* FROM staging\_area

&#x20;   WHERE calidad\_dato > 0.8;

END;

### Casos de Uso Prácticos:

1. **Análisis Predictivo**


\-- Predicción de abandono de clientes

SELECT&#x20;

&#x20;   cliente\_id,

&#x20;   ultima\_compra,

&#x20;   frecuencia\_visitas,

&#x20;   CASE&#x20;

&#x20;       WHEN DATEDIFF(NOW(), ultima\_compra) > 90&#x20;

&#x20;       AND frecuencia\_visitas < 5&#x20;

&#x20;       THEN 'Alto Riesgo'

&#x20;       WHEN DATEDIFF(NOW(), ultima\_compra) > 60&#x20;

&#x20;       THEN 'Riesgo Medio'

&#x20;       ELSE 'Bajo Riesgo'

&#x20;   END as riesgo\_abandono

FROM metricas\_clientes;

2. **Segmentación de Clientes**


\-- Clustering básico de clientes

WITH metricas AS (

&#x20;   SELECT&#x20;

&#x20;       cliente\_id,

&#x20;       AVG(monto) as promedio\_compra,

&#x20;       COUNT(\*) as frecuencia,

&#x20;       MAX(fecha) as ultima\_compra

&#x20;   FROM ventas

&#x20;   GROUP BY cliente\_id

)

SELECT&#x20;

&#x20;   CASE&#x20;

&#x20;       WHEN promedio\_compra > 1000 AND frecuencia > 10 THEN 'VIP'

&#x20;       WHEN promedio\_compra > 500 OR frecuencia > 5 THEN 'Regular'

&#x20;       ELSE 'Ocasional'

&#x20;   END as segmento,

&#x20;   COUNT(\*) as total\_clientes

FROM metricas

GROUP BY segmento;

### Consideraciones Importantes:

1. **Escalabilidad**

- Particionamiento de datos

- Índices optimizados

- Procesamiento distribuido

2. **Seguridad**

- Encriptación de datos sensibles

- Control de acceso granular

- Auditoría de accesos

3. **Rendimiento**

- Optimización de consultas

- Caché de resultados

- Procesamiento paralelo

4. **Calidad de Datos**

- Validación de entrada

- Limpieza de datos

- Normalización

Estas tecnologías son fundamentales para:

- Toma de decisiones basada en datos

- Automatización de procesos

- Mejora de experiencia del cliente

- Optimización de recursos

Potenciando los Datos en la Nube: Data Science, Big Data, ML e AI

¡El poder de los datos!

¡El poder de los datos!

Introducción a las bases de datos relacionales

Buenas prácticas de bases de datos con SQL

Tipos de datos en SQL

¿Cómo crear una base de datos en SQL?

Práctica: Tu primera consulta en bases de datos

Historia y Evolución de SQL

Práctica: Creación de Tablas en SQL (CREATE TABLE)

Manipulación de Datos

Insertando Datos con SQL (INSERT)

Consultas y Selecciones en SQL (SELECT)

Práctica: SELECT en SQL

Actualización de Datos con SQL (UPDATE)

Eliminación de Datos con SQL (DELETE)

Práctica: CRUD con SQL

Manipulación Avanzada de Datos

Instalación de MySQL Server y MySQL Workbench

¿Qué es la cláusula WHERE de SQL?

Filtrar y Ordenar Datos en SQL (LIKE)

Práctica: Filtrar Datos con WHERE en SQL

Cláusulas de Comparación Textual en SQL (AND, NULL, IN, NOT)

Funciones de Aritmética Básica en SQL (COUNT, SUM, AVG)

Funciones de Aritmética Básica en SQL (MIN, MAX)

Agrupación de Datos

Agrupación de Datos en SQL: GROUP BY, HAVING y CASE para Análisis Avanzado

Práctica: Agrupamiento y Ordenamiento de Datos

Tipos de JOIN en SQL

¿Cómo funciona INNER JOIN, LEFT JOIN, RIGHT JOIN y FULL JOIN?

Práctica: LEFT JOIN en SQL

Transformación de Datos

Vistas Materializadas en SQL: Como optimizar tus consultas y reportes.

Práctica: Crear Vistas Materializadas en SQL

Optimización de Bases de Datos con SQL: CREATE INDEX y TRIGGER

Vistas Materializadas y Temporales en SQL

Expresiones de Tablas Comunes (CTE) en SQL

Procedimientos Almacenados

Procedimientos Almacenados en SQL

Procedimientos Almacenados en SQL: Gestión de Variables y Manejo de Excepciones

Administración de Base de Datos

Respaldos y Restauración de Bases de Datos

Seguridad en Bases de Datos SQL

Análisis de Datos Avanzados

Potenciando los Datos en la Nube: Data Science, Big Data, ML e AI

SQL para Análisis de Datos: Primeros pasos con Power BI