Potenciando los Datos en la Nube: Data Science, Big Data, ML e AI

Clase 35 de 36Curso de Bases de Datos con SQL - Deprecado

Contenido del curso

Resumen

Dominar el procesamiento de datos es solo el punto de partida. Lo que realmente transforma a las organizaciones es saber qué hacer con esa información y qué procesos aplicar según las necesidades del negocio. Desde la inteligencia de negocios hasta el deep learning, existe un ecosistema completo de disciplinas que trabajan con datos, y cada una cumple un rol específico en la toma de decisiones y la generación de valor.

¿Qué es business intelligence y por qué es el proceso más tradicional?

Business intelligence (inteligencia de negocios) es un conjunto de tecnologías y herramientas diseñadas para procesar datos y entregar resultados a juntas directivas o altos cargos, permitiéndoles tomar decisiones basadas en información real [0:18]. Es el proceso con más trayectoria dentro del mundo de los datos.

Su funcionamiento se apoya en un proceso de ETL o ELT: extraer la información, transformar los datos y cargarlos en una fuente específica donde el cliente lo necesite [0:42]. Este flujo suele acompañarse de visualizaciones como tableros que muestran:

  • Indicadores de producción de una industria.
  • Incidentes o reportes generados por usuarios.
  • Ventas, promedio de costos de facturación o productos más y menos vendidos.

¿Cómo se diferencia big data del business intelligence?

Mientras que business intelligence trabaja con volúmenes manejables, big data analiza cantidades de información muchísimo mayores [1:17]. Estas presentan más dificultades y requieren un proceso de limpieza más fuerte, una transformación más precisa, aplicación de reglas de negocio a alto nivel, y la integración de cuatro, cinco o muchas más fuentes de datos.

Una forma de identificar un proyecto de big data es a través del concepto de las cinco V [1:42]: volumen, volatilidad, veracidad, y otras dos que vale la pena investigar para completar el panorama.

¿Qué hace la ciencia de datos y en qué se distingue?

La ciencia de datos se enfoca en buscar patrones en la información [2:05]. A diferencia del business intelligence y el big data, aquí el objetivo es detectar qué ocurre constantemente en los datos para generar acciones concretas.

Por ejemplo, si se identifica que un producto se vende más en horarios o fechas específicas, esa información se comunica al equipo de marketing para lanzar campañas en esos momentos, ayudando a la empresa a aumentar ingresos [2:28].

¿Qué papel juegan machine learning y deep learning en los datos?

Machine learning permite generar modelos de recomendación [2:52]. Si usas plataformas como Amazon o MercadoLibre, notarás que según tus búsquedas el sistema arroja sugerencias personalizadas. Incluso cuando hablas de un tema, tu celular empieza a mostrarte recomendaciones relacionadas en la web.

Estos modelos facilitan el estudio del comportamiento de los usuarios a nivel de industria y negocio [3:20]. Sin embargo, machine learning no se limita a recomendaciones: existen muchos otros tipos de modelos que vale la pena explorar.

Más allá están el deep learning y la inteligencia artificial, procesos que usan como input todo lo que generan los datos y las ETL [3:43]. Por eso es fundamental dominar un buen ciclo de procesamiento, transformación y depuración de datos.

¿Qué tipos de arquitectura existen para trabajar con datos?

Cuando se trabaja con datos de manera profesional, surgen tres tipos de arquitectura [4:05]:

  • On premise: infraestructura local. Herramientas recomendadas incluyen SQL, Analysis Service, Reporting Service, Integration Service y Power BI.
  • Cloud: plataformas en la nube como GCP, AWS o Azure.
  • Híbrida: combinación de ambas.

¿Cómo se migra una arquitectura on premise a la nube?

Un escenario típico on premise funciona así: los datos de entrada viven en SQL, se transforman con Integration Service, se depositan en un cubo OLAP o ROLAP dentro de Analysis Service, y se visualizan en Power BI [4:35].

La migración a Azure podría replicarse de esta forma [5:10]:

  • Almacenar la información fuente en un lago de datos (generación uno o dos).
  • Procesar y aplicar reglas de negocio, KPIs e indicadores con Databricks, usando lenguajes como SQL, PySpark, Python o R [5:28].
  • Depositar los resultados en Synapse, completando el ciclo de ETL en la nube.
  • Visualizar con Power BI, Tableau o Microstrategy.

Las migraciones deben hacerse paso a paso [6:15]. Entender el negocio y la lógica detrás de cada desarrollo es lo que garantiza procesos de datos de excelente calidad. ¿Ya conocías estas arquitecturas? Comparte tu experiencia en los comentarios.

      Potenciando los Datos en la Nube: Data Science, Big Data, ML e AI