Introducción a los sistemas de datos

Clase 35 de 38Curso de Ingeniería de Datos con Python

Contenido del curso

Web scraping

Pandas

Resumen

Ya tienes datos extraídos y transformados: ahora toca cargarlos en un sistema de consultas potente. Aquí verás cuándo usar procesamiento en bloque o procesamiento en chorro o streaming, cómo decidir entre soluciones open source y servicios de nube, y por qué SQL y NoSQL son habilidades esenciales para cualquier rol de datos.

¿Qué diferencia hay entre procesamiento en bloque y en chorro (streaming)?

En ambos casos, el objetivo es permitir queries sofisticadas, compartir resultados con el equipo y estructurar los datos según necesidades. La diferencia clave es el momento en el que los datos se procesan.

¿Cuándo usar procesamiento en bloque?

  • Cuando analizas datos históricos: ayer, el trimestre pasado, el año anterior o los últimos cinco años.
  • Cuando la pregunta es retrospectiva: qué sucedió.
  • Cuando priorizas eficiencia para grandes volúmenes históricos.

¿Cuándo usar procesamiento en chorro?

  • Cuando procesas datos conforme van llegando.
  • Cuando las transformaciones se ejecutan en tiempo real.
  • Cuando el tiempo es crítico para decisiones, por ejemplo, compra o venta en la bolsa de valores.

¿Cómo elegir entre open source y servicios de nube para datos?

Tienes opciones desde open source como Hadoop y Spark, hasta servicios gestionados en nubes públicas, por ejemplo Dataflow en Google Cloud. La decisión práctica depende menos del costo y más de tu capacidad de implementación y mantenimiento.

¿Qué criterio práctico usar?

  • Si tienes poco tiempo o no quieres mantener infraestructura: prefiere servicios de nube.
  • Si eres la única persona del equipo: evita la carga de operar máquinas y cloud.
  • Si estás en una empresa grande con ingenieros especializados: open source puede ser viable.

¿Por qué SQL y NoSQL importan para ingeniería de datos?

Para perfiles de datos, aprender ambos es imprescindible. Desarrollar la habilidad de bases de datos es un siguiente paso natural. Hay formación desde cursos especializados en MySQL hasta bases de datos no SQL.

¿Qué perfil debe dominar SQL?

  • Ingeniería de datos: imprescindible para modelar y consultar.
  • Ciencia de datos: necesario para explorar y preparar datos.
  • Ingeniería de machine learning: clave para obtención y validación de datos.

Además, el siguiente paso es insertar los datos ya limpios en una base de datos SQL y familiarizarse con la sintaxis y el flujo de trabajo. A continuación, verás el código para comenzar a practicar.

¿Tú cómo procesas tus datos hoy: en bloque o en streaming? Comparte tu contexto y preguntas en los comentarios.