Introducción a los sistemas de datos

Curso de Ingeniería de Datos con Python

Contenido del curso

Introducción

Web scraping

Pandas

Intro a Sistemas de Datos

Contenido Bonus

38
¿Por qué usar la nube?
04:05 min

Tomar examen

Introducción a los sistemas de datos

Resumen

Ya tienes datos extraídos y transformados: ahora toca cargarlos en un sistema de consultas potente. Aquí verás cuándo usar procesamiento en bloque o procesamiento en chorro o streaming, cómo decidir entre soluciones open source y servicios de nube, y por qué SQL y NoSQL son habilidades esenciales para cualquier rol de datos.

¿Qué diferencia hay entre procesamiento en bloque y en chorro (streaming)?

En ambos casos, el objetivo es permitir queries sofisticadas, compartir resultados con el equipo y estructurar los datos según necesidades. La diferencia clave es el momento en el que los datos se procesan.

¿Cuándo usar procesamiento en bloque?

Cuando analizas datos históricos: ayer, el trimestre pasado, el año anterior o los últimos cinco años.
Cuando la pregunta es retrospectiva: qué sucedió.
Cuando priorizas eficiencia para grandes volúmenes históricos.

¿Cuándo usar procesamiento en chorro?

Cuando procesas datos conforme van llegando.
Cuando las transformaciones se ejecutan en tiempo real.
Cuando el tiempo es crítico para decisiones, por ejemplo, compra o venta en la bolsa de valores.

¿Cómo elegir entre open source y servicios de nube para datos?

Tienes opciones desde open source como Hadoop y Spark, hasta servicios gestionados en nubes públicas, por ejemplo Dataflow en Google Cloud. La decisión práctica depende menos del costo y más de tu capacidad de implementación y mantenimiento.

¿Qué criterio práctico usar?

Si tienes poco tiempo o no quieres mantener infraestructura: prefiere servicios de nube.
Si eres la única persona del equipo: evita la carga de operar máquinas y cloud.
Si estás en una empresa grande con ingenieros especializados: open source puede ser viable.

¿Por qué SQL y NoSQL importan para ingeniería de datos?

Para perfiles de datos, aprender ambos es imprescindible. Desarrollar la habilidad de bases de datos es un siguiente paso natural. Hay formación desde cursos especializados en MySQL hasta bases de datos no SQL.

¿Qué perfil debe dominar SQL?

Ingeniería de datos: imprescindible para modelar y consultar.
Ciencia de datos: necesario para explorar y preparar datos.
Ingeniería de machine learning: clave para obtención y validación de datos.

Además, el siguiente paso es insertar los datos ya limpios en una base de datos SQL y familiarizarse con la sintaxis y el flujo de trabajo. A continuación, verás el código para comenzar a practicar.

¿Tú cómo procesas tus datos hoy: en bloque o en streaming? Comparte tu contexto y preguntas en los comentarios.

Introducción a los sistemas de datos

Introducción

Pipelines automatizados con Python para ingeniería de datos

Archivos del curso y Slides

¿Qué es la ciencia de datos?

Por qué fallan los equipos de ciencia de datos

Configuración del ambiente

Jupyter Notebooks

Tipos de datos en ciencia de datos

Tipos de datos

Fuentes de datos

ETL: extract, transform y load explicado

Web scraping

Web scraping para data engineers: HTML y metadatos

Cómo hacer solicitudes HTTP con Python Requests

¿Cómo trabajar con un documento HTML?

Analizando un sitio web para encontrar las directivas a utilizar al hacer un web scrapping

Page Object Pattern para web scrapers

Implementando nuestro web scrapper: Configuración

Page Objects para extraer vínculos de noticias

Implementando nuestro web scrapper: Obteniendo artículos

Obtención de datos del Artículo

Persistiendo la información "scrapeada"

Pandas

Series vs DataFrame en Pandas

Qué es Series en Pandas y cómo crearlas

Estructura de datos: DataFrames

Índices y selección

Data wrangling con Pandas

Creación de la receta: preparando la automatización

Cómo rellenar datos faltantes en Pandas con regex

Pandas .loc y regex para títulos faltantes

Limpiando detalles adicionales

Generar UUIDs con MD5 en pandas

Enriquecimiento de los datos

Eliminación de duplicados con drop_duplicates en Pandas

Creando tu receta de limpieza de datos

Visualización de datos

Intro a Sistemas de Datos