¿Por qué usar la nube?

Curso de Ingeniería de Datos con Python

Contenido del curso

Introducción

Web scraping

Pandas

Intro a Sistemas de Datos

Contenido Bonus

38
¿Por qué usar la nube?
Viendo ahora

Tomar examen

¿Por qué usar la nube?

Resumen

Si buscas claridad para decidir cuándo dar el salto a la nube, aquí encontrarás una guía práctica. Con poder de cómputo casi inimaginable, la nube puede procesar terabytes en segundos y te permite pagar solo lo que utilizas. Verás en qué casos conviene, cómo trabajar en producción y qué servicios de Google Cloud impulsan el ETL y el análisis de datos.

¿Cuándo usar la nube para big data?

La nube entra en juego cuando el volumen y el tiempo te ponen un límite real. El cambio de una computadora local a miles de máquinas en data centers marca la diferencia entre días y segundos de procesamiento.

cuando los datos ya no caben en tu computadora o el tiempo de procesamiento es demasiado extenso. Si te topas con ese roadblock, es momento de considerar la nube.
cuando estás en un entorno de producción y la empresa ya opera bases de datos en la nube. El paso lógico es trabajar directamente allá y optimizar y automatizar scripts.

Beneficios que resaltan:

Acceso a miles de computadoras por segundos. Escalas sin comprar infraestructura propia.
Pago por uso. Solo pagas lo que utilizaste en ese tiempo.
Puede ser más barato, aunque un poco más complejo de operar.

¿Cómo operar en producción con datos en la nube?

En producción, la clave es elegir tecnologías de procesamiento adecuadas y aprovechar servicios administrados. El objetivo: automatizar, escalar y mantener un flujo de datos confiable de extraer, transformar y cargar (ETL) para análisis posterior.

¿Qué tecnologías de procesamiento elegir: Spark o Hadoop?

Para procesar datos a gran escala, el dominio de Spark o Hadoop es fundamental.

permiten procesamiento en bloque o en chorro.
se usan cuando necesitas rapidez y robustez en cargas grandes.
habilitan flujos continuos cuando tu caso requiere streaming.

¿Qué ofrece Google Cloud para ETL y análisis?

En opinión del instructor, Google Cloud es uno de los proveedores de datos más avanzados y también más baratos. Su portafolio cubre el ciclo completo de la ciencia de datos, la ingeniería de datos y la ingeniería de machine learning.

DataFlow: procesamiento en bloque o streaming.
PubSub: mensajería para intercomunicar sistemas.
Cloud Storage: almacenamiento prácticamente ilimitado.
BigQuery: sistema avanzado para análisis de datos.
la lógica se mantiene: extraer, transformar y cargar para análisis posterior.

¿Tú qué caso ves más urgente: volumen que no cabe o operación en producción? Cuéntalo en comentarios y, si quieres seguir la conversación, sígueme en Twitter: JD Arosti.

¿Por qué usar la nube?

Introducción

Pipelines automatizados con Python para ingeniería de datos

Archivos del curso y Slides

¿Qué es la ciencia de datos?

Por qué fallan los equipos de ciencia de datos

Configuración del ambiente

Jupyter Notebooks

Tipos de datos en ciencia de datos

Tipos de datos

Fuentes de datos

ETL: extract, transform y load explicado

Web scraping

Web scraping para data engineers: HTML y metadatos

Cómo hacer solicitudes HTTP con Python Requests

¿Cómo trabajar con un documento HTML?

Analizando un sitio web para encontrar las directivas a utilizar al hacer un web scrapping

Page Object Pattern para web scrapers

Implementando nuestro web scrapper: Configuración

Page Objects para extraer vínculos de noticias

Implementando nuestro web scrapper: Obteniendo artículos

Obtención de datos del Artículo

Persistiendo la información "scrapeada"

Pandas

Series vs DataFrame en Pandas

Qué es Series en Pandas y cómo crearlas

Estructura de datos: DataFrames

Índices y selección

Data wrangling con Pandas

Creación de la receta: preparando la automatización

Cómo rellenar datos faltantes en Pandas con regex

Pandas .loc y regex para títulos faltantes

Limpiando detalles adicionales

Generar UUIDs con MD5 en pandas

Enriquecimiento de los datos

Eliminación de duplicados con drop_duplicates en Pandas

Creando tu receta de limpieza de datos

Visualización de datos

Intro a Sistemas de Datos

Introducción a los sistemas de datos

Automatización del Pipeline

Carga de CSV a SQL con SQLAlchemy y pandas

Contenido Bonus

¿Por qué usar la nube?

Resumen