Contenido del curso

Web scraping

Pandas

¿Por qué usar la nube?

Resumen

Si buscas claridad para decidir cuándo dar el salto a la nube, aquí encontrarás una guía práctica. Con poder de cómputo casi inimaginable, la nube puede procesar terabytes en segundos y te permite pagar solo lo que utilizas. Verás en qué casos conviene, cómo trabajar en producción y qué servicios de Google Cloud impulsan el ETL y el análisis de datos.

¿Cuándo usar la nube para big data?

La nube entra en juego cuando el volumen y el tiempo te ponen un límite real. El cambio de una computadora local a miles de máquinas en data centers marca la diferencia entre días y segundos de procesamiento.

  • cuando los datos ya no caben en tu computadora o el tiempo de procesamiento es demasiado extenso. Si te topas con ese roadblock, es momento de considerar la nube.
  • cuando estás en un entorno de producción y la empresa ya opera bases de datos en la nube. El paso lógico es trabajar directamente allá y optimizar y automatizar scripts.

Beneficios que resaltan:

  • Acceso a miles de computadoras por segundos. Escalas sin comprar infraestructura propia.
  • Pago por uso. Solo pagas lo que utilizaste en ese tiempo.
  • Puede ser más barato, aunque un poco más complejo de operar.

¿Cómo operar en producción con datos en la nube?

En producción, la clave es elegir tecnologías de procesamiento adecuadas y aprovechar servicios administrados. El objetivo: automatizar, escalar y mantener un flujo de datos confiable de extraer, transformar y cargar (ETL) para análisis posterior.

¿Qué tecnologías de procesamiento elegir: Spark o Hadoop?

Para procesar datos a gran escala, el dominio de Spark o Hadoop es fundamental.

  • permiten procesamiento en bloque o en chorro.
  • se usan cuando necesitas rapidez y robustez en cargas grandes.
  • habilitan flujos continuos cuando tu caso requiere streaming.

¿Qué ofrece Google Cloud para ETL y análisis?

En opinión del instructor, Google Cloud es uno de los proveedores de datos más avanzados y también más baratos. Su portafolio cubre el ciclo completo de la ciencia de datos, la ingeniería de datos y la ingeniería de machine learning.

  • DataFlow: procesamiento en bloque o streaming.
  • PubSub: mensajería para intercomunicar sistemas.
  • Cloud Storage: almacenamiento prácticamente ilimitado.
  • BigQuery: sistema avanzado para análisis de datos.
  • la lógica se mantiene: extraer, transformar y cargar para análisis posterior.

¿Tú qué caso ves más urgente: volumen que no cabe o operación en producción? Cuéntalo en comentarios y, si quieres seguir la conversación, sígueme en Twitter: JD Arosti.