¿Por qué usar la nube?

Clase 38 de 38Curso de Ingeniería de Datos con Python

Contenido del curso

Web scraping

Pandas

Resumen

Si buscas claridad para decidir cuándo dar el salto a la nube, aquí encontrarás una guía práctica. Con poder de cómputo casi inimaginable, la nube puede procesar terabytes en segundos y te permite pagar solo lo que utilizas. Verás en qué casos conviene, cómo trabajar en producción y qué servicios de Google Cloud impulsan el ETL y el análisis de datos.

¿Cuándo usar la nube para big data?

La nube entra en juego cuando el volumen y el tiempo te ponen un límite real. El cambio de una computadora local a miles de máquinas en data centers marca la diferencia entre días y segundos de procesamiento.

  • cuando los datos ya no caben en tu computadora o el tiempo de procesamiento es demasiado extenso. Si te topas con ese roadblock, es momento de considerar la nube.
  • cuando estás en un entorno de producción y la empresa ya opera bases de datos en la nube. El paso lógico es trabajar directamente allá y optimizar y automatizar scripts.

Beneficios que resaltan:

  • Acceso a miles de computadoras por segundos. Escalas sin comprar infraestructura propia.
  • Pago por uso. Solo pagas lo que utilizaste en ese tiempo.
  • Puede ser más barato, aunque un poco más complejo de operar.

¿Cómo operar en producción con datos en la nube?

En producción, la clave es elegir tecnologías de procesamiento adecuadas y aprovechar servicios administrados. El objetivo: automatizar, escalar y mantener un flujo de datos confiable de extraer, transformar y cargar (ETL) para análisis posterior.

¿Qué tecnologías de procesamiento elegir: Spark o Hadoop?

Para procesar datos a gran escala, el dominio de Spark o Hadoop es fundamental.

  • permiten procesamiento en bloque o en chorro.
  • se usan cuando necesitas rapidez y robustez en cargas grandes.
  • habilitan flujos continuos cuando tu caso requiere streaming.

¿Qué ofrece Google Cloud para ETL y análisis?

En opinión del instructor, Google Cloud es uno de los proveedores de datos más avanzados y también más baratos. Su portafolio cubre el ciclo completo de la ciencia de datos, la ingeniería de datos y la ingeniería de machine learning.

  • DataFlow: procesamiento en bloque o streaming.
  • PubSub: mensajería para intercomunicar sistemas.
  • Cloud Storage: almacenamiento prácticamente ilimitado.
  • BigQuery: sistema avanzado para análisis de datos.
  • la lógica se mantiene: extraer, transformar y cargar para análisis posterior.

¿Tú qué caso ves más urgente: volumen que no cabe o operación en producción? Cuéntalo en comentarios y, si quieres seguir la conversación, sígueme en Twitter: JD Arosti.