No tienes acceso a esta clase

隆Contin煤a aprendiendo! 脷nete y comienza a potenciar tu carrera

Consideraciones de ETL

3/25
Recursos

Aportes 11

Preguntas 1

Ordenar por:

驴Quieres ver m谩s aportes, preguntas y respuestas de la comunidad?

Consideraciones de ETL

  1. Debo asegurar la calidad de los datos
  2. Tener claro las fuentes y los objetivos
  3. Definir si mi ETL sera en Batch (cada 20 min) o Streaming (en menos de 1 seg)
  4. Definir si mi ETL sera incremental o total
  5. La documentaci贸n

10/10 me gusta el curso

Definir si mi ETL sera en Batch (cada 20 min) o Streaming (en menos de 1 seg)

El t茅rmino 鈥渂atch鈥 y 鈥渟treaming鈥 se refiere a la forma en que se manejan y procesan los datos durante las etapas de transformaci贸n y carga.

Proceso en Batch: Los datos se procesan en lotes o conjuntos predefinidos en intervalos regulares de tiempo. Esto implica que los datos se extraen de las fuentes, se transforman y se cargan en el destino en grupos o lotes completos.

Caracter铆sticas clave del procesamiento en batch:

  • Los datos se procesan y transforman en funci贸n de un horario programado o en intervalos de tiempo espec铆ficos (p. ej., diariamente, cada hora, cada noche).
  • Los datos se almacenan y se procesan en memoria o en disco antes de aplicar las transformaciones y cargarlos en el destino.
  • Los datos se cargan en el destino una vez que se ha completado todo el procesamiento y transformaci贸n del lote actual.
  • Ejemplos: Analisis historicois de venta, Analisis Financieros

El procesamiento en batch es 煤til cuando se necesita procesar grandes vol煤menes de datos, realizar transformaciones complejas que requieren el procesamiento conjunto de los datos o cuando los requisitos de tiempo real no son estrictos.

Proceso en Streaming:
En contraste con el procesamiento en batch, el procesamiento en streaming implica el procesamiento continuo y en tiempo real de los datos a medida que se generan o llegan. Los datos se procesan y se cargan de manera incremental y continua a medida que fluyen en el sistema.

  • Los datos se procesan y transforman a medida que se generan o llegan, generalmente en peque帽as unidades o eventos individuales.

  • Las transformaciones y los c谩lculos se aplican a los datos a medida que se reciben, lo que permite obtener resultados y actualizaciones en tiempo real.

  • Los datos se cargan o transmiten continuamente en el destino a medida que se procesan.

  • Ejemplos: Detecci贸n de fraudes en tiempo real, An谩lisis de redes sociales en tiempo real

    El procesamiento en streaming es 煤til cuando se requiere tomar decisiones o actuar de manera casi instant谩nea sobre los datos, como en aplicaciones de monitoreo en tiempo real, an谩lisis de datos en tiempo real o detecci贸n de anomal铆as.

En argentina tenes que usar el Streaming para saber la cotizacion actualizada del dolar 馃珷

Hasta ahora un curso genial 馃槃

3. Consideraciones de ETL

  • Calidad de los datos
  • Sources & Target
  • Batch; procesamiento en lote - 20 min o Streaming; Menos de 1 seg
  • Incremental o total
  • Documentar

CONSIDERACIONES DE ETL

  • Calidad de los datos: cual es el estado mas optimo o de mayor calidad dee los datos.
  • Tener en cuenta las fuentes y los objetivos: source y target
  • Definir si mi ETL ser谩 en Batch (tarea recurrente de acuerdo a un lapso de tiempo o un delta, ejemplo cada 20 min) o Streaming (real time o con menos de 1 segundo)
  • Definir si mi ETL ser谩 incremental o total: cada vez que se ejecute la etl voy a cargar desde cero todos los recursos transformarlos y cargarlos al punto de destino; incremental, es como se suele utilizar en bdds trasaccionales, ejemplo: cada hora voy a llevarme todos los datos que pasaron esa hora, cada que corra la etl solo va a procesar los datos nuevos.
  • Documentar / documentaci贸n
Super bueno el curso, hasta ahora estoy super satisfecho no me imagino la practica.
a que hace referencia el target
Algunas consideraciones sobre ETL son: * La calidad de los datos: a mayor calidad de los datos, m谩s preguntas se podr谩n responder. * De d贸nde los extraigo (sources) y d贸nde los cargo (targets). * El tipo de procesamiento puede ser en tiempo real (real-time, streaming) o por lotes (batch). * La carga: no es lo mismo si cambian todos los datos o si solo se agregan o cambian algunos. Es una carga total si se parte de cero; de lo contrario, es una carga incremental. Por ejemplo, cada cierto tiempo, se cargan nuevos datos extra铆dos en un plazo determinado. Esto es com煤n en algunas bases de transacciones. * La documentaci贸n: si quieres cambiar algo o realizar alguna mejora, tienes que saber qu茅 hay detr谩s del ETL.
Todos los conceptos est谩n bastante claros. Excelente curso.