Consideraciones de ETL
- Debo asegurar la calidad de los datos
- Tener claro las fuentes y los objetivos
- Definir si mi ETL sera en Batch (cada 20 min) o Streaming (en menos de 1 seg)
- Definir si mi ETL sera incremental o total
- La documentación
Introducción a ETL
¿Qué es un ETL en ingeniería de datos?
Conceptos base de ETL
Consideraciones de ETL
Servicios y herramientas para ETL
Quiz: Introducción a ETL
Extracción de datos
Sources
Configuración de base de datos source y entorno para ETL en Python
Extracción de datos con Python y Pandas
Quiz: Extracción de datos
Transformación de datos
Transformación
Transformación de datos con Python y Pandas
Transformación de datos de países
Transformación de datos de transacciones
Quiz: Transformación de datos
Carga de datos
Carga
Configuración de clúster en AWS Redshift
Crear tablas en AWS Redshift
Carga de datos con Python
Estructurar sentence para carga de datos de S3 a Redshift
Carga de datos: subida de archivos a AWS Redshift
Quiz: Carga de datos
ETL con Pentaho
Instalación de Pentaho
Extracción de datos con Pentaho
Transformación de datos con Pentaho
Transformación de datos con Pentaho: parte 2
Transformación de datos con Pentaho: parte 3
Carga de datos con Pentaho
Quiz: ETL con Pentaho
Conclusión
Siguientes pasos
Comparte tu proyecto de ETL y obtén tu certificado
No tienes acceso a esta clase
¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera
Aportes 12
Preguntas 1
10/10 me gusta el curso
El término “batch” y “streaming” se refiere a la forma en que se manejan y procesan los datos durante las etapas de transformación y carga.
Proceso en Batch: Los datos se procesan en lotes o conjuntos predefinidos en intervalos regulares de tiempo. Esto implica que los datos se extraen de las fuentes, se transforman y se cargan en el destino en grupos o lotes completos.
Características clave del procesamiento en batch:
El procesamiento en batch es útil cuando se necesita procesar grandes volúmenes de datos, realizar transformaciones complejas que requieren el procesamiento conjunto de los datos o cuando los requisitos de tiempo real no son estrictos.
Proceso en Streaming:
En contraste con el procesamiento en batch, el procesamiento en streaming implica el procesamiento continuo y en tiempo real de los datos a medida que se generan o llegan. Los datos se procesan y se cargan de manera incremental y continua a medida que fluyen en el sistema.
Los datos se procesan y transforman a medida que se generan o llegan, generalmente en pequeñas unidades o eventos individuales.
Las transformaciones y los cálculos se aplican a los datos a medida que se reciben, lo que permite obtener resultados y actualizaciones en tiempo real.
Los datos se cargan o transmiten continuamente en el destino a medida que se procesan.
Ejemplos: Detección de fraudes en tiempo real, Análisis de redes sociales en tiempo real
El procesamiento en streaming es útil cuando se requiere tomar decisiones o actuar de manera casi instantánea sobre los datos, como en aplicaciones de monitoreo en tiempo real, análisis de datos en tiempo real o detección de anomalías.
En argentina tenes que usar el Streaming para saber la cotizacion actualizada del dolar 🫠
Hasta ahora un curso genial 😄
¿Quieres ver más aportes, preguntas y respuestas de la comunidad?