Apache Airflow como siguiente paso en ETL

Curso de Fundamentos de ETL con Python y Pentaho

Contenido del curso

Introducción a ETL

Extracción de datos

Transformación de datos

Carga de datos

ETL con Pentaho

Conclusión

Tomar examen

Apache Airflow como siguiente paso en ETL

Resumen

Los pipelines de datos rara vez funcionan solos: necesitan un director de orquesta. Aquí entra Apache Airflow, la herramienta open source que coordina cada paso de tus procesos ETL y ELT, desde la extracción hasta la carga, pasando por triggers, schedulers y manejo de errores. Si ya dominas los fundamentos, este es el siguiente nivel para ingenieros de datos, científicos de datos y cualquiera que construya proyectos robustos de inteligencia artificial.

Por qué Apache Airflow es clave en la ingeniería de datos

La orquestación compleja de pipelines no se resuelve con un script aislado. Necesitas una plataforma que entienda dependencias, tiempos y errores, y que te permita escalar sin perder control.

Apache Airflow es una iniciativa totalmente libre para orquestar los steps de un pipeline de datos. Su valor está en que combina lenguajes que ya conoces, como Python y SQL, y te permite construir flujos de trabajo donde cada tarea se ejecuta en el momento correcto, con la información correcta.

¿Qué es Apache Airflow? Es una herramienta open source que orquesta pasos dentro de pipelines de datos. Coordina extracciones, transformaciones, cargas y dependencias usando Python y SQL.

Qué tipo de tareas puede orquestar Airflow

La flexibilidad de Airflow se nota cuando piensas en escenarios reales que cualquier equipo de datos enfrenta a diario.

Procesos ETL clásicos: extracción, transformación y carga.
Procesos ELT: extracción, carga y después transformación dentro del repositorio destino.
Esperar a que un archivo específico esté disponible antes de continuar.
Disparar un pipeline cuando un archivo se sube a la nube.
Activar flujos cuando un usuario realiza una acción específica.

Después de listar estos casos, queda claro que Airflow no es solo un scheduler: es una capa de control que reacciona a eventos y condiciones del mundo real.

Cómo encajan ETL y ELT en proyectos de ciencia de datos

Las ETL y las ELT suelen pasar desapercibidas porque la atención pública está en los dashboards, los modelos y las decisiones de negocio. Pero nada de eso existe sin datos limpios y manejables.

Cada gran proyecto de inteligencia artificial o ingeniería de datos tiene una ETL detrás sosteniéndolo. Los ingenieros de datos extraen información de múltiples fuentes, la transforman para que sea coherente y la cargan en repositorios minables. Ese trabajo invisible es lo que vuelve posible cualquier análisis posterior.

¿Cuál es la diferencia entre ETL y ELT? En ETL transformas los datos antes de cargarlos al destino. En ELT primero cargas y luego transformas dentro del repositorio, aprovechando su poder de cómputo.

Qué aporta Airflow a un pipeline robusto

Más allá de ejecutar tareas, Airflow agrega capas que un script suelto no te da.

Manejo de schedulers para definir cuándo corre cada tarea.
Traza de errores para saber dónde y por qué falló un paso.
Manejo de errores con reintentos y rutas alternativas.
Integración nativa con Python y SQL para no reaprender un lenguaje nuevo.

Con estas piezas, tu pipeline deja de ser frágil y se vuelve un sistema observable, escalable y mantenible.

Cuál es el siguiente paso después de los fundamentos de ETL

Dominar los fundamentos te da la columna vertebral. El paso siguiente es aprender a orquestar pipelines complejos, y para eso existe un curso dedicado a Airflow disponible en los recursos de esta clase.

¿Por qué aprender Airflow después de ETL? Porque los fundamentos te enseñan a mover datos, y Airflow te enseña a coordinar decenas de esos movimientos sin que se rompan entre sí.

Te invito a cerrar este recorrido subiendo un proyecto desde cero y compartiéndolo con la comunidad, o presentando el examen del curso. Si construyes algo con lo aprendido, déjalo en los comentarios y cuéntame qué fuentes estás integrando en tu pipeline.

Jorge Andres Avendano Carabali

Estudiante

test rrrespuestas--

Resumen1.¿Qué significa ETL en ingeniería de datos?ETL es un acrónimo que significa "Extracción, Transformación y Carga", un proceso utilizado para integrar datos de múltiples fuentes en un solo destino.2.

¿Cuál es la importancia de ETL en ingeniería de datos?

ETL es importante en ingeniería de datos porque permite a los profesionales de datos integrar y consolidar datos de múltiples fuentes, lo que mejora la calidad y la eficacia de los análisis y toma de decisiones.3.

¿Cuál es la diferencia entre el source y el target en una ETL?

El source se refiere a la fuente de datos donde se extraen los datos para la transformación y carga en el target, que es el destino final de los datos.4.

¿Cuál es la diferencia entre un data warehouse y un data lake en términos de ETL?

En un data warehouse el proceso de ETL se centra en la integración y transformación de datos estructurados y almacenados en diferentes sistemas, para crear un conjunto de datos coherente y consolidado. En un data lake, el proceso de ETL se enfoca en la ingestión y almacenamiento de datos en su forma más cruda, sin aplicar transformaciones significativas hasta que se requieran para un análisis específico.

5.¿Siempre es mejor que una ETL se realice en streaming y no en procesos batch?Falso, depende de la misma naturaleza y necesidades del proyecto.6.

Un ETL netamente desarrollada desde cero en Python u otro lenguaje, ¿de qué tipo se puede considerar?

Custom7.Es algo a tener en cuenta al momento de usar sources en un proceso de ETL.Considerar la calidad y consistencia de los datos.REPASAR CLASE8.

¿Cómo afecta la frecuencia de extracción de las fuentes en una ETL?

Si la frecuencia es muy baja, es posible que se pierdan datos recientes, mientras que una frecuencia demasiado alta puede causar una sobrecarga en el sistema y afectar el rendimiento.

9.La extracción de datos en Python solo la debo manejar con la librería de Pandas. ¿Esto es verdadero o falso?Falso, si bien es una librería perfecta para la manipulación de datos existen otras librerías que podemos usar.10.

¿Cuál es la mejor estrategia para manejar duplicados en una ETL?

La mejor estrategia para manejar duplicados en una ETL es utilizar una combinación de técnicas como la eliminación de duplicados, la unificación de registros y la consolidación de datos.11.

¿Qué hace esta línea de código de Pandas?

df_codes[['clean_code','parent_description']] = df_codes.apply(lambda x : clean_code(x['Code']),axis=1, result_type='expand') Asigna a dos columnas de un DataFrame (df_codes) los resultados de aplicar una función lambda (clean_code) a la columna "Code" de dicho DataFrame, para cada fila.12.

¿Qué hace esta línea de código de Pandas en el DataFrame?

df_countries = df_countries[df_countries['alpha-3'].notnull()] Filtra el DataFrame 'df_countries' para eliminar todas las filas donde la columna 'alpha-3' tiene un valor nulo.13.

¿Cuál es la razón de crear esta función en Python para una transformación de datos?

defcreate_dimension(data, id_name): list_keys = [] value = 1 for _ in data: list_keys.append(value) value = value + 1 return pd.DataFrame({id_name:list_keys, 'values':data}) Una manera eficiente de crear un DataFrame con valores únicos de posibles dimensiones o valores categóricos.14.

¿Cuál es la importancia del formato de los datos en el proceso de carga en una ETL?

El formato de los datos es esencial en el proceso de carga de una ETL, ya que determina cómo se pueden manipular y transformar los datos durante la fase de transformación.15.

¿Cuál es la librería en Python para gestionar el uso de AWS?

boto316.Desde Python únicamente se puede gestionar carga a data warehouses de AWS como Redshift. ¿Esto es verdadero o falso?Verdadero, ya que solo existen librerías de Python para comunicarse con AWS.REPASAR CLASE17.

¿Qué herramienta de Pentaho debe usarse para leer datos de una tabla en una base de datos?

Input Table18.

¿Cuál es el propósito del paso Select values en Pentaho PDI?

Se utiliza para seleccionar y renombrar columnas específicas de un conjunto de datos.19.

¿Cuál es el propósito del paso Filter rows en Pentaho PDI?

Filtrar filas específicas de un conjunto de datos en función de una o más condiciones.20.¿En Pentaho solo puedo hacer un cargue de datos a bases de datos relacionales?No, hay múltiples target no relacionales a los que puedo cargar.Ver menos

Apache Airflow como siguiente paso en ETL

Introducción a ETL

¿Qué es un ETL en ingeniería de datos?

Conceptos clave de ETL: source, target y staging

Consideraciones clave antes de implementar ETL

Herramientas ETL: Pentaho, Pandas y más

Extracción de datos

Consideraciones clave al extraer datos en ETL

Configuración de base de datos source y entorno para ETL en Python

Extracción ETL con Pandas desde Postgres

Transformación de datos

Consideraciones clave antes de transformar datos ETL

Limpieza de códigos de productos con Pandas

Merge de países y productos con pandas

Cómo convertir un DataFrame en tabla de hechos

Carga de datos

Consideraciones clave antes de cargar a Redshift

Configuración de clúster en AWS Redshift

Crear tablas en AWS Redshift

Carga de CSV a Redshift con COPY

Estructurar sentence para carga de datos de S3 a Redshift

Carga masiva de CSVs a Redshift con Python

ETL con Pentaho

Instalación de Pentaho

Extracción de datos con Pentaho desde cero

Transformación de códigos con Pentaho

Transformaciones ETL en Pentaho sin código

Merge y lookup en Pentaho para tabla de hechos

Carga de datos ETL con Pentaho a Redshift

Conclusión

Apache Airflow como siguiente paso en ETL

Comparte tu proyecto de ETL y obtén tu certificado

Resumen