Contenido del curso
Conceptos básicos
Instalación y configuración
Implementando un DAG
Orquestar y monitorizar procesos
Sensores
Templates con Jinja
XComs
BranchPythonOperator
Proyecto
Cierre del curso
Posibles configuraciones
Contenido del curso
Posibles configuraciones
Royer Guerrero Pinilla
EstudianteEric Bellet
Profesorfrank hurtado
EstudianteJose Colmenares
EstudianteAndres Hita
EstudianteEric Bellet
ProfesorMarvin Avila Burgos
Estudiantejorge alarcon
EstudianteEric Bellet
ProfesorBrenda Odeth Lemus Vallarta
EstudianteGabriela Andreina García Uzcategui
EstudianteCelia Palacios
EstudianteSantiago Andres Gelvez Camargo
EstudianteCAMILO ANDRES CIFUENTES MENDOZA
EstudianteEric Bellet
ProfesorDaniel Fernando Barrera Armendaris
EstudianteEric Bellet
ProfesorManuel CABRERA
EstudianteEric Bellet
ProfesorAndres Insuasty
EstudianteEric Bellet
ProfesorAndres Insuasty
EstudianteMario Alexander Vargas Celis
EstudianteJulián Bojacá
EstudianteEric Bellet
ProfesorLeonardo Martin Mendez
EstudianteEric Bellet
ProfesorKevin Zepeda
Estudiante⚠️ Recuerden que si quieren cambiar el puerto deben cambiar el primero que hace referencia a su maquina y no al container
... ports: - 8081:8080 ...
100% de acuerdo y gracias por comentarlo
En esta clase aprendemos de forma fundamental a cambiar el archivo airflow.cfg ubicado en el Working Directory del contenedor “Webserver” acedemos al bash del contenedor usando docker y el id esto para modificar directamente el archivo
docker exec -it tu_id bash
otra forma es usando el docker-compose.yml, si el archivo que descargamos. En este yml editamos y agregamos variables como
AIRFLOW__CORE__LOAD_EXAMPLES: 'false' AIRFLOW__SCHEDULER__DAG_DIR_LIST_INTERVAL: 100
esto para evitar que nos descargue los ejemplos de airflow y cambiar el tiempo de espera que tiene la interfaz para mostrarte los DAGs o ficheros que has creado.
adicionalmente podemos cambiar el puerto donde queremos deplegar la interfaz del airflow, aqui un pequeno cometario, como lo hace el companero R0Y3R, aqui hay que cambiar el primer puerto ya que este puerto es el que hace referencia al puerto de tu maquina local y el segundo al puerto del contenedor de docker
ports: - 8085:8080
por ultimo, abordamos los volumenes, donde se comparten los ficheros creados en nuestra carpeta con el contenedor
volumes: - ./dags:/opt/airflow/dags - ./logs:/opt/airflow/logs - ./plugins:/opt/airflow/plugins
Saludos
Esta clase en clave, en ninguna parte de la documentación de airflow te dicen donde está la sección de configuraciones
Por qué una vez instalado y levantado el docker-compose.yaml no me reconoce la librería airflow?
Eso es un tema del editor de código que usas. Dependiendo de cual usashay que hacer algunas configuraciones para que te lo detecte. La manera rápida es que hagas un pip install airflow en tu local
Instalación en ubuntu.
Debemos instalar previamente docker compose en nuestro equipo para ello puedes usar: https://www.digitalocean.com/community/tutorials/how-to-set-up-laravel-nginx-and-mysql-with-docker-compose-on-ubuntu-20-04
Luego use estos comandos para instalar: mkdir airflow mkdir -p ./dags ./logs ./plugins echo -e "AIRFLOW_UID=$(id -u)" > .env curl https://airflow.apache.org/docs/apache-airflow/2.3.3/docker-compose.yaml --output docker-compose.yml docker-compose up
pero en el tipo de la variable AIRFLOW__SCHEDULER__DAG_DIR_LIST_INTERVAL dice string no deberia ser "100"
Siempre lo he usado como entero y me funciona, te recomiendo que en vez de 100 coloques mejor 5 o 10 para desarrollar
Update: Dag_dir está obsoleto (https://airflow.apache.org/docs/apache-airflow/stable/configurations-ref.html#dag-dir-list-interval-deprecated) 
Se recomienda usar:
AIRFLOW__DAG_PROCESSOR__REFRESH_INTERVAL
Es correcto muchas gracias!
Con esta variable AIRFLOW__SCHEDULER__DAG_DIR_LIST_INTERVAL evito reiniciar el ariflow si he añadido dags en mi directorio actual? Es que en mi caso si creo un dag nuevo en la carpeta dag no aparece hasta que no reinicie el airflow
A dia de hoy ya no se encuentra como webserver sino como apiserver:
No pude instalar Airflow en mi MAC
¿Cómo lo intentaste? Donde te falló? Yo uso Mac y no he tenido problemas.
AYUDA
Hola cuando trato de hacer el fetch del Yaml aparece esto:
curl: (60) SSL certificate problem: unable to get local issuer certificate More details here: https://curl.se/docs/sslcerts.html
curl failed to verify the legitimacy of the server and therefore could not establish a secure connection to it. To learn more about this situation and how to fix it, please visit the web page mentioned above.
Prueba con este enlace curl -LfO 'https://airflow.apache.org/docs/apache-airflow/2.5.2/docker-compose.yaml'
buenos dias:
Agradezco su colaboracion para lograr leer n carpetas Dags dentro de mi archivo *.yaml , agregue la variable AIRFLOW__CORE__DAGS_FOLDER : /home/mvial/projects/workflows/dags , /home/andres/airflow_qualite/dags pero no logro que me reconozca los dags de estas carpetas, agradezco enormemente su colaboracion. Gracias
Buenas, esas carpetas están en el Docker file? Es decir, ¿están mapeadas en los volúmenes?
Como es la instalación? no funciona los pasos del video
Hola Andres, hay un documento en la sección de recursos para instalar Docker. Por lo que veo tienes un error con Docker, ¿usas Windows cómo sistema operativo? ¿Es primera vez que ejecutas un docker-compose en tu máquina?
Si uso Windows. Lo pude instalar siguiendo los pasos de este videos https://www.youtube.com/watch?v=aTaytcxy2Ck
Aquí tienes varias configuraciones posibles para ejecutar Apache Airflow con Docker según tus necesidades. Cada configuración aborda diferentes escenarios y requisitos.
Configuración Básica
Ideal para pruebas locales y proyectos pequeños.
Requisitos:
docker-compose.yaml básico.version: '3.7' services: airflow-webserver: image: apache/airflow:2.10.3 container_name: airflow_webserver ports: - "8080:8080" environment: - AIRFLOW__CORE__LOAD_EXAMPLES=False - AIRFLOW__WEBSERVER__WORKER_REFRESH_BATCH_SIZE=5 volumes: - ./dags:/opt/airflow/dags - ./logs:/opt/airflow/logs - ./plugins:/opt/airflow/plugins depends_on: - airflow-init airflow-scheduler: image: apache/airflow:2.10.3 container_name: airflow_scheduler depends_on: - airflow-webserver airflow-init: image: apache/airflow:2.10.3 container_name: airflow_init entrypoint: ["airflow", "db", "init"] volumes: - ./dags:/opt/airflow/dags - ./logs:/opt/airflow/logs - ./plugins:/opt/airflow/plugins
Configuración con Base de Datos Externa
Si necesitas usar una base de datos más robusta (como PostgreSQL) en lugar de SQLite.
Requisitos:
version: '3.7' services: postgres: image: postgres:13 container_name: airflow_postgres environment: POSTGRES_USER: airflow POSTGRES_PASSWORD: airflow POSTGRES_DB: airflow ports: - "5432:5432" airflow-webserver: image: apache/airflow:2.10.3 container_name: airflow_webserver environment: - AIRFLOW__CORE__SQL_ALCHEMY_CONN=postgresql+psycopg2://airflow:airflow@postgres:5432/airflow - AIRFLOW__CORE__EXECUTOR=LocalExecutor ports: - "8080:8080" depends_on: - postgres airflow-init: image: apache/airflow:2.10.3 container_name: airflow_init entrypoint: ["airflow", "db", "init"] environment: - AIRFLOW__CORE__SQL_ALCHEMY_CONN=postgresql+psycopg2://airflow:airflow@postgres:5432/airflow
Configuración con Celery
Para escalabilidad en la ejecución de tareas distribuidas.
Requisitos:
version: '3.7' services: redis: image: redis:6 container_name: airflow_redis ports: - "6379:6379" airflow-webserver: image: apache/airflow:2.10.3 container_name: airflow_webserver environment: - AIRFLOW__CELERY__BROKER_URL=redis://redis:6379/0 - AIRFLOW__CELERY__RESULT_BACKEND=db+sqlite:///airflow/airflow.db - AIRFLOW__CORE__EXECUTOR=CeleryExecutor ports: - "8080:8080" depends_on: - redis airflow-worker: image: apache/airflow:2.10.3 container_name: airflow_worker environment: - AIRFLOW__CELERY__BROKER_URL=redis://redis:6379/0 - AIRFLOW__CELERY__RESULT_BACKEND=db+sqlite:///airflow/airflow.db - AIRFLOW__CORE__EXECUTOR=CeleryExecutor depends_on: - redis airflow-init: image: apache/airflow:2.10.3 container_name: airflow_init entrypoint: ["airflow", "db", "init"]
Configuración para Desarrollo
Si quieres montar volúmenes locales para edición dinámica de DAGs y plugins.
Configuración de Volúmenes:
volumes: dags: driver: local logs: driver: local plugins: driver: local
Docker Compose:
services: airflow-webserver: image: apache/airflow:2.10.3 ports: - "8080:8080" volumes: - ./dags:/opt/airflow/dags - ./plugins:/opt/airflow/plugins
Configuración Multiusuario
Para entornos donde varias personas necesitan trabajar con un servidor web compartido.
Ambiente:
environment: - AIRFLOW__WEBSERVER__AUTH_BACKEND=airflow.providers.google.cloud.auth_backend.google_auth
Configura las credenciales de Google OAuth siguiendo la guía oficial de Airflow.
Notas Generales
Comando de Inicialización: Siempre ejecuta antes:docker-compose up airflow-init
Archivo .env: Utiliza un archivo .env para gestionar variables sensibles:AIRFLOW_UID=50000
Si necesitas más detalles, avísame y personalizamos la configuración según tu entorno.
¿El archivo de configuración que se modifica solo es el del web server? Revisé en el scheduler y ahí también existe un airflow.cfg.
También puedes hacer configuraciones en ese archivo
Hola, cuando inicio el contenedor de Docker todo se relentiza y hace imposible trabajar, abrir la UI de Airflow es eterno. Alguno concejo para sortear este problema?
Puedes configurar la cantidad de recursos que usa tu computadora Docker, en configuraciones
La forma de definir la configuración es travez del archivo airflow.cfg ubicado en el Working Directory del contenedor "Webserver" y puedes pasar los parámetros a travez de Docker compose en las variables de entorno.