📊 Apache Airflow – Orchestration, DAGs & Executors

1.1 Concept : Orchestrateur de Pipelines (ETL/ELT)

Qu'est-ce qu'Apache Airflow ?

Apache Airflow (créé par Airbnb, maintenant projet Apache) est une plateforme d'orchestration de flux de travail (workflow) open-source. C'est l'outil de référence pour l'ETL/ELT (Extract, Transform, Load) et le Data Engineering.

"Workflows as Code" (Python)

La philosophie d'Airflow est "Workflows as Code" (Flux de travail en tant que Code). Vous ne "dessinez" pas (drag-and-drop) vos pipelines. Vous les écrivez en Python.

Avantages : Les pipelines (DAGs) sont dynamiques (générés par du code), versionnables (Git), et testables (Pytest).

DAG (Directed Acyclic Graph)

Airflow est basé sur le concept de DAG (Graphe Orienté Acyclique). C'est le "plan" (le "workflow") que vous définissez en Python.

Graphe (Graph) : Un ensemble de Tâches (Tasks) (nœuds) et de Dépendances (arêtes).
Orienté (Directed) : Les liens (dépendances) ont un sens (Tâche A -> Tâche B).
Acyclique (Acyclic) : Le graphe n'a pas de boucle (A -> B -> C -> A est impossible).

        [Tâche A: Extrait (E)]
           │
           ├─► [Tâche B1: Transform (T)] ─► [Tâche C1: Load (L)]
           │
           └─► [Tâche B2: Transform (T)] ─► [Tâche C2: Load (L)]

1.2 Architecture (Les 4+ Composants)

Airflow (v2.0+) a une architecture "désassemblée" (scalable) basée sur 4 composants principaux (plus le dossier de DAGs).

(Utilisateur)
     │
     ▼ (HTTP)
+----------------+
| [ WEBSERVER ]  | (UI / API)
| (Flask/Gunicorn) |
+----------------+
     │ ▲
(Lit/Écrit État) │ (Lit État)
     │ ▼
+----------------+   (Lit/Parse)   +-------------------+
| [ METADATA DB] | ◄--------------- | [ SCHEDULER ]     |
| (Postgres/MySQL) | (Stocke l'État) | (Daemon/Cœur)     |
| (Ex: Runs, Tasks) |                 +-------------------+
+----------------+                       │ ▲
     │                                     │ │ (Parse/Lit)
     │ (Envoie Tâche)                      │ ▼
     ▼                               +-------------+
+----------------+                     | [ DAGs ]    |
| [ EXECUTOR ]   |                     | (Python)    |
| (ex: Celery, K8s)|                     | (.py files) |
| (Le "Muscle")  |                     +-------------+
|   [Worker 1]   |
|   [Worker N]   |
+----------------+

1. Webserver (Serveur Web) : (Flask) L'interface utilisateur (UI) pour visualiser les DAGs, monitorer les "Task Instances" (5.1), et déclencher (Trigger) les "DAG Runs" (5.1).
2. Scheduler (Planificateur) : (Le "Cœur") Un daemon (service) qui lit (parse) vos fichiers .py (DAGs), vérifie les planifications (schedule) (ex: "cron"), et envoie les tâches prêtes à être exécutées à l'Executor.
3. Metadata Database (Base de Données) : (Le "Cerveau") Une base SQL (Postgres/MySQL, jamais SQLite en prod). C'est le SPOF. Elle stocke l'état (state) de tous les DAGs, Tâches, Runs, Logs, XComs, et Connections.
4. Executor (Exécuteur) : (Le "Muscle") Définit comment les tâches sont exécutées (Local, Celery, Kubernetes...).
(5. Dossier de DAGs) : Un dossier (ex: /opt/airflow/dags) (souvent un volume Git-Sync) que le Scheduler et le Webserver lisent.

1.3 Comparaison : Airflow vs. Cron

Cron (voir guide Cron) est un "planificateur" (scheduler). Airflow est un "orchestrateur" (orchestrator).

Critère	`cron` (Classique)	Apache Airflow
Concept	"Time-based" (Basé sur le temps).	"Event/Dependency-based" (Basé sur les dépendances).
Dépendances	Non. (Tâche A ne sait pas si Tâche B a échoué).	Oui (`A >> B`). (Gestion de graphe (DAG)).
Retries (Ré-essais)	Non (Manuel).	Oui (Intégré, ex: `retries=3`, `retry_delay=...`).
Backfilling (Rattrapage)	Non (`anacron` basique).	Oui (`airflow dags backfill`).
Monitoring (Logs)	Faible (Email (`MAILTO`) ou `> /dev/null`).	Excellent (UI Web, Logs centralisés par Tâche/Run).
Scalabilité	Limitée (1 machine).	Élevée (Distribué : Celery/Kubernetes Executors).
Usage	Tâche simple (`backup.sh`).	Pipelines Data complexes (ETL, ELT, ML).

2.1 Le Cœur : Le DAG (Graphe)

Le DAG est la définition (le "plan") de votre pipeline. C'est un fichier Python (.py) qui est lu (parsé) par le Scheduler.

Exemple (Fichier `.py`)

Un DAG est défini en Python. Le code n'est pas exécuté, il est parsé par le Scheduler pour (extraire) la structure (Tâches + Dépendances).

from airflow.decorators import dag
from airflow.operators.bash import BashOperator
from datetime import datetime

# (Arguments par défaut pour le DAG)
default_args = {
    'owner': 'ideo',
    'retries': 3,
    'retry_delay': timedelta(minutes=5)
}

# (Définition du DAG (le "Graphe"))
@dag(
    dag_id='mon_premier_dag',
    default_args=default_args,
    description='Un DAG simple',
    
    # (Planification : "Cron")
    # (Tous les jours à 2h du matin)
    schedule_interval='0 2 * * *',
    
    # (Date de début (obligatoire))
    start_date=datetime(2025, 1, 1),
    
    # (Ne pas rattraper le passé au 1er lancement)
    catchup=False,
    
    tags=['demo', 'ideo']
)
def ma_fonction_dag():
    
    # (Tâche 1)
    t1 = BashOperator(
        task_id='print_date',
        bash_command='date'
    )
    
    # (Tâche 2)
    t2 = BashOperator(
        task_id='sleep',
        bash_command='sleep 5'
    )
    
    # (Dépendance : t1 PUIS t2)
    t1 >> t2

# (Instanciation du DAG)
ma_fonction_dag()

2.2 Le "Quoi" : Operator

Un Operator (Opérateur) est la Tâche (Task) atomique. C'est le "nœud" (node) du DAG. C'est le "Quoi" (l'action à exécuter).

1. Action Operators

Ils exécutent une action (un "verbe").

BashOperator : (Le plus courant) Exécute une commande Shell/Bash (bash_command='...').
PythonOperator : (Le plus puissant) Exécute une fonction Python (python_callable=ma_fonction).
DockerOperator : Lance un conteneur Docker.
KubernetesPodOperator : Lance un Pod Kubernetes.
PostgresOperator : Exécute du SQL sur Postgres.
SparkSubmitOperator : Soumet un job Spark.

2. Transfer Operators

Déplacent des données (ex: S3ToRedshiftOperator).

3. Sensors (Capteurs) (Voir 3.2)

Ce sont des Operators "spéciaux" (mode='poke') qui attendent (poll) que quelque chose se produise.

HttpSensor : Attend qu'une URL (API) retourne 200 OK.
FileSensor : Attend qu'un fichier (.csv) arrive sur le disque.
SqlSensor : Attend qu'une requête SQL (SELECT COUNT...) retourne True.

Exemple : `PythonOperator`

Recommandé (vs BashOperator) car le code est testable (Pytest) et gère l'environnement (Python venv).

# --- 1. Définir la fonction Python ---
# (Peut être dans un autre fichier)
def ma_fonction_python(nom, age):
    print(f"Bonjour, {nom}. Vous avez {age} ans.")
    # (Doit retourner une valeur si xcom_push=True)
    return {"status": 200, "user": nom}

@dag(...)
def mon_dag():

    # --- 2. Définir l'Operator ---
    t_python = PythonOperator(
        task_id='tache_python',
        
        # (La fonction à appeler)
        python_callable=ma_fonction_python,
        
        # (Arguments passés à la fonction)
        op_kwargs={
            "nom": "Alice",
            "age": 30
        }
        
        # (Par défaut, le 'return' est poussé (push)
        #  vers XCom (6.1))
        # do_xcom_push=True 
    )

2.3 Le "Lien" : Dépendances (Bitshift)

L'orchestration est définie par les dépendances (flux) entre les tâches (Operators).

Opérateurs "Bitshift" (`>>`, `<<`)

La syntaxe "moderne" (Pythonique) pour définir les dépendances (l'ordre).

(t1, t2, t3, t4 sont des Operators)

# --- 1. Séquentiel ---
# (Exécute t1, PUIS t2)
t1 >> t2

# (Équivalent : t2 << t1)
# (Équivalent : t2.set_upstream(t1))

# --- 2. Parallèle (Fan-Out) ---
# (Exécute t1, PUIS (t2 et t3 en parallèle))
t1 >> [t2, t3]

# --- 3. Parallèle (Fan-In) ---
# (Exécute (t1 et t2 en parallèle),
#  PUIS (quand les 2 sont finis) t3)
[t1, t2] >> t3

# --- 4. Chaînage Complexe ---
start >> [t_extract_A, t_extract_B]
t_extract_A >> t_transform_A
t_extract_B >> t_transform_B
[t_transform_A, t_transform_B] >> t_load
t_load >> end

3.1 DAG Run & Task Instance (Les Exécutions)

Il faut différencier la Définition (le .py) de l'Exécution (le "Run").

DAG (Le Plan) : (Fichier mon_dag.py) C'est la Définition (le "plan", la "classe").
DAG Run (L'Exécution) : (L'"Instance" du plan) C'est 1 exécution du DAG pour un instant T (ex: "L'exécution du 10 Nov 2025").
Task Instance (L'Instance de Tâche) : (L'"Instance" de la tâche) L'exécution d'1 Tâche (Operator) pour 1 DAG Run spécifique. C'est l'unité la plus petite (ex: "Tâche t1 du Run du 10 Nov").

États (State) d'une Task Instance

C'est ce que l'on voit dans l'UI (les carrés de couleur) :

none (Gris clair) : (Pas encore démarré)
queued (Gris foncé) : (Envoyé à l'Executor (Celery)).
running (Vert clair) : (En cours d'exécution).
success (Vert foncé) : (Terminé avec succès (exit 0)).
failed (Rouge) : (Échec (exit non-zéro) après N retries).
upstream_failed (Orange) : (Ignoré, car une Tâche "parent" (upstream) a échoué).
skipped (Rose) : (Ignoré (ex: BranchPythonOperator)).
up_for_retry (Jaune) : (Échec, en attente avant ré-essai).

3.2 Sensors (L'Attente)

Un Sensor (Capteur) (une sous-classe d'Operator) est une tâche qui attend (poll) qu'une condition (externe) soit True.

Mode `poke` (Défaut)

Le Sensor prend un "Slot" (Worker) et tourne en boucle (sleep) jusqu'à ce que la condition soit True.

# (Ex: Attendre un fichier S3)
s3_sensor = S3KeySensor(
    task_id='wait_for_s3_file',
    bucket_name='mon-bucket',
    bucket_key='data/input.csv',
    
    mode='poke', # (Défaut)
    poke_interval=60, # (Vérifie toutes les 60 sec)
    timeout=3600 # (Échoue après 1h)
)

Inconvénient : Inefficace. Il "consomme" un slot Worker (ex: Celery) pendant 1h, juste pour attendre.

Mode `reschedule` (Recommandé)

Le Sensor (tâche) s'arrête (up_for_retry) et libère son "Slot" (Worker), puis demande au Scheduler de le "réveiller" (re-planifier) plus tard (ex: dans 60 sec) pour réessayer.

s3_sensor = S3KeySensor(
    task_id='wait_for_s3_file',
    ...
    mode='reschedule', # (Libère le slot)
    poke_interval=60,
    timeout=3600
)

Avantage : Efficace. Ne consomme pas de "Slot" Worker pendant l'attente. (Idéal pour les "sensors" qui attendent des heures).

3.3 Hooks (Connexions)

Un Hook (Crochet) est une abstraction (wrapper) Python (une classe) qui gère l'interface avec un service externe (BDD, API, Cloud).

Hook vs Operator

Les Operators (2.2) utilisent les Hooks (3.3) (via les Connections (6.2)) pour faire le travail.

(Operator: PostgresOperator)
 "Exécute ce SQL"
   │
   │ (Utilise)
   ▼
(Hook: PostgresHook)
 "Je gère la connexion (lib 'psycopg2'),
  j'ouvre le curseur, j'exécute, je ferme."
   │
   │ (Utilise)
   ▼
(Connection: "my_postgres_db")
 (ID dans l'UI : contient Hôte, Login, Pass)

Usage (Dans un `PythonOperator`)

On utilise les Hooks directement dans le code Python (PythonOperator) pour de la logique complexe (ex: SELECT -> Transform -> INSERT).

from airflow.providers.postgres.hooks.postgres import PostgresHook

def select_and_insert():
    # 1. (Utilise "my_postgres_db" (6.2))
    pg_hook = PostgresHook(postgres_conn_id='my_postgres_db')
    
    # 2. (Wrapper pour 'psycopg2')
    # (Utilise .get_conn(), .run(), .get_records()...)
    records = pg_hook.get_records("SELECT * FROM table_a")
    
    # (Transformation...)
    
    # 3. Insérer
    pg_hook.insert_rows(table='table_b', rows=...)

4.1 Composant : Scheduler (Planificateur)

Le Scheduler (Planificateur) (airflow scheduler) est le cœur (daemon) d'Airflow.

Rôles (Boucle)

1. Parser (Analyser) les DAGs : (Toutes les N sec) Scanne le dossier dags_folder. Parse tous les fichiers .py (Python) pour détecter les nouveaux DAGs, les Tâches, et les dépendances.
2. Mettre à jour la BDD : Met à jour la Metadata Database (4.3) avec la structure (définition) des DAGs.
3. Planifier (Schedule) : (Toutes les N sec) Interroge la BDD :
- "Y a-t-il des DAG Runs (schedule_interval) à créer (ex: le cron '0 2 * * *' est arrivé) ?"
- "Y a-t-il des Task Instances (running) à vérifier (timeout, retry) ?"
- "Y a-t-il des Task Instances (success) dont les dépendances (A >> B) sont satisfaites ?"
4. Mettre en File (Queue) : Si une Tâche (ex: B) est prête, le Scheduler la marque "queued" (en attente) et l'envoie à l'Executor (5.1) (ex: Celery).

4.2 Composant : Webserver (UI)

Le Webserver (airflow webserver) est l'Interface Web (GUI) d'Airflow. C'est une application Flask (Python) (généralement servie via Gunicorn en production).

Architecture "Stateless"

L'Interface Web (UI) est (presque) stateless. Elle ne fait rien (pas de planification, pas d'exécution).

Son seul rôle est de lire et écrire dans la Metadata Database (4.3).

Fonctionnalités (UI)

Vue (DAGs) : Lister, Mettre en Pause (Pause), Déclencher (Trigger DAG).
Vue (Grid / Tree) : Visualiser l'état (success, failed) des "DAG Runs" et "Task Instances".
Monitoring : Voir les Logs (récupérés de la BDD ou du worker), voir les Gantt Charts (temps d'exécution).
Admin (Menu) : Gérer les Connections (6.2), Variables (6.2), Pools (6.3).

4.3 Composant : Metadata Database (Le Cerveau)

La Metadata Database (Base de Données des Métadonnées) est le cœur (cerveau) de l'architecture Airflow. C'est le SPOF (Single Point of Failure).

Stockage (État)

Elle stocke (via SQLAlchemy) tout l'état :

La liste des DAGs (parsés).
L'historique de tous les DAG Runs.
L'état (success, failed...) de toutes les Task Instances.
Les Variables et Connections (chiffrées).
Les XComs (données inter-tâches).
(Si LocalExecutor) Les logs des tâches.

Choix (Dev vs Prod)

Développement (Défaut) : SQLite (Fichier local airflow.db). (Facile, mais ne supporte pas le parallélisme (LocalExecutor) !).
Production (Requis) : PostgreSQL ou MySQL. (Nécessaire pour LocalExecutor, CeleryExecutor, KubernetesExecutor).

5.1 Composant : Executor (Concept)

L'Executor (Exécuteur) est le "moteur" (le "comment"). C'est le composant (configuré dans airflow.cfg) que le Scheduler (4.1) utilise pour exécuter (lancer) physiquement une tâche.

(Scheduler) : "La Tâche A est prête (queued)"
     │
     │ (Ordre : "Exécute Tâche A")
     ▼
[ EXECUTOR ] (ex: Celery)
     │
     │ (Envoie à un Worker)
     ▼
[ Worker (Processus) ]
 (Exécute: 'airflow tasks run ...')

5.2 Executors (Locaux)

`SequentialExecutor` (Défaut)

Usage : Développement, Test, Débogage.

Fonctionnement : Exécute 1 seule tâche à la fois, dans le même processus que le Scheduler.

Inconvénient : Pas de parallélisme. (Utilise SQLite par défaut).

`LocalExecutor`

Usage : Production (Simple, 1 seule machine/VM).

Fonctionnement : Le Scheduler (Maître) "fork" (lance) des processus (workers) sur la même machine pour exécuter les tâches en parallèle.

Pré-requis : Doit utiliser PostgreSQL ou MySQL (pas SQLite, qui bloque).

Inconvénient : SPOF (Si la VM meurt, le Scheduler et les Workers meurent).

5.3 Executors (Distribués / Scalés)

`CeleryExecutor`

Usage : Production (Scalabilité distribuée).

Architecture (Complexe) :

(Scheduler) Envoie la Tâche (Message) -> [ Message Broker ] (ex: RabbitMQ, Redis).
(N Workers) Des Workers Celery (processus Python, sur N VMs) écoutent la Queue.
(Worker 1) Prend la Tâche, l'exécute, met à jour la BDD (Metadata).

Avantage : Très scalable (ajouter des VMs Workers), robuste.

Inconvénient : Complexe (il faut gérer RabbitMQ/Redis en plus d'Airflow).

`KubernetesExecutor`

Usage : Production (Cloud Native, K8s).

Architecture :

(Scheduler) (Tourne dans K8s) Détecte une Tâche.
(Scheduler) Parle à l'API K8s.
(K8s) Lance un Nouveau Pod (Worker éphémère) juste pour cette Tâche (basé sur une image Docker).
(Pod) Exécute la Tâche (airflow tasks run ...).
(Pod) Se termine (Completed ou Error).

Avantage : Isolation parfaite (chaque tâche a son propre Pod/environnement). Scalabilité (K8s).

Inconvénient : "Cold Start" (démarrage d'un Pod) (latence).

6.1 XCom (Cross-Communication)

Problème : Comment la Tâche B peut-elle récupérer une valeur (ex: un ID, un nom de fichier) générée par la Tâche A ?

Solution : XCom (Cross-Communication). C'est un système (basé sur la Metadata DB) de "passage" (Push/Pull) de petites données (métadonnées).

1. XCom Push (Envoyer)

Automatique (PythonOperator) : Si une fonction python_callable (2.2) retourne (return) une valeur, Airflow la "Push" (sérialise, stocke dans la BDD) automatiquement.

Manuel (BashOperator) :

(Tâche A)
def f_push(**context):
    # Pousse manuellement (Clé/Valeur)
    context['ti'].xcom_push(key='mon_id', value=12345)

t_push = PythonOperator(
    task_id='t_push',
    python_callable=f_push
)

2. XCom Pull (Recevoir)

Utilise Jinja Templating (dans bash_command) ou xcom_pull (dans PythonOperator) pour récupérer la valeur.

(Tâche B - Python)
def f_pull(**context):
    # Tire la valeur (key) de la Tâche A (task_ids)
    valeur = context['ti'].xcom_pull(
        key='mon_id',
        task_ids='t_push'
    )
    print(f"Valeur reçue: {valeur}") # 12345

t_pull = PythonOperator(...)

# (Tâche C - Bash)
t_bash = BashOperator(
    task_id='t_bash',
    # (Utilise Jinja pour 'pull' la valeur de retour (default)
    #  de la tâche 't_push')
    
    # --- CORRECTION TEMPLATE DJANGO ---
    bash_command="echo 'Valeur reçue: {{ ti.xcom_pull(task_ids='t_push') }}'"
)

[t_push] >> [t_pull, t_bash]

Limite : Ne pas utiliser XCom pour de grosses données (ex: un DataFrame Pandas). XCom est stocké dans la BDD (limite ~48KB). (Pour les grosses données, Tâche A écrit sur S3/GCS, Tâche B lit depuis S3/GCS).

6.2 Variables & Connections

Ce sont les mécanismes (stockés dans la Metadata DB, gérés via l'UI Admin) pour externaliser la configuration (éviter le "hardcoding" dans les DAGs).

Variables

Stockage Clé/Valeur (K/V) simple (non-structuré).

(UI Admin) -> KEY: 'mon_seuil', VALUE: '100'

(Usage - Python)
from airflow.models import Variable
seuil = Variable.get("mon_seuil", default_var=50)

(Usage - Jinja)
{{ var.value.mon_seuil }}

Attention : Variable.get() fait un appel BDD (lent) à chaque fois. (Ne pas utiliser dans une boucle. OK au début du script).

Connections

Stockage structuré et chiffré (dans la BDD) pour les connexions externes (utilisé par les Hooks (3.3)).

(UI Admin) -> Créer Connexion :

Conn ID: my_postgres_db (L'ID)
Conn Type: Postgres
Host: db.ideolab.com
Login: admin
Password: *** (chiffré)
Schema: prod

(Usage - PythonOperator/Hook)
# (Le Hook lit 'my_postgres_db'
#  automatiquement depuis la BDD)
pg_hook = PostgresHook(postgres_conn_id='my_postgres_db')

6.3 Pools & Queues (Gestion des Ressources)

Outils pour gérer la concurrence (QoS) et éviter de surcharger les systèmes externes (APIs, BDDs).

Pools (Piscines)

Un Pool (géré dans l'UI Admin) est une limite (Slot) de concurrence interne à Airflow.

Usage : "Mon API REST externe (api_meteo) n'accepte que 5 connexions parallèles."

Configuration :

(UI) Créer un Pool api_meteo_pool (Slots = 5).
(DAG) Assigner la tâche à ce pool :

t_api = HttpSensor(
    task_id='call_api',
    pool='api_meteo_pool',
    ...
)

Résultat : Même si 100 DAGs tournent, le Scheduler ne lancera jamais plus de 5 tâches (api_meteo_pool) en même temps.

Queues (Files d'attente)

Ceci est spécifique au CeleryExecutor (5.3). C'est du routage.

Usage : "J'ai des Tâches 'lourdes' (ML, 128Go RAM) et des Tâches 'légères' (Bash, 1Go RAM)."

Configuration :

(Celery) Créer 2 types de Workers : worker_heavy (VMs 128Go), worker_light (VMs 4Go).
(Celery) worker_heavy écoute la Queue heavy_tasks.
(Celery) worker_light écoute la Queue light_tasks.
(DAG) Assigner la tâche à une queue :

t_ml = PythonOperator(
    task_id='train_model',
    queue='heavy_tasks',
    ...
)
t_bash = BashOperator(
    task_id='print_date',
    queue='light_tasks',
    ...
)

7.1 catchup & backfill

`catchup` (Rattrapage)

Le Piège : Vous créez un DAG (schedule_interval='@daily', start_date='2024-01-01'). Vous le déployez (activez) aujourd'hui (2025-11-13).

Comportement (Défaut : catchup=True) : Airflow voit qu'il a "manqué" ~680 exécutions (depuis 2024-01-01). Il va immédiatement lancer 680 DAG Runs (Backfills), un pour chaque jour manqué. (Spam/DoS).

Solution (Bonne Pratique) : Toujours mettre catchup=False dans le @dag (ou default_args), sauf si vous *voulez* ce comportement.

`airflow dags backfill` (Rattrapage Manuel)

La commande (CLI) pour exécuter (manuellement) un "rattrapage" (Backfill) sur une période passée, en ignorant les dépendances.

# (Relancer (manuellement) le DAG 'mon_dag'
#  pour la période du 1er au 5 Nov)
$ airflow dags backfill mon_dag \
    --start-date 2025-11-01 \
    --end-date 2025-11-05

7.2 trigger_rule (Règles de Déclenchement)

Par défaut (trigger_rule='all_success'), une Tâche (B) ne s'exécute que si tous ses parents (A) ont réussi (success).

La trigger_rule (un argument de l'Operator) change ce comportement.

[Tâche A] >> [Tâche C]
[Tâche B] >> [Tâche C]

Règle (sur Tâche C)	Description
`all_success` (Défaut)	Se lance si A=Success ET B=Success.
`one_success`	Se lance si A=Success OU B=Success.
`all_failed`	Se lance si A=Failed ET B=Failed.
`one_failed`	(Alerte) Se lance si A=Failed OU B=Failed. (Utile pour une tâche d'alerte).
`all_done`	Se lance quand A et B sont "finis" (`success`, `failed`, ou `skipped`).
`none_failed`	(Nettoyage) Se lance si A=Success/Skipped ET B=Success/Skipped. (Utile pour une tâche "cleanup" qui ne doit jamais tourner si une ingestion a échoué).

7.3 Liens & Ressources (Officiels)

Ressources officielles pour Apache Airflow :

Site Officiel (airflow.apache.org)
Page d'accueil du projet, nouvelles, communauté. Documentation Officielle
Guides (Installation, Concepts, How-to). Concepts : Opérateurs
Documentation sur les opérateurs de base. Concepts : Executors
Documentation sur les types d'exécuteurs (Local, Celery, K8s). Code Source (GitHub)
Le dépôt Git officiel (Apache). Astronomer Registry
Registre (par Astronomer) des "Providers" (Hooks/Operators) tiers.

📊 Apache Airflow – Orchestration, DAGs & Executors

Concept : Orchestrateur

Architecture (4 Composants)

vs. Cron

Le Cœur : Le DAG (Graphe)

Le "Quoi" : Operator

Le "Lien" : Dépendances

`DAG Run` & `Task Instance`

`Sensors` (Attente)

`Hooks` (Connexions)

Composant : Scheduler

Composant : Webserver

Composant : Metadata Database

Composant : Executor (Concept)

Executors (Locaux)

Executors (Distribués)

`XCom` (Communication)

`Variables` & `Connections`

`Pools` & `Queues`

`catchup` & `backfill`

`trigger_rule` (Règles)

Ressources & Liens

📊 Apache Airflow – Orchestration, DAGs & Executors

Concept : Orchestrateur

Architecture (4 Composants)

vs. Cron

Le Cœur : Le DAG (Graphe)

Le "Quoi" : Operator

Le "Lien" : Dépendances

DAG Run & Task Instance

Sensors (Attente)

Hooks (Connexions)

Composant : Scheduler

Composant : Webserver

Composant : Metadata Database

Composant : Executor (Concept)

Executors (Locaux)

Executors (Distribués)

XCom (Communication)

Variables & Connections

Pools & Queues

catchup & backfill

trigger_rule (Règles)

Ressources & Liens

Qu'est-ce qu'Apache Airflow ?

"Workflows as Code" (Python)

DAG (Directed Acyclic Graph)

Exemple (Fichier .py)

1. Action Operators

2. Transfer Operators

3. Sensors (Capteurs) (Voir 3.2)

Exemple : PythonOperator

Opérateurs "Bitshift" (>>, <<)

États (State) d'une Task Instance

Mode poke (Défaut)

Mode reschedule (Recommandé)

Hook vs Operator

Usage (Dans un PythonOperator)

Rôles (Boucle)

Architecture "Stateless"

Fonctionnalités (UI)

Stockage (État)

Choix (Dev vs Prod)

SequentialExecutor (Défaut)

LocalExecutor

CeleryExecutor

KubernetesExecutor

1. XCom Push (Envoyer)

2. XCom Pull (Recevoir)

Variables

Connections

Pools (Piscines)

Queues (Files d'attente)

catchup (Rattrapage)

airflow dags backfill (Rattrapage Manuel)

`DAG Run` & `Task Instance`

`Sensors` (Attente)

`Hooks` (Connexions)

`XCom` (Communication)

`Variables` & `Connections`

`Pools` & `Queues`

`catchup` & `backfill`

`trigger_rule` (Règles)

Exemple (Fichier `.py`)

Exemple : `PythonOperator`

Opérateurs "Bitshift" (`>>`, `<<`)

Mode `poke` (Défaut)

Mode `reschedule` (Recommandé)

Usage (Dans un `PythonOperator`)

`SequentialExecutor` (Défaut)

`LocalExecutor`

`CeleryExecutor`

`KubernetesExecutor`

`catchup` (Rattrapage)

`airflow dags backfill` (Rattrapage Manuel)