Sûreté de Fonctionnement & Health-Monitoring

Assurer la fiabilité et la sécurité du système. Auto-diagnostic en temps réel (FDIR), gestion de la redondance matérielle et logicielle, et pilotage des modes dégradés sécurisés (failsafes).

Détection panne < 50 ms Temps de bascule < 100 ms MTBF > 10,000 heures Disponibilité > 99.99%

Couverture de pannes> 99 %

Pannes critiques identifiées

Latence FDIR< 100 ms

Détection à recouvrement

Niveau de RedondanceN+1 / N+2

Capteurs, calculateurs, actuateurs

DAL / SILC / 2

Niveau d'assurance de conception

FDIR : Le Système Immunitaire du Drone

FDIR (Fault Detection, Identification, and Recovery) ou DIAR (Détection, Isolation, et Rétablissement) est une boucle de surveillance continue qui agit comme le système immunitaire du drone. Son rôle est de détecter les comportements anormaux, d'en trouver la cause, et d'appliquer une contre-mesure pour maintenir la mission ou, à défaut, la sécurité.

La Boucle FDIR

Détection : La première étape est de constater qu'un problème existe. Méthodes courantes :
- Vérification de limites (Limit Checking) : S'assurer que les valeurs des capteurs (tensions, températures, vibrations) restent dans une plage nominale.
- Redondance Analytique : Utiliser un modèle mathématique du système pour prédire le comportement d'un capteur. Si la valeur mesurée s'écarte trop de la valeur prédite, une panne est suspectée. C'est comme avoir un "capteur virtuel".
- Watchdogs : Des "chiens de garde" logiciels et matériels qui vérifient que les différents processus et cœurs de calcul répondent toujours dans les temps.
Identification / Isolation : Une fois une anomalie détectée, il faut en trouver la cause racine. Est-ce un capteur qui a dérivé ? Un moteur qui a perdu de la puissance ? Un bug logiciel ? On utilise pour cela des "signatures de pannes" ou des tests croisés entre capteurs redondants.
Recouvrement / Rétablissement : C'est la réponse à la panne. Selon sa criticité, la réponse peut aller de la simple reconfiguration (ignorer un capteur défaillant, basculer sur un backup) à l'activation d'un mode de sécurité (voir onglet "Modes Dégradés").

Le Processus FDIR

Les données des capteurs entrent dans la boucle. Les pannes sont détectées, identifiées, puis des actions de recouvrement sont entreprises, comme la reconfiguration du système ou l'activation d'un mode Failsafe.

Redondance : Ne jamais dépendre d'un seul fil

La redondance est la pratique de dupliquer les composants, les chemins de données ou les algorithmes critiques afin qu'une panne unique ne puisse pas entraîner la perte de la mission ou de l'aéronef. C'est la pierre angulaire de la conception des systèmes sûrs.

Niveaux de Redondance

Redondance Double (N+1) : Deux composants identiques. Si le primaire tombe en panne, le secondaire prend le relais (ex: deux GPS, deux magnétomètres).
Redondance Modulaire Triple (TMR) : Trois composants identiques. Leurs sorties sont comparées par un "voteur". Si un composant est en désaccord avec les deux autres, il est considéré comme défaillant et sa sortie est ignorée. C'est le standard pour les calculateurs de vol (flight controllers) et les IMU critiques.

Types de Redondance

Matérielle : Le plus évident. Avoir plusieurs IMU, calculateurs, batteries, bus de communication (CAN, Ethernet).
Logicielle : Faire tourner plusieurs instances d'un même algorithme critique, ou utiliser des algorithmes différents qui calculent la même chose pour comparer leurs résultats.
Temporelle : Répéter une transmission ou un calcul pour s'assurer qu'il n'a pas été corrompu par une erreur transitoire.

Comparaison d'Architectures

Haut : un système simplex (non redondant). Bas : un système TMR. Les données de trois capteurs entrent dans trois calculateurs. Un voteur compare les sorties et sélectionne la majorité, masquant ainsi la panne d'un des trois canaux.

Photo d'un contrôleur de vol moderne (ex: Cube Orange) montrant les multiples IMU et baromètres embarqués pour la redondance.

Modes Dégradés & Failsafes : Le plan de secours

Lorsqu'une panne critique est détectée et ne peut pas être résolue par la redondance, le système doit entrer dans un mode "failsafe" (à sécurité intégrée). L'objectif n'est plus de réussir la mission, mais d'atteindre un état final qui minimise les risques pour les personnes et les biens au sol.

La Hiérarchie des Failsafes

La décision du mode à activer est prise par un "gestionnaire de mission" en fonction de la panne et de l'état du drone (altitude, batterie, position).

Hover (Vol stationnaire) : La réponse la plus simple. Le drone s'arrête et attend une intervention de l'opérateur. Utile pour des pannes temporaires (ex: perte de signal GPS momentanée).
Land (Atterrissage) : Le drone se pose immédiatement là où il est. Adapté en cas de panne critique à basse altitude et dans une zone sûre.
Return To Launch (RTL) : Le drone monte à une altitude de sécurité prédéfinie, revient à son point de départ en ligne droite, et atterrit. C'est le mode le plus courant et le plus sûr pour de nombreuses pannes (ex: perte de liaison radio, batterie faible).
Terminate (Arrêt d'urgence) : Le dernier recours. Les moteurs sont coupés immédiatement. Ce mode n'est activé qu'en cas de perte totale de contrôle pour éviter un "fly-away" dangereux, ou pour déployer un parachute.

Machine à États des Modes de Vol

Diagramme simplifié montrant les transitions entre l'état Normal, les états d'alerte (Caution, Warning) et les différents modes Failsafe, déclenchés par des événements comme "Perte GPS" ou "Batterie Critique".

Analyse de Fiabilité : Quantifier la Confiance

La sûreté de fonctionnement n'est pas qu'une question de code, c'est aussi une discipline d'ingénierie rigoureuse qui vise à analyser, modéliser et quantifier la fiabilité d'un système avant même qu'il ne vole.

Métriques Clés

MTBF (Mean Time Between Failures) : Temps moyen de fonctionnement entre deux pannes consécutives. Un MTBF élevé signifie une grande fiabilité.
MTTR (Mean Time To Repair) : Temps moyen nécessaire pour réparer un système après une panne.
Disponibilité (Availability) : Le pourcentage de temps où le système est opérationnel. Se calcule par : $A = MTBF / (MTBF + MTTR)$.

Méthodes d'Analyse

AMDEC (Analyse des Modes de Défaillance, de leurs Effets et de leur Criticité) / FMEA : Une méthode systématique et inductive (bottom-up) qui consiste à lister tous les composants, leurs modes de pannes possibles, leurs effets sur le système, et leur criticité (Gravité x Occurrence x Détection).
Arbre de Défaillance (Fault Tree Analysis - FTA) : Une approche déductive (top-down). On part d'un événement indésirable majeur (ex: "Crash du drone") et on remonte aux combinaisons de pannes de base qui pourraient le causer, en utilisant des portes logiques (ET, OU).

Exemple d'Arbre de Défaillance

Arbre de défaillance simple pour l'événement "Perte de Poussée". La perte survient si le Moteur 1 ET le Moteur 2 tombent en panne. Une panne moteur peut survenir à cause d'une panne de l'ESC OU du moteur lui-même.

Sûreté de Fonctionnement & Health-Monitoring

🩺 Auto-Diagnostic & FDIR

⚙️ Redondance & Architectures

📉 Modes Dégradés & Failsafes

📊 Analyse de Fiabilité (MTBF)