Project Oxygen & Ideo-LabIDEO LAB Dashboard 2026

📡 SolarWinds – Supervision Réseau (NPM), Infra & Logs

Guide complet IDEO-Lab sur la plateforme Orion et l'écosystème de monitoring SolarWinds.

1.1

Concept : Plateforme Modulaire

Orion Platform, Modules (NPM, NCM, SAM).

SolarWinds Orion NMS
1.2

Architecture (Orion)

Main Poller, SQL Database, APE (Scalabilité).

Architecture SQL Database APE
1.3

Orion Platform (Core)

Web Console (IIS), Discovery, Alerting, PerfStack.

Orion Core PerfStack Alerting
2.1

NPM (Network Performance)

Le cœur. Monitoring (SNMP, ICMP). Disponibilité & Perf.

NPM SNMP ICMP
2.2

NPM : Polling (Collecte)

Statut (Ping), CPU/RAM (SNMP), Interface (SNMP).

Polling ifInOctets
2.3

NPM : NetPath

Visualisation L3 (Traceroute avancé, BGP, Latence).

NetPath Traceroute
3.1

NTA (NetFlow Traffic)

Analyse de flux (Qui parle à Qui ?).

NTA NetFlow sFlow
3.2

NTA : Analyse (Visibilité)

Top Talkers, Top Applications (Ports), Top Conversations.

Top Talkers Visibilité
3.3

NPM vs NTA (Crucial)

NPM (Combien ?) vs NTA (Qui/Quoi ?).

SNMP vs NetFlow
4.1

NCM (Network Config)

Backup/Restore des configs (SSH, Telnet).

NCM Backup show run
4.2

NCM : Compliance

Audit de conformité (Policy Auditing).

Compliance Audit
4.3

NCM : Automation

Scripts de changement de config (Bulk Change).

Automation Scripts
5.1

SAM (Server & Application)

Monitoring Serveurs (Agent vs Agentless WMI/SNMP).

SAM Agentless WMI
5.2

SAM : AppInsight

Monitoring "profond" (MS SQL, Exchange, IIS).

AppInsight SQL Server
5.3

Log Analyzer (LA)

Collecteur Syslog & SNMP Traps. (ELK/Splunk léger).

Log Analyzer Syslog
6.1

DPA (Database Analyzer)

Monitoring BDD "Wait-Based". (SQL, Oracle...).

DPA Wait-Based
6.2

VMAN (Virtualization)

Monitoring (VMware vCenter, Hyper-V).

VMAN VMware
6.3

Produits SaaS (Acquis)

Pingdom, Loggly, Papertrail (Cloud Monitoring).

SaaS Pingdom Loggly
7.1

Sécurité : Attaque SUNBURST

Supply Chain Attack (2020) via l'update Orion.

SUNBURST Sécurité
7.2

Cheat-sheet : Ports Clés

SNMP (161/162), NetFlow (2055), Agent (17777), Web (8787).

Ports Cheatsheet
1.1 Concept : Plateforme Modulaire (Orion)
Qu'est-ce que SolarWinds ?

SolarWinds est une entreprise qui développe des logiciels de gestion et de supervision IT (ITOM). Ce n'est pas un seul produit, mais une suite d'outils. (Note : Elle possède aussi des produits SaaS comme Pingdom et Loggly).

Le produit "cœur" historique est la Plateforme Orion.

La Plateforme Orion (On-Premise)

C'est une plateforme modulaire "All-in-One". Vous achetez un "cœur" (Orion Core Services) et vous y ajoutez des modules (licences) selon vos besoins. Tous les modules s'intègrent dans une console web unique.

Modules Principaux (Orion)
  • NPM (Network Performance Monitor) : (Le plus connu) Supervision de la disponibilité/performance réseau (SNMP, ICMP).
  • NTA (NetFlow Traffic Analyzer) : Analyse de la bande passante (NetFlow, sFlow).
  • NCM (Network Configuration Manager) : Gestion/Backup des configurations (Switchs, Routeurs).
  • SAM (Server & Application Monitor) : Supervision des serveurs (Windows, Linux) et applications (IIS, SQL).
  • LA (Log Analyzer) : Collecte et analyse de Syslog / SNMP Traps.
  • DPA (Database Performance Analyzer) : Analyse BDD (Wait-Based).
  • VMAN (Virtualization Manager) : Monitoring VMware/Hyper-V.
1.2 Architecture (Orion)
Architecture Centralisée (Standard)

Une installation SolarWinds (On-Premise) est basée sur Windows Server et SQL Server.

[ Serveur Windows (Serveur Principal Orion) ]
  ├─ 1. Main Polling Engine (Orion Core Service)
  │    (Le "cerveau" : Polling SNMP, Alertes, Jobs)
  │
  ├─ 2. Web Console (IIS)
  │    (Interface Web (PHP/ASP.NET) pour les Admins)
  │
  └─ (Drivers, MIBs, ...)
       │
       │ (Connexion SQL (ODBC/SQLNCLI))
       ▼
[ Serveur SQL (Dédié) ]
  ├─ 3. Database SQL (ex: "SolarWindsOrion")
  │    (Le "cœur" : Stocke TOUT : Config, Events, Métriques)

Point Critique : La base de données SQL est le SPOF (Single Point of Failure) et le goulot d'étranglement. Elle doit être extrêmement performante (Disques SSD rapides).

Architecture Distribuée (Scalabilité)

Problème : Un seul "Main Poller" (Serveur Principal) ne peut superviser qu'un nombre limité d'éléments (ex: 10 000) et ne peut pas facilement poller des sites distants (WAN, Firewalls).

Solution : APE (Additional Polling Engine).

[ Site Central (Paris) ]
  ├─ [ Main Poller (Orion Core) ] ──► [ SQL DB (Centrale) ]
  ├─ [ Web Console (Principale) ]  ──► (Lit la DB)
  │
  ├── (Contrôle) ──► [ APE 1 (Paris) ] ── (Polling LAN Paris) ──► [Équipements Paris]
  │                  (Écrit vers SQL DB)
  │
(WAN)
  │
  ├── (Contrôle) ──► [ APE 2 (Lyon) ] ── (Polling LAN Lyon) ──► [Équipements Lyon]
                     (Écrit vers SQL DB)

L'APE est un "poller" déporté. Il prend ses ordres au Main Poller, effectue la collecte locale (sur le site distant), et écrit les résultats directement dans la BDD SQL centrale.

1.3 Orion Platform (Services Communs)

La "Plateforme Orion" (Orion Core) fournit les services partagés par tous les modules (NPM, NCM, SAM...).

ServiceDescription
Web ConsoleL'interface web (IIS) unifiée pour voir tous les modules (NPM, NTA...).
Discovery (Network Sonar)Tâche de découverte (Wizard) qui scanne un sous-réseau (via ICMP, SNMP) pour trouver et importer de nouveaux Nœuds (Nodes).
Alerting EngineLe moteur centralisé d'alertes (Conditions Simples ou Avancées/SQL), et Actions (Email, Trap, Script).
ReportingMoteur de création de rapports (PDF, Web) planifiés.
PerfStack (Performance Analyzer)Outil de corrélation (similaire à Grafana). Permet de glisser/déposer des métriques de différents modules (ex: CPU (NPM) + Flux (NTA) + Requête SQL (SAM)) sur un même graphique temporel pour analyse (RCA).
2.1 NPM (Network Performance Monitor)

NPM est le produit phare de SolarWinds. C'est le module de base de la supervision réseau "classique".

Objectif : Répondre aux questions "Est-ce UP ?" (Disponibilité) et "Est-ce LENT/PLEIN ?" (Performance).

Protocoles utilisés par NPM
  • ICMP (Ping) : (Couche 3) Protocole principal pour le statut de Disponibilité (Up/Down) et la Latence (ms).
  • SNMP (Polling) : (Couche 7) (Voir guide SNMP) Protocole principal pour la Performance. Le Poller (NPM) exécute des snmpget sur les OIDs des équipements.
  • WMI (Windows) : (Agentless) Utilise WMI pour poller les métriques des serveurs Windows (SAM est requis pour plus de détails).
2.2 NPM : Polling (Collecte)

Par défaut, NPM (via le Polling Engine) interroge (poll) périodiquement les appareils (Nœuds).

Cycle de Polling (Par défaut)
  • Statut (ICMP) : ping toutes les 120 secondes. (Si échec -> Alerte "Node Down").
  • Métriques (SNMP) : snmpget toutes les 10 minutes. (Métriques "lentes" : CPU, RAM, Hardware Health).
  • Statistiques (SNMP) : snmpget (compteurs) toutes les 9 minutes. (Métriques "rapides" : Bande Passante (Interfaces), Erreurs, Discards).
Métriques de Bande Passante (SNMP OIDs)

La métrique la plus importante de NPM (Bande Passante) est calculée en interrogeant les compteurs (Counters) d'une interface (ex: ifInOctets, ifOutOctets) à T1 et T2, et en calculant le delta ((Octets_T2 - Octets_T1) / (Temps_T2 - Temps_T1) = Octets/sec).

2.3 NPM : NetPath

NetPath est une fonctionnalité de NPM qui est un "Traceroute" (tracert) visuel et permanent.

Objectif : Visualiser le chemin (hop-by-hop) et la performance (latence, perte) de Couche 3 entre une Sonde (interne) et une Destination (ex: Salesforce, Office 365, ou un serveur web interne).

Analyse

NetPath fournit une visualisation (similaire à ce que fait pingplotter) :

  • Montre chaque nœud (routeur) sur le chemin (LAN, FAI, Internet).
  • Affiche la latence et la perte à chaque saut (hop).
  • (Force) Utilise les données BGP/ASN pour identifier à qui appartient le routeur (ex: "Orange", "Cogent", "Google").

Diagnostic : Permet de prouver si la lenteur est due au LAN, au FAI, ou au réseau de l'application Cloud.

3.1 NTA (NetFlow Traffic Analyzer)

NTA est le module d'analyse de flux (Flow) de SolarWinds. Il répond à la question : "NPM me dit que mon lien WAN est saturé, mais QUI (IP) consomme cette bande passante et avec QUOI (Application/Port) ?"

Architecture (NetFlow)

NTA ne "poll" pas. Il fonctionne en "Push".

  1. (Sur le Routeur/Firewall) : On active l'Exportation NetFlow (ex: vers 192.168.1.100:2055).
  2. Le Routeur analyse le trafic et envoie des "rapports de flux" (méta-données) au collecteur.
  3. (Sur le Serveur Orion) : Le service NTA (Collector) écoute sur UDP 2055 (défaut) et reçoit ces flux.
  4. NTA stocke et agrège ces flux (dans sa propre BDD, ou dans la BDD Orion).
Protocoles Supportés
  • NetFlow (v5, v9) (Propriétaire Cisco)
  • J-Flow (Propriétaire Juniper)
  • sFlow (Standard, "Sampling")
  • IPFIX (Standard IETF, basé sur NetFlow v9)
3.2 NTA : Analyse (Visibilité)

L'interface Web de NTA permet de "découper" (slice and dice) les données de flux collectées.

Rapports Clés (Top N)

Permet d'identifier la source d'une congestion :

  • Top 10 Applications : (Basé sur le Port) ex: "80% HTTPS, 10% BitTorrent, 5% SMB".
  • Top 10 Endpoints (IPs) : (Top Talkers/Listeners) ex: "L'IP 192.168.1.50 (Bob) consomme 60%".
  • Top 10 Conversations : (Basé sur IP Source <-> IP Dest) ex: "192.168.1.50 <-> IP_Netflix".
  • QoS (DSCP) : Montre la répartition du trafic par marquage QoS.
3.3 Comparaison : NPM vs NTA (Crucial)

Les débutants confondent souvent NPM et NTA. Les deux mesurent la bande passante, mais de manière radicalement différente.

CritèreNPM (Network Performance Monitor)NTA (NetFlow Traffic Analyzer)
ProtocoleSNMP (Polling - Pull)NetFlow/sFlow (Export - Push)
Question Répondue"COMBIEN de trafic (bps) y a-t-il sur l'interface Gi0/1 ?""QUI (IP) et QUOI (Port) utilise ce trafic sur Gi0/1 ?"
SourceCompteurs (Counters) de l'interface (ifInOctets).Cache de flux (Flows) du routeur.
Niveau (Détail)Niveau Interface (L2)Niveau Conversation (L3/L4)
AnalogieLe compteur d'eau du bâtiment. (Sait le volume total).La facture d'eau détaillée (par appartement).
4.1 NCM (Network Configuration Manager)

NCM est le module de gestion de la configuration des équipements réseau (Switchs, Routeurs, Firewalls).

Il ne fait pas de monitoring de performance, mais de la gestion de fichiers de configuration.

Backup & Restore

Fonction principale. NCM se connecte (via SSH ou Telnet) à un équipement (ex: un switch Cisco) à intervalle régulier (ex: chaque nuit) et exécute des commandes (ex: show running-config).

Il télécharge cette configuration et la stocke dans sa BDD.

Bénéfices
  • Disaster Recovery (Restauration) : Si un switch critique meurt, NCM peut "pousser" la dernière bonne configuration sur le nouveau switch.
  • Historique (Diff) : Permet de comparer les versions (ex: "Qu'est-ce que le stagiaire a changé mardi à 10h qui a tout cassé ?").
4.2 NCM : Audit de Conformité (Compliance)

NCM permet de définir des Politiques (Policies) de conformité (sécurité, standardisation) et de scanner les configurations (backups) pour trouver les violations.

Exemples de Règles de Conformité
  • Audit Sécurité (PCI, HIPAA) :
    • Règle "Must NOT Contain" : snmp community public
    • Règle "Must NOT Contain" : ip http server (HTTP non sécurisé activé)
  • Standardisation Interne :
    • Règle "Must Contain" : ntp server 1.2.3.4 (Doit avoir le bon serveur NTP)
    • Règle "Must Contain" : logging host 5.6.7.8 (Doit envoyer les logs au SIEM)

Le NCM génère un rapport (ex: "80% des équipements sont conformes") et peut générer des alertes sur violation.

4.3 NCM : Automation (Config Change)

NCM permet d'exécuter des scripts (Bulk Change Scripts) sur des centaines d'appareils simultanément.

Exemple (Changer le mot de passe SNMP)

Problème : La community "public" (v2c) est une faille. Il faut la remplacer par "SecretV3User" (v3) sur 500 switchs.

Script NCM (Logique)
(Pour chaque Hôte dans "Groupe Cisco")
  
  1. Se connecter (SSH)
  2. Entrer en mode 'configure terminal'
  
  3. (Supprimer l'ancien)
     no snmp-server community public RO
     
  4. (Ajouter le nouveau - v3)
     snmp-server group SEC_GROUP v3 auth
     snmp-server user [USER] SEC_GROUP v3 auth sha [PASS_AUTH]
     
  5. 'exit'
  6. 'write memory' (Sauvegarder)
  
(Fin)
5.1 SAM (Server & Application Monitor)
Supervision des Serveurs & Applications

SAM est le module qui étend la supervision au-delà du "réseau" (NPM) pour couvrir les Serveurs (CPU, RAM, Disque, Processus) et les Applications (L7) qui tournent dessus (IIS, Apache, SQL, Services Windows).

C'est le concurrent de Zabbix Agent, Nagios NRPE, ou (partiellement) New Relic Infra.

Agent vs Agentless (WMI / SNMP)

SAM supporte deux modes de collecte :

  • Agentless (Sans Agent) : (Préféré par SolarWinds) Le Poller (Orion) contacte l'hôte distant en utilisant des protocoles natifs :
    • WMI (Windows Management Instrumentation) : Le "SNMP" de Windows. Permet de tout lire (Services, CPU, Logs, Processus). (Nécessite des droits Admin).
    • SNMP : (Pour Linux/ESXi) L'agent net-snmp doit être installé et configuré sur l'hôte Linux.
  • Agent (Avec Agent) : (Optionnel) Un agent SolarWinds (similaire à Zabbix Agent) est installé sur l'hôte (Windows/Linux).
    • Usage : Pour les hôtes difficiles à joindre (DMZ, Cloud, derrière NAT) ou pour des checks "Actifs".
5.2 SAM : AppInsight

AppInsight est une fonctionnalité "premium" de SAM. Ce sont des templates de supervision "deep-dive" (approfondis) pour des applications Microsoft complexes (Exchange, IIS, SQL Server).

Exemple : AppInsight for SQL Server

Au lieu de 5-10 métriques de base (CPU, RAM), AppInsight se connecte (via WMI et SQL) et collecte des centaines de métriques spécifiques à SQL :

  • Performance des BDDs (Transactions/sec, Latence).
  • Utilisation du Cache (Buffer Cache Hit Ratio).
  • Waits (Statistiques d'attente).
  • État des Fichiers (Datafiles, Logs).
  • Requêtes les plus coûteuses (CPU, I/O).
  • (Etc.)
5.3 Log Analyzer (LA)

Log Analyzer (LA) (anciennement Log Manager for Orion) est le module de centralisation de logs (type SIEM léger) de SolarWinds.

Il complète NPM (Perf) et NTA (Flux) en ajoutant les Logs (Événements).

Fonctionnement
  • Collecte (PUSH) : Le serveur Orion agit comme un serveur Syslog (UDP 514) et un collecteur de SNMP Traps (UDP 162).
  • (Les Switchs, Routeurs, Firewalls, Linux sont configurés pour "forwarder" leurs logs vers Orion).
  • Collecte (Agent) : Peut aussi collecter les Windows Event Logs via l'agent SAM.
  • Analyse : Permet de filtrer, rechercher (live) et créer des alertes basées sur le contenu des logs (ex: Alerte si %LINK-3-UPDOWN: Interface... down).
6.1 DPA (Database Performance Analyzer)

DPA est un produit (souvent vendu séparément, mais intégrable à Orion) pour le monitoring très avancé de BDD.

Contrairement à SAM (qui regarde le CPU/RAM du *serveur*), DPA regarde à l'intérieur de l'instance BDD.

Analyse "Wait-Based" (Temps d'Attente)

La force de DPA est l'analyse des "Wait Events" (Événements d'attente).

Problème : Une requête est lente (10 sec). Pourquoi ?

  • SAM dit : "CPU à 10%". (Inutile).
  • DPA dit : "La requête a passé 9.5 sec en attente (Wait) de type PAGEIOLATCH_SH".

Diagnostic : L'application attend que le disque (I/O) lise les données en RAM. -> (Problème de disque lent, ou d'index manquant causant un "Table Scan").

Supporte : SQL Server, Oracle, MySQL, Postgres, DB2...

6.2 VMAN (Virtualization Manager)

VMAN est le module dédié à la supervision des hyperviseurs.

Fonctionnement (API)

VMAN se connecte (via API) à votre vCenter (VMware) ou à votre hôte Hyper-V (via WMI).

Il collecte les métriques de :

  • Hôte (ESXi) : CPU (Total, Usage), Mémoire (Totale, Utilisée, Ballooning).
  • VM (Invitée) : CPU (Ready time, Co-Stop), Mémoire, I/O Disque (Latence Datastore).
  • Datastores : Espace disque, IOPS, Latence.
Sprawl & Capacity

VMAN est aussi utilisé pour la gestion de capacité :

  • Détecter le "VM Sprawl" (VMs zombies, oubliées, non utilisées).
  • Détecter la sur-allocation (Oversubscription) de CPU/RAM.
6.3 Produits SaaS (Acquis)

En plus de sa plateforme On-Premise (Orion), SolarWinds possède un large portefeuille de produits SaaS (Cloud), souvent acquis.

ProduitConcurrentDescription
PingdomUptrends, k6Monitoring Synthétique (Actif) & RUM (Passif).
Teste l'Uptime et la performance (Full Page Check) d'un site web depuis l'extérieur.
LogglyDatadog Logs, Splunk CloudLog Management (SaaS). Collecte, agrégation et analyse de logs (Syslog, JSON) dans le cloud.
PapertrailLogglyAutre solution de Log Management (SaaS), souvent appréciée des développeurs pour sa simplicité (live tail).
7.1 Sécurité : Attaque SUNBURST (2020)

SolarWinds est tristement célèbre pour avoir été la victime (et le vecteur) de l'une des attaques de "Supply Chain" (Chaîne d'Approvisionnement) les plus sophistiquées de l'histoire.

Flux de l'Attaque
  1. 1. Infiltration : Des attaquants (APT) infiltrent l'infrastructure de build (compilation) de SolarWinds.
  2. 2. Injection (Trojan) : L'attaquant injecte un code malveillant (nommé SUNBURST) directement dans le code source d'un composant de la Plateforme Orion (SolarWinds.Orion.Core.BusinessLayer.dll).
  3. 3. Signature (Légitime) : Le système de build de SolarWinds compile ce code (incluant le malware) et le signe numériquement (le marquant comme "officiel" et "sûr").
  4. 4. Distribution (Update) : SolarWinds publie cette mise à jour (infectée) sur son portail client.
  5. 5. Infection (Victimes) : Des milliers d'entreprises (dont des gouvernements US, Microsoft, FireEye...) téléchargent et installent cette mise à jour "de confiance".
  6. 6. Activation (Backdoor) : Le malware (SUNBURST) s'active, contacte un serveur de Command & Control (C2) et ouvre une backdoor (porte dérobée) sur les réseaux des victimes, permettant aux attaquants d'exfiltrer des données.

Impact : Une perte de confiance massive dans les mises à jour logicielles et une prise de conscience de la vulnérabilité de la "Supply Chain".

7.2 Cheat-sheet : Ports Clés (Orion)

Ports à ouvrir (Firewall) pour une installation On-Premise (Liste non exhaustive).

PortProtocoleDeVersService
80 / 443TCPAdminServeur Web OrionWeb Console (HTTP/HTTPS) (Utilisé 8787 si 80/443 pris)
161UDPPoller (Orion/APE)Équipements (Switchs...)SNMP GET (Polling)
162UDPÉquipementsPoller (Orion/APE)SNMP TRAP (Alertes)
(Variable)UDPRouteursServeur NTANetFlow/sFlow (ex: 2055, 9996)
514UDPÉquipementsServeur Log AnalyzerSyslog
135, 445 (RPC)TCPPoller (SAM)Serveurs WindowsWMI (Agentless)
17777TCPServeur Orion/APEAgent SolarWindsPolling Agent (Passif)
17778TCPAgent SolarWindsServeur Orion/APEPolling Agent (Actif) (Obsolète, 17777 utilisé)
1433TCPOrion / APEServeur SQLConnexion SQL Database