Project Oxygen & Ideo-LabIDEO LAB Dashboard 2026

📡 New Relic – APM, Observability & Infrastructure Monitoring

Guide complet IDEO-Lab sur la plateforme d'observabilité "Full-Stack".

1.1

Observabilité (Full-Stack)

Concept (MELT), Plateforme SaaS, All-in-One.

Observability SaaS MELT
1.2

Monitoring vs Observabilité

"Connus" (Dashboards) vs "Inconnus" (Exploration).

Monitoring Observability
1.3

L'Agent New Relic

Agent (APM, Infra), Collector, NRDB.

Agent Collector NRDB
2.1

APM (Application)

Application Performance Monitoring. (CƓur de NR).

APM Performance
2.2

APM : Transactions

Suivi des "Transactions" (Web/Non-Web), Apdex.

Transactions Apdex
2.3

APM : Distributed Tracing

Trace (Trajet) vs Span (Étape). (Microservices).

Distributed Tracing Trace Span
3.1

APM : Bases de Données

Identification des requĂȘtes lentes (N+1).

Slow Queries N+1
3.2

APM : Error Tracking

Agrégation des exceptions (Stack Traces).

Error Tracking Exceptions
3.3

APM : JVM / CLR

Monitoring bas-niveau (Heap, Garbage Collector).

JVM GC Heap
4.1

Infrastructure (Hosts)

Monitoring Serveurs (CPU, RAM, Disque, Processus).

Infrastructure CPU RAM
4.2

Infra : Intégrations

On-Host (Nginx, MySQL) & Cloud (AWS, Azure).

Integrations AWS
4.3

Infra : Kubernetes (K8s)

Monitoring K8s (NƓuds, Pods, Deployments).

Kubernetes Pixie
5.1

Browser (RUM)

Real User Monitoring (Performance Front-End, JS Errors).

RUM Front-end
5.2

Synthetics

Monitoring Proactif (Ping, Scripted Browser).

Synthetics Uptime
5.3

Log Management

Agrégation de Logs (Fluentd, Logstash), Logs in Context.

Logs Logs in Context
6.1

NRDB (Data Platform)

La base de données Time-Series (TSDB) (Metrics, Events, Logs).

NRDB TSDB
6.2

NRQL (Query Language)

Le "SQL" de New Relic (SELECT, FACET, TIMESERIES).

NRQL Query
6.3

Dashboards

Visualisation des données (via NRQL).

Dashboards Grafana
7.1

Alerting

Alertes (Static, Baseline, NRQL), Destinations (Slack).

Alerts NRQL Alert
7.2

SLM / SLO

Service Level Management (SLI, SLO, Error Budgets).

SLM SLO SLI
7.3

vs. Datadog

Comparaison des plateformes d'observabilité.

Datadog Comparatif
1.1 Concept : Observabilité (Full-Stack)
Qu'est-ce que New Relic ?

New Relic est une plateforme d'observabilité "Full-Stack", fournie en mode SaaS. Son objectif est de collecter, stocker et analyser toutes les données de télémétrie d'une application et de l'infrastructure qui la supporte.

Historiquement, c'était un pur outil d'APM (Application Performance Monitoring), mais il couvre maintenant l'ensemble du spectre de la supervision.

Les 3 Piliers de l'Observabilité (MELT)

L'observabilité repose sur la corrélation de 3 (parfois 4) types de données :

PilierAnglaisDescriptionQuestion Répondue
MétriquesMetricsUne mesure numérique sur une période (ex: CPU=80%)."Quoi ?" (Quoi est en panne ?)
ÉvĂ©nementsEventsUne action ponctuelle (ex: "DĂ©ploiement", "Reboot")."Quand ?"
LogsLogsUn enregistrement texte d'un événement (ex: "User login failed")."Pourquoi ?" (Le contexte)
TracesTracesLe "trajet" d'une requĂȘte Ă  travers plusieurs services."OĂč ?" (OĂč est le goulot d'Ă©tranglement ?)

La force de New Relic est de stocker ces 4 types de données dans une base unique (NRDB) et de permettre de les interroger (NRQL).

1.2 Monitoring vs. Observabilité

Ces deux termes sont souvent confondus, mais décrivent deux approches complémentaires.

Monitoring (Supervision)

"Les Inconnus Connus" (Known Unknowns)

Le monitoring est basé sur ce que vous savez devoir surveiller. C'est un ensemble de Dashboards et d'Alertes pré-définis.

Exemple : "Je *sais* que le CPU est important. Je vais créer un dashboard qui trace le CPU et une alerte si CPU > 90%."

Outils : Nagios, Zabbix, Prometheus.

Observabilité (Observability)

"Les Inconnus Inconnus" (Unknown Unknowns)

L'observabilité est la capacité à explorer et interroger vos données pour comprendre des problÚmes que vous n'aviez pas anticipés.

Exemple : "L'alerte CPU s'est dĂ©clenchĂ©e. *Pourquoi* ? (Exploration). Ah, en corrĂ©lant les traces et les logs, je vois que c'est liĂ© Ă  la requĂȘte /api/user/123, uniquement pour les clients sur iOS, qui cause une boucle N+1 en BDD."

Outils : New Relic, Datadog, ELK Stack.

1.3 L'Agent New Relic

New Relic est une plateforme SaaS. La collecte des données (Télémétrie) se fait via des Agents (logiciels légers) que vous installez sur vos hÎtes ou dans votre application.

Architecture de Collecte
[ VOTRE INFRASTRUCTURE ]
  ├─ [ Serveur 1 (Agent Infra) ]
  ├─ [ Serveur 2 (Agent Infra) ]
  ├─ [ App PHP (Agent APM) ]
  ├─ [ App Java (Agent APM) ]
  └─ [ Navigateur User (Agent Browser) ]
            │
            │ (TĂ©lĂ©mĂ©trie (Metrics, Logs, Traces)
            │  envoyĂ©e via HTTPS / TLS)
            ▌
[ NEW RELIC (SaaS) ]
  ├─ [ Data Collector (Ingestion) ]
  │    (Point d'entrĂ©e)
  │
  ├─ [ NRDB (Database) ]
  │    (Stockage Time-Series)
  │
  └─ [ New Relic One (UI) ]
       (NRQL, Dashboards, Alerts)
Types d'Agents Principaux
AgentObjectifInstallation
Agent APMPerformance Applicative (L7)BibliothĂšque/Extension (ex: php_newrelic.so, -javaagent:). Se "hook" dans le runtime du langage.
Agent InfrastructurePerformance SystÚme (L3/L4)Service (daemon) installé sur l'OS (ex: apt install newrelic-infra).
Agent Browser (RUM)Performance Front-EndSnippet JavaScript (copié/collé dans le <head> HTML).
2.1 APM (Application Performance Monitoring)

L'APM est le produit phare historique de New Relic. C'est un outil (Couche 7) qui analyse la performance de votre code de l'intérieur.

Objectif : Répondre à la question "Pourquoi cette page est-elle lente ?".

Fonctionnement (Auto-Instrumentation)

L'agent APM (ex: pour PHP, Java, Node.js, Python, .NET) s'attache au runtime de votre application. Il "observe" (instrumente) automatiquement les fonctions clés :

  • Frameworks Web (Symfony, Laravel, Spring)
  • Appels de Base de DonnĂ©es (MySQL, Postgres)
  • Appels Externes (API REST, gRPC)
  • BibliothĂšques (Redis, Memcached)
Métriques Clés (Dashboard APM)
  • Response Time (Temps de rĂ©ponse) : (ex: 200ms) Le temps moyen d'une transaction.
  • Throughput (DĂ©bit) : (ex: 1000 rpm) RequĂȘtes par minute.
  • Error Rate (Taux d'erreur) : (ex: 0.5%) Pourcentage de requĂȘtes Ă©chouĂ©es (5xx, Exceptions).
  • Apdex Score : (Voir 2.2).
2.2 APM : Transactions & Apdex
Transactions

Une Transaction est l'unité de travail principale de l'APM. C'est un "segment" de code instrumenté.

TypeExempleCe qui est mesuré
Web TransactionGET /api/usersLe cycle de vie complet de la requĂȘte (du contrĂŽleur Ă  la rĂ©ponse).
Non-Web TransactionJob Cron (worker.php)L'exécution du script (tùches de fond).

New Relic agrĂšge les performances par nom de transaction (ex: UserController::get) et vous montre les "Top 5 transactions les plus lentes".

Apdex Score (Satisfaction Utilisateur)

Apdex est un standard industriel (inventé par New Relic) pour mesurer la satisfaction utilisateur perçue, plutÎt qu'une simple moyenne.

Il nécessite 1 seuil : T (Tolérable) (ex: 0.5 sec).

Calcul

Chaque requĂȘte est classĂ©e :

  • Satisfied (Satisfait) : RĂ©ponse < T (ex: < 0.5s).
  • Tolerating (TolĂ©rant) : T < RĂ©ponse < 4T (ex: 0.5s - 2.0s).
  • Frustrated (FrustrĂ©) : RĂ©ponse > 4T (ex: > 2.0s) ou Erreur.
Apdex Score (0 Ă  1) =
(Nb Satisfied + (Nb Tolerating / 2)) / (Nb Total)

Ex: Score 0.85 = "Bon". Score 0.50 = "Inacceptable".

2.3 APM : Distributed Tracing (Microservices)

ProblĂšme : Dans une architecture Microservices, une requĂȘte (ex: "Acheter Produit") ne touche pas 1 serveur, but 5 (Frontend -> API Gateway -> Service Commande -> Service Paiement -> Service Stock).

Distributed Tracing est la solution pour suivre le "trajet" complet de cette requĂȘte.

Trace vs. Span
  • Trace : L'ensemble du "trajet" (l'ID de la requĂȘte globale).
  • Span (Étendue) : Une "Ă©tape" (une opĂ©ration) dans ce trajet (ex: l'appel Ă  l'API Paiement).
Flux (W3C Trace Context)

L'agent APM 1 (API Gateway) injecte un en-tĂȘte HTTP (traceparent) dans sa requĂȘte vers le Service Commande. L'agent APM 2 (Commande) lit cet en-tĂȘte et "sait" qu'il fait partie de la mĂȘme Trace.

Visualisation (Waterfall)
(Trace ID: abc-123. Temps Total: 800ms)

[API Gateway (Span 1 - 800ms)]
   │
   ├─ [Service Auth (Span 2 - 50ms)]
   │
   └─ [Service Commande (Span 3 - 750ms)]
         │
         ├── [DB Query (Span 4 - 300ms)]
         │
         └── [Service Paiement (Span 5 - 400ms)]

(Diagnostic : Le goulot d'étranglement est le Service Paiement)
3.1 APM : Monitoring Bases de Données

L'une des causes les plus fréquentes de lenteur applicative est la base de données.

L'agent APM (ex: php_newrelic) instrumente les pilotes de BDD (PDO, MySQLi) pour chronomĂ©trer chaque requĂȘte.

Rapports Disponibles (APM -> Databases)
  • Response Time : Temps moyen de rĂ©ponse de la BDD.
  • Throughput : RequĂȘtes BDD par minute.
  • Slowest Queries (RequĂȘtes Lentes) : Le rapport le plus utile. Liste les requĂȘtes (ex: SELECT * ...) qui prennent le plus de temps (ex: > 500ms).
  • ProblĂšme N+1 : New Relic dĂ©tecte les "N+1 Query Problems" (ex: une boucle foreach qui exĂ©cute 100 requĂȘtes SELECT au lieu d'un seul JOIN).
3.2 APM : Error Tracking (Suivi des Erreurs)

L'agent APM capture automatiquement toutes les exceptions non gérées (Erreurs 500, Fatal Errors, Exceptions) de votre application.

Error Inbox

PlutĂŽt que de chercher dans des fichiers logs (.log) sur 10 serveurs, New Relic agrĂšge toutes les erreurs dans une interface unique ("Error Inbox").

Il groupe les erreurs similaires et vous montre :

  • Le Message de l'exception (ex: NullPointerException).
  • La Stack Trace complĂšte (fichier, ligne de code).
  • Le Nombre d'Occurrences (ex: "Vu 500 fois dans la derniĂšre heure").
  • Logs in Context : Les logs (niveau INFO/DEBUG) qui ont eu lieu juste avant l'exception.
3.3 APM : Monitoring de VM (JVM, CLR)

Pour les langages managĂ©s (Java, .NET), l'agent APM fournit une visibilitĂ© "bas niveau" dans la Machine Virtuelle (VM) elle-mĂȘme.

Métriques (Exemple JVM - Java)
  • Heap Memory (MĂ©moire de Tas) : Utilisation (ex: 1.5 Go / 2 Go).
  • Garbage Collection (GC) : FrĂ©quence et durĂ©e des "stop-the-world" (pauses GC). (Une cause majeure de latence).
  • Thread Pool : Nombre de threads actifs, bloquĂ©s (wait), ou en attente.
4.1 Infrastructure (Hosts Monitoring)

Le produit New Relic Infrastructure (NRI) supervise l'HĂŽte (Host) : le serveur (VM, bare-metal, ou conteneur) sur lequel tourne votre application.

Il utilise l'Agent Infrastructure (un service newrelic-infra) pour collecter les métriques systÚme de base (Couche 3/4).

Métriques Collectées (Exemples)
  • SystĂšme : Load Average (1, 5, 15 min), Uptime.
  • CPU : % Utilisation (Total, User, System, I/O Wait).
  • MĂ©moire : % Utilisation (RAM totale, utilisĂ©e, cache).
  • Disque : % Utilisation (Espace disque), I/O (opĂ©rations/sec).
  • RĂ©seau : Trafic (Octets entrants/sortants), Erreurs.
  • Processus : Liste des processus (ex: nginx) et leur consommation CPU/RAM.
Logs in Context

L'agent Infra est aussi (souvent) le composant qui collecte et transfĂšre (Forward) les fichiers logs (ex: /var/log/syslog) vers New Relic Log Management.

4.2 Infra : Intégrations (On-Host & Cloud)

La force de l'agent Infra est qu'il peut ĂȘtre Ă©tendu avec des IntĂ©grations (On-Host Integrations - OHI) pour superviser des services tiers tournant sur le mĂȘme hĂŽte.

Intégrations "On-Host"

L'agent Infra détecte un service (ex: Nginx) et utilise une configuration (nginx-config.yml) pour "scraper" (récupérer) les métriques de ce service.

  • Nginx : RequĂȘte le /stub_status (Connexions actives, Waiting...).
  • MySQL : ExĂ©cute SHOW GLOBAL STATUS; (Connexions, Slow Queries...).
  • Redis : ExĂ©cute INFO (MĂ©moire, ClĂ©s...).

Permet de corréler la performance de l'application (APM) avec la santé de ses dépendances (Infra).

Intégrations "Cloud" (API Polling)

New Relic peut aussi se connecter (via API, en "read-only") à vos comptes Cloud (AWS, Azure, GCP) pour récupérer les métriques de services managés (PaaS) que vous ne pouvez pas "agentifier".

  • AWS : RĂ©cupĂšre les mĂ©triques CloudWatch (ex: RDS (CPU BDD), Lambda (Invocations), ELB (RequĂȘtes)).
  • Azure : Azure Monitor.
  • GCP : Google Cloud Monitoring.
4.3 Infra : Kubernetes (K8s) Monitoring

Le monitoring de Kubernetes est une brique essentielle de l'observabilité moderne. New Relic fournit une intégration K8s complÚte (généralement installée via un Helm Chart).

Composants
  • Agent (DaemonSet) : DĂ©ploie l'agent Infra sur chaque NƓud (Node) du cluster.
  • IntĂ©gration API K8s : RĂ©cupĂšre les mĂ©triques du Control Plane (Ă©tat des Deployments, Pods...).
  • Pixie (eBPF) : (Optionnel, puissant) Utilise eBPF (au niveau Kernel Linux) pour tracer toutes les communications (RĂ©seau, HTTP) entre les Pods, sans avoir besoin d'installer un agent APM dans chaque application (Auto-instrumentation).
Ce qui est monitoré

Permet de voir la performance au niveau de : NƓuds, Pods, Conteneurs, Deployments, Services, et Namespace.

5.1 Browser (RUM - Real User Monitoring)

RUM répond à la question : "Comment mes utilisateurs réels (Real Users) perçoivent-ils la performance (cÎté client) ?"

Fonctionnement (Agent Browser)

L'agent APM (back-end) injecte automatiquement un snippet JavaScript dans le <head> des pages HTML.

Ce JS s'exécute dans le navigateur du client et collecte des métriques (LCP, INP, Erreurs JS) puis les envoie aux Collectors New Relic.

Métriques Clés (Front-End)
  • Core Web Vitals : (Voir 4.2) LCP, INP, CLS.
  • Temps de chargement de page (Page Load Time) : DĂ©composĂ© (Network, DOM Processing, Page Rendering).
  • Erreurs JavaScript (JS Errors) : AgrĂ©gation des erreurs (ex: TypeError: 'null' is not an object) avec stack trace.
  • RequĂȘtes AJAX : Suivi des appels fetch() (Temps de rĂ©ponse, Erreurs).
  • Session Traces : (DĂ©taillĂ©) Capture (Ă©chantillonnĂ©e) de la chronologie complĂšte (waterfall) du chargement d'une page pour un utilisateur lent.
5.2 Synthetics (Monitoring Proactif)

ProblÚme : L'APM et le RUM sont réactifs (ils attendent un utilisateur pour détecter une panne). Que se passe-t-il si votre site tombe à 3h du matin (zéro trafic) ?

Solution : Synthetics. C'est un monitoring proactif (robotisé). New Relic utilise des "minions" (robots) depuis des localisations mondiales (ex: Dublin, Tokyo, Ohio) pour tester votre site 24/7.

Checks Simples (Uptime)
  • Ping : Un ICMP (vĂ©rifie si l'hĂŽte est UP).
  • Simple Browser : (Le plus courant) Charge l'URL dans un Chrome "headless". VĂ©rifie que le HTTP 200 OK est reçu et que le temps de chargement est acceptable.
  • API Test : Fait un appel GET/POST Ă  une API et vĂ©rifie la rĂ©ponse JSON.
Checks Scriptés (Parcours Utilisateur)

Utilise un framework (basé sur Selenium) pour simuler un parcours utilisateur complet.

(Exemple de script)
1. Aller sur /login
2. Entrer "user@test.com"
3. Entrer "password"
4. Cliquer sur "Connexion"
5. Vérifier que le texte "Tableau de bord" est présent
6. Cliquer sur "Ajouter au Panier"
7. Vérifier que le panier contient "1"

(Si l'étape 5 échoue -> Alerte !)

Permet de tester le bon fonctionnement des tunnels de conversion critiques.

5.3 Log Management

C'est la solution de Log Aggregation (type ELK/Splunk) de New Relic.

Ingestion (Forwarding)

New Relic peut recevoir des logs de plusieurs façons :

  • Agent Infrastructure : L'agent (via config YAML) "tail" (suit) les fichiers (ex: /var/log/nginx/access.log) et envoie les nouvelles lignes.
  • Plugins (Fluentd, Logstash) : Vous pouvez configurer vos pipelines de logs existants pour "forwarder" les logs vers l'API d'ingestion New Relic.
  • API : Envoyer des logs directement via l'API HTTP.
Logs in Context (La "Magie")

C'est la fonctionnalité la plus puissante. L'agent APM (ex: PHP) enrichit automatiquement les logs (ex: Monolog) en y injectant l'ID de la Trace et du Span actuels.

Log (Standard) :
[2025-11-08] ERROR: Failed to process payment.

Log (Enrichi par New Relic) :
[2025-11-08] ERROR: Failed to process payment.
(TraceID: abc-123, SpanID: def-456)

Résultat : Lorsque vous regardez une Trace APM lente (abc-123), l'interface vous montre automatiquement tous les logs (ERROR, INFO...) qui ont été générés pendant cette transaction spécifique.

6.1 NRDB (New Relic Database)

NRDB est le "cerveau" de New Relic. C'est une base de donnĂ©es Time-Series (TSDB) massivement parallĂšle, conçue pour ingĂ©rer et requĂȘter des pĂ©taoctets de donnĂ©es de tĂ©lĂ©mĂ©trie en temps rĂ©el.

Toutes les données (APM, Infra, RUM, Logs, Synthetics) sont stockées ici.

Types de Données (Data Types)

NRDB stocke 3 types de données (MELT) :

TypeNom (NRDB)DescriptionExemple (Table NRDB)
Metrics(Metrics)Données numériques agrégées (ex: CPU moyen sur 1 min).Metric
EventsEventUn événement ponctuel avec des attributs (ex: un chargement de page).Transaction, Page View, SyntheticCheck
LogsLogUne ligne de log textuelle.Log
Traces(Events)Les Traces sont stockées sous forme d'Events (Spans).Span

C'est sur ces "Tables" (ex: Transaction) que l'on exĂ©cute les requĂȘtes NRQL.

6.2 NRQL (New Relic Query Language)

NRQL (prononcé "Nerkel") est le langage (similaire à SQL) utilisé pour interroger la base de données NRDB. C'est l'outil fondamental de l'Observabilité (exploration).

RequĂȘtes Simples (AgrĂ©gations)
-- Syntaxe: SELECT fonction(attribut) FROM Table WHERE ... SINCE ...

-- Taux d'erreur des transactions (APM)
SELECT percentage(count(*), WHERE error IS true)
FROM Transaction
SINCE 1 day ago

-- 95e percentile du temps de chargement (RUM)
SELECT percentile(duration, 95)
FROM PageView
WHERE appName = 'MonApp-Production'

-- Compter les erreurs 500 par URL (APM)
SELECT count(*)
FROM Transaction
WHERE http.responseCode = '503'
FACET name  -- (FACET = GROUP BY)
Graphiques (TIMESERIES)

L'opérateur TIMESERIES est utilisé pour générer des graphiques (ex: pour les Dashboards).

-- Graphique du temps de réponse moyen
-- (par minute) des 6 derniĂšres heures
SELECT average(duration)
FROM Transaction
SINCE 6 hours ago
TIMESERIES 1 minute

-- Graphique du CPU (Infra)
SELECT average(cpuPercent)
FROM SystemSample
TIMESERIES AUTO

-- Graphique du LCP (RUM)
SELECT percentile(largestContentfulPaint, 90)
FROM PageViewTiming
TIMESERIES
Group By (FACET)

FACET est l'Ă©quivalent de GROUP BY en SQL. Il est extrĂȘmement puissant pour segmenter les donnĂ©es.

-- Top 10 des pays avec des erreurs JS (RUM)
SELECT count(*)
FROM JavaScriptError
FACET countryCode
LIMIT 10

-- Taux d'erreur (APM) par NƓud Kubernetes
SELECT percentage(count(*), WHERE error IS true)
FROM Transaction
FACET kubernetes.podName

-- Funnel (Tunnel de conversion)
SELECT funnel(
    session,
    WHERE name = 'Page A' as 'A',
    WHERE name = 'Page B' as 'B',
    WHERE name = 'Page C' as 'C'
)
FROM PageView
SINCE 1 day ago
6.3 Dashboards

Les Dashboards (Tableaux de bord) sont la composante Monitoring (les "Inconnus Connus") de New Relic. (Similaire Ă  Grafana).

Un dashboard est une grille de "Widgets" (graphiques), oĂč chaque widget est alimentĂ© par une requĂȘte NRQL.

Types de Widgets
  • Line Chart (Graphique linĂ©aire) : (Utilise TIMESERIES) ex: CPU au fil du temps.
  • Area Chart (Graphique en aires) : (Utilise TIMESERIES)
  • Bar Chart (Barres) / Pie Chart (Camembert) : (Utilise FACET) ex: RĂ©partition des erreurs par type.
  • Billboard (Panneau) : Affiche un seul chiffre (ex: Taux d'erreur actuel).
  • Table : (Utilise FACET) ex: Top 10 des requĂȘtes les plus lentes.
7.1 Alerting

Le systĂšme d'alertes de New Relic (Alerts & AI) est la composante "proactive".

Conditions (Ce qui déclenche)

Une "Condition" définit le seuil de déclenchement.

  • Statique : Seuil fixe (ex: CPU Percent > 90% pendant 5 minutes).
  • Baseline (Dynamique) : Seuil basĂ© sur la "norme" (ex: CPU Percent est 3 dĂ©viations standard au-dessus de la baseline).
  • NRQL (Le plus puissant) : L'alerte est basĂ©e sur le rĂ©sultat d'une requĂȘte NRQL.
    • Ex: SELECT count(*) FROM Log WHERE level = 'ERROR' -> Alerte si le rĂ©sultat est > 50 en 10 minutes.
Workflows & Destinations (Qui reçoit)

Workflows : Le "routeur" d'alertes. (ex: Si (Alerte P1 ET Heure = Nuit) -> Envoyer Ă  PagerDuty. Si (Alerte P3) -> Envoyer Ă  Slack).

Destinations : Les "endpoints" de notification :

  • Email
  • Slack
  • PagerDuty (Outil d'astreinte)
  • JIRA (CrĂ©er un ticket)
  • Webhook (API gĂ©nĂ©rique)
7.2 SLM (Service Level Management)

Le SLM (gestion du niveau de service) est une fonctionnalité (basée sur NRQL) pour suivre la fiabilité de vos services par rapport à des objectifs business.

TermeDescriptionExemple
SLI (Service Level Indicator)La MĂ©trique. (Ce que l'on mesure)."Le % de requĂȘtes /login plus rapides que 500ms."
SLO (Service Level Objective)L'Objectif (Cible interne)."Le SLI doit ĂȘtre de 99.9% sur 30 jours." (Les "3 Nines")
SLA (Service Level Agreement)Le Contrat (Business)."Si le SLO n'est pas tenu, nous remboursons 10% au client."
Error Budget (Budget d'erreur)L'inverse du SLO (100% - 99.9% = 0.1%)."Nous avons le 'droit' d'avoir 0.1% de requĂȘtes /login lentes ce mois-ci." (Permet d'arbitrer entre fiabilitĂ© et innovation).
7.3 Comparaison : New Relic vs. Datadog

New Relic et Datadog sont les deux leaders incontestés de l'Observabilité (SaaS). Ils sont devenus trÚs similaires ("convergence").

CritĂšreNew RelicDatadog
Point Fort (Historique)APM (Application Monitoring). (Apdex, Tracing).Infrastructure & Logs. (Intégrations, Dashboards).
LogsTrÚs bon (Log Management, Logs in Context).Considéré comme leader (Log Pipelines, Analyse L7).
InfrastructureTrÚs bon (Agent Infra, K8s, Cloud).Considéré comme leader (Intégrations, Network Monitoring).
APMLeader (Tracing, JVM/CLR, Apdex).TrÚs bon (Tracing, mais souvent jugé moins "profond" que NR).
Langage (Query)NRQL (SQL-like).(Langage de recherche propriétaire).
TarificationModÚle "Per-User" + Ingestion Go (souvent jugé plus simple/prévisible).ModÚle "Per-Host" / "Per-Metric" / "Per-Log" (trÚs granulaire, mais complexe).