Project Oxygen & Ideo-LabIDEO LAB Dashboard 2026

đŸŸ„ Oracle Exadata – Audit Framework & Production Checklist

Plan d’audit structurĂ© : architecture → perf → exploitation → risques → recommandations. (IDEO-Lab / Juin 2025)

0

Introduction Ă  Exadata

0ïžâƒŁ Introduction : La Philosophie Exadata.

ScopeSLAMéthodo
Page
1

Cadre & PérimÚtre

Objectifs, SLA, pĂ©rimĂštre technique, risques “audit” & gouvernance.

ScopeSLAMéthodo
Page
2

Contexte & Workloads

OLTP vs DW, mixte, consolidation, Cloud@Customer / OCI, exigences métier.

OLTPDWSLO
Page
3

Architecture Exadata

Compute / Storage Cells / Réseau RoCE-IB, modÚles X9M/X10M, choix HC vs EF.

ComputeCellsRoCE
Page
4

Audit Hardware

Compute nodes, RAM/CPU, storage (HDD/SSD/NVMe), latences, saturation réseau.

CPUFlashLatency
Page
5

Briques Exadata (Perf)

Smart Scan, Storage Index, HCC, Smart Flash Cache, IORM : vérifs + anti-patterns.

Smart ScanHCCIORM
Page
6

Oracle DB / RAC / ASM

Versions, paramÚtres, ASM diskgroups, équilibrage RAC, Cache Fusion, faux goulots SQL.

RACASMWaits
Page
7

Exploitation & Outils DBA

CellCLI / DBMCLI / DCLI / ExaCLI, OEM, observabilité, runbooks.

CellCLIOEMRun
Page
8

Backup / Restore / HA

RMAN, ZDLRA, Object Storage, RAC + Data Guard, tests de restauration, RPO/RTO.

RMANZDLRAData Guard
Page
9

Patching & ExaChk

GI/RDBMS/Cell : rolling patch, conformité, dérives, risques de retard.

ExaChkRollingConformité
Page
10

Risques & Recos

Anti-patterns, quick wins 0–30j, chantiers 1–6 mois, roadmap long terme.

RisquesQuick WinsRoadmap
Page
0ïžâƒŁ Introduction : La Philosophie Exadata
Lecture : 10 min

Exadata ≠ Gros Serveur

L'erreur numéro 1 est de penser qu'Exadata est simplement un serveur trÚs puissant avec beaucoup de disques.

Exadata est une "Database Machine". C'est la seule architecture oĂč le logiciel de base de donnĂ©es (Oracle Database) sait exactement sur quel matĂ©riel il tourne et parle directement au stockage via un protocole propriĂ©taire (iDB - Intelligent Database Protocol).

Le changement de paradigme

Dans une architecture classique, le stockage est "bĂȘte". Il donne des blocs au serveur.
Dans Exadata, le stockage est "intelligent". Il comprend le SQL.


[Image suggérée : Comparaison visuelle "Dumb Storage" vs "Smart Storage"]
Illustration montrant un tuyau saturé de données inutiles vs un tuyau fin avec uniquement les résultats utiles.

Identité Exadata


  • 💿 Hardware : Serveurs standards x86 (Compute + Storage) reliĂ©s par un rĂ©seau ultra-rapide (RoCE/InfiniBand).
  • 🧠 Software : Oracle Linux + Exadata Storage Software (CellOS). C'est ici que rĂ©side la magie.
  • 🚀 Objectif : RĂ©duire les I/O physiques drastiquement via le Smart Scan.
100x
AccĂ©lĂ©ration potentielle des requĂȘtes analytiques

Le goulot d'étranglement historique (The I/O Bottleneck)

Depuis 30 ans, les CPU deviennent de plus en plus rapides (loi de Moore), mais les disques durs physiques (et mĂȘme les SSD) restent lents Ă  dĂ©placer des donnĂ©es vers la mĂ©moire du serveur.

Diagramme : Le problĂšme du "Data Shipping" classique
graph LR subgraph "Serveur Base de DonnĂ©es" A[SQL: SELECT * FROM VENTES WHERE ANNEE=2024] B[Filtrage CPU DB] end subgraph "SAN Traditionnel" C[Disques / Storage Array] end A -- Demande TOUS les blocs de la table --> C C -- Envoie 100% des donnĂ©es (MĂȘme 2020, 2021...) --> B B -- Jette 90% des donnĂ©es (Gaspillage) --> D[RĂ©sultat] style A fill:#f9f,stroke:#333 style C fill:#ccf,stroke:#333

Dans le modÚle classique, on déplace des montagnes de données pour n'en garder qu'un caillou.

Approche Traditionnelle (SAN)VsApproche Exadata (Function Shipping)
Le stockage envoie des blocs bruts.Le stockage traite le SQL et envoie des lignes/colonnes.
Le goulot est le cĂąble Fibre Channel (HBA).Le traitement est fait localement sur les CPU du stockage (Offload).
La base de données consomme son CPU pour filtrer les données.Le CPU de la base de données ne reçoit que le résultat utile.
[Image: Schéma Rack Exadata]
[COMPUTE 1] [COMPUTE 2]
| |
+------------+
| SWITCHES |
+------------+
| | | |
[CELL 1] [CELL 2] [CELL 3]

Architecture Scale-Out : On peut ajouter des Computes ou des Cells indépendamment.

Concept Clé : ASM Intelligent

ASM (Automatic Storage Management) ne voit pas les disques individuellement. Il voit une "GRID DISK". Exadata utilise ASM pour dupliquer les données (Redundancy HIGH ou NORMAL) afin qu'une Cellule entiÚre puisse brûler sans perte de service.

Quand utiliser Exadata (et quand fuir)

Sweet Spots (Idéal)
  • Data Warehousing (DWH) : Le roi absolu. Smart Scan scanne des TĂ©racoctets en secondes.
  • Consolidation massive : Mettre 500 bases de donnĂ©es sur un seul rack grĂące Ă  l'isolation des ressources (IORM).
  • OLTP Critique : GrĂące au Flash Cache et Ă  la faible latence du rĂ©seau RoCE/InfiniBand.
  • Workloads Mixtes : Faire du reporting sur la base de prod sans tuer les transactions (grĂące Ă  IORM).
Anti-Patterns (À Ă©viter)
  • Stockage de fichiers plats : Exadata n'est pas un NAS pour stocker des PDF ou des images. C'est cher le Go !
  • Micro-bases isolĂ©es : Acheter un 1/4 rack pour une base de 50Go est un non-sens Ă©conomique.
  • Applications mal codĂ©es (Row-by-Row) : Si votre appli fait 1 million de `SELECT ... WHERE ID = ...` (Single Row Lookup), le Smart Scan ne s'active pas. Exadata sera rapide, mais sous-utilisĂ©.
La commande Ă  connaĂźtre

Pour vĂ©rifier si vous ĂȘtes sur une Exadata via SQL :

SELECT * FROM v$cell_state;

Si cette vue retourne des lignes, fĂ©licitations, vous ĂȘtes aux commandes d'une Exadata.

Quick Audit Exadata (30–45 min)
Checklist ultra-rapide
BlocÀ vĂ©rifierSignal rouge
ArchitectureCompute/Cells/RoCE, modĂšle rack, HC vs EF, sĂ©paration rĂ©seaux.Exadata utilisĂ© “comme un SAN”, pas de offload.
Smart Scan% offload, SQL éligibles, full scans utiles vs subis.0% offload, offload inefficace, projections/filters non pushdown.
I/O & FlashSmart Flash Cache, latence, hotspots, IORM.Flash “inutile”, IORM non configurĂ©, OLTP pĂ©nalisĂ©.
RACBalance interconnect, Cache Fusion, skew, services.Sessions concentrĂ©es sur un nƓud, latence interconnect.
PatchingExaChk, rolling patch GI/RDBMS/Cell, dérives.Retard important, erreurs ExaChk ignorées.
BackupRMAN, tests restore, RPO/RTO, ZDLRA si prĂ©sent.“On n’a jamais testĂ© la restauration”.
Sortie attendue
  • Top 5 risques (tech + run)
  • Top 5 quick wins
  • Plan d’action 30 / 90 / 180 jours
Phrase clé
Exadata n’est pas “un stockage rapide”.
                        C’est un moteur DB + stockage + rĂ©seau conçu pour exĂ©cuter du SQL au plus prĂšs des donnĂ©es.
                        Si Smart Scan / HCC / IORM ne servent pas, 70% du ROI est perdu.
1) Cadre & PĂ©rimĂštre de l’Audit
Objectifs
  • Évaluer performance rĂ©elle (DB + cells + rĂ©seau), pas uniquement le SQL.
  • Mesurer la conformitĂ© (patching, ExaChk, bonnes pratiques).
  • Identifier anti-patterns : Exadata sous-utilisĂ© / mal configurĂ©.
  • Produire un plan d’actions priorisĂ© : risques → quick wins → chantiers.
PérimÚtre recommandé
DomaineInclus
Infra ExadataCompute, Cells, RoCE/IB, bandes passantes, latences.
OracleDB, RAC, ASM, paramĂštres, services, workloads.
RunOutils, observabilité, procédures, patching, capacity.
HA/BackupRMAN, tests restore, DG, RPO/RTO.
Livrables
  • Executive summary (risques + dĂ©cisions)
  • Grille d’audit dĂ©taillĂ©e + preuves
  • Plan d’action 30/90/180 jours
  • Annexes : commandes / exports / captures / AWR/ASH si dispo
2) Contexte & Workloads
Cartographier le workload (avant toute conclusion)
TypeCaractéristiquesFocus audit
OLTPlatence, commits, pics, contentionIORM, log sync, hotspots, RAC services
DWscans, agrégations, parallélismeSmart Scan, HCC, Storage Index, PQ
Mixteconcurrence batch + frontQoS (IORM), séparation ressources
Consolidationmulti-bases sur un rackisolation workload, capacity planning
Questions “DSI” (à cadrer)
1) Qu’est-ce qui coĂ»te le plus cher : latence OLTP ou durĂ©e batch ?
                        2) Les pics sont-ils quotidiens / hebdo / fin de mois ?
                        3) Quel est le RPO/RTO exigé ?
                        4) Quel est le niveau de tolĂ©rance au risque “patching” ?
                        5) Exadata est-il on-prem, Cloud@Customer, OCI ?
3) Architecture Exadata (Vue SystĂšme)
Triptyque Exadata
Compute Nodes  (DB/RAC/ASM)
                        ↓  RoCE/InfiniBand (RDMA faible latence)
                        Storage Cells  (Smart Scan / Storage Index / HCC / IORM / Flash)
  • Compute : exĂ©cution Oracle + RAC + ASM.
  • Cells : stockage + “intelligence” (offload SQL).
  • RĂ©seau : RDMA = perf, Cache Fusion, offload efficace.
Points d’audit
ItemPourquoi
ModÚle rackCapacités, options flash, réseau (X9M/X10M).
HC vs EFAlignement usage (DW vs OLTP).
Séparation réseauxClient / interconnect / backup.
ÉvolutivitĂ©Scale-out compute/cells, limites rĂ©elles.
1ïžâƒŁ Architecture Hardware : Le Moteur sous le Capot
Focus : X8M / X9M / X10M

L'Anatomie d'un Rack

Un Exadata n'est pas un assemblage aléatoire. C'est une configuration figée et validée.

Scalabilité "Elastic" : Historiquement, on achetait des 1/8, 1/4, 1/2 racks. Aujourd'hui (depuis X8M), la configuration est Elastic. Vous commencez petit (ex: 2 Computes + 3 Cells) et vous ajoutez des serveurs à l'unité selon le besoin (plus de CPU ? Ajouter un Compute. Plus de disque ? Ajouter une Cell).
ComposantQuantité MinRÎle Principal
Database ServersMin 2Exécutent Oracle Grid Infra + RDBMS. Consomment le stockage.
Storage Servers (Cells)Min 3Stockent les données + Exécutent SQL Offload.
RoCE Switches2 (Redondance)Connectent tout le monde Ă  100 Gbps (interne).
Management Switch1Pour l'administration (ILOM) - Réseau Ethernet classique.
Schéma Physique Simplifié
[SWITCH RoCE A] ==== [SWITCH RoCE B]
   |      |                |
[DB NODE 1] <-----------> [DB NODE 2]
   |      |                |
------------------------------------
 |      |      |      |      |
[CELL 1] [CELL 2] [CELL 3]...

Tout le monde parle Ă  tout le monde via le Fabric RoCE.
Pas de cĂąble direct entre DB Node et Cell.

Important : Le "Client Network" (vos applis) arrive uniquement sur les Database Servers. Les Storage Cells sont invisibles depuis l'extérieur.

Database Servers (Les Cerveaux)

OS : Oracle Linux (UEK)

Ce sont des serveurs x86 haut de gamme, mais "standards". C'est ici que vos licences Oracle Database sont consommées (CPU cores).

  • CPU Intel Xeon (Typiquement 2 sockets)
  • RAM Massive (512GB Ă  3TB par nƓud)
  • Disques Locaux 2x NVMe (RAID 1) pour l'OS (boot) et /u01
Le paradoxe du stockage :
Ces serveurs ne stockent AUCUNE donnée utilisateur localement. Vos tablespaces USERS, SYSTEM, UNDOTBS sont tous sur les cellules de stockage, accédés via ASM.

Vue arriĂšre : Ports Dual-port 100Gb RoCE + Ports Client Ethernet (Copper/Fiber)
Configuration RAC (Real Application Clusters)

Par dĂ©faut, tous les nƓuds compute forment un cluster RAC. Si un nƓud crashe, les sessions basculent (Failover) sur les autres nƓuds. ASM assure que tous les nƓuds voient les mĂȘmes disques (via le rĂ©seau).

Storage Servers (LĂ  oĂč rĂ©side la magie)

C'est ici que l'Exadata se distingue d'un serveur Dell/HP classique connecté à une baie SAN.

ComposantDétail TechniqueUtilité
CPU & RAMXeon + ~256GB RAMPour exécuter le logiciel CellSRV (Smart Scan). Le stockage a son propre "cerveau".
Flash Cache (NVMe)~25 TB par cell (HC)Cache de lecture/écriture intelligent. Transforme les disques lents en disques rapides.
Disques Durs (HC)12x 18TB HDD (7200 rpm)Stockage de masse "froid". Pas cher, énorme capacité.
PMEM (Optionnel X8M/X9M)Persistent Memory (Intel Optane)Cache ultra-rapide (< 19”s) pour les Commit (Log Write).
Offloading

Sur un SAN, le stockage envoie des blocs.
Sur une Cell, le CPU local analyse les blocs, applique les filtres WHERE et ne renvoie que les lignes utiles.

RDMA over Converged Ethernet (RoCE v2)

Si les Cells sont les muscles, RoCE est le systÚme nerveux instantané.

Analogie Ludique : La Pizzeria
  • TCP/IP (RĂ©seau classique) : Vous appelez le standard, qui note la commande, la passe au chef, qui la prĂ©pare, la donne au livreur... (Latence CPU OS, Kernel context switch).
  • RDMA (Exadata) : Vous vous tĂ©lĂ©portez dans la cuisine et prenez la pizza directement sur le plan de travail. (AccĂšs direct Ă  la mĂ©moire RAM du serveur distant sans rĂ©veiller son CPU).
Pourquoi RoCE est révolutionnaire ?
  • ZĂ©ro-Copy Networking : Les donnĂ©es vont de la mĂ©moire de la Cell Ă  la mĂ©moire de la DB sans copie intermĂ©diaire dans les buffers de l'OS.
  • Kernel Bypass : Le CPU de la base de donnĂ©es ne perd pas de cycles Ă  gĂ©rer les paquets rĂ©seaux.
  • Latence : ~17 microsecondes (I/O Read). C'est presque aussi rapide que la RAM locale.
sequenceDiagram participant DB as DB Server (RAM) participant NIC as Carte Réseau (RoCE) participant Cell as Cell (RAM) Note over DB, Cell: Lecture RDMA (Zero CPU Cell) DB->>NIC: "Je veux l'adresse mémoire 0x5F sur la Cell 3" NIC->>Cell: AccÚs Direct (DMA) Cell-->>NIC: Renvoie les données NIC-->>DB: Données placées en RAM Note right of Cell: Le CPU de la Cell
ne s'est mĂȘme pas rĂ©veillĂ© !
Evolution du réseau Exadata
V1 à X8InfiniBand (40Gbps) : TrÚs rapide, mais cùble propriétaire.
X8M Ă  X10MRoCE v2 (100Gbps) : Utilise des cĂąbles Ethernet standards mais avec le protocole RDMA. Plus rapide, plus standard.
5) Briques Exadata (Perf) – VĂ©rifier l’“effet Exadata”
Smart Scan (Offload SQL vers les Cells)
  • But : filtrer/projeter/agrĂ©ger au niveau stockage (moins d’I/O, moins de data remontĂ©e).
  • Audit : SQL Ă©ligibles ? offload rĂ©el ? anti-patterns (fonctions, accĂšs row-by-row, etc.).
Signal rouge : “Exadata ne change rien, c’est juste plus rapide”.
                    => Souvent : Smart Scan non exploitĂ© / requĂȘtes non Ă©ligibles.
Storage Index
  • But : Ă©viter les lectures inutiles (skip scan) via min/max par rĂ©gion.
  • Audit : tables concernĂ©es, bĂ©nĂ©fice rĂ©el, confusion avec B-Tree.
Hybrid Columnar Compression (HCC)
  • But : compression massive (surtout donnĂ©es historiques / entrepĂŽt).
  • Audit : modes utilisĂ©s (Query/Archive), impact CPU vs I/O, tables Ă©ligibles.
Smart Flash Cache
  • But : accĂ©lĂ©rer les lectures chaudes.
  • Audit : “chaud/froid”, priorisation, interactions avec IORM.
IORM (I/O Resource Manager)
  • But : QoS des workloads (OLTP prioritaire vs batch).
  • Audit : stratĂ©gie dĂ©finie, starvation, rĂšgles cohĂ©rentes avec SLA.
6) Oracle DB / RAC / ASM – Le socle “compute”
Ce qu’on vĂ©rifie
  • Versions RDBMS / GI, cohĂ©rence patch level.
  • ASM : diskgroups, rĂ©partition, problĂšmes d’équilibrage.
  • RAC : services, rĂ©partition sessions, interconnect (Cache Fusion).
  • Faux “SQL problems” : souvent rĂ©seau interconnect / skew.
SymptÎmes fréquents
- Un nƓud RAC “chaud”, un nƓud “froid”
                        - Latence interconnect → waits Cache Fusion
                        - Plan SQL ok mais rĂ©ponse lente → rĂ©seau/IO/QoS
                        - “On a Exadata” mais comportements = serveur standard
7) Exploitation & Outils DBA
Outils à auditer (utilisation réelle)
OutilRĂŽleAttendu
CellCLIAdmin & inspection storage cellsCommandes runbook + checks périodiques
DBMCLIGestion DB Machine (global)Vision d’ensemble + actions contrĂŽlĂ©es
DCLIExĂ©cution parallĂšle multi-nƓudsAutomatisation safe + inventaire
ExaCLIClient distant d’adminAccĂšs maĂźtrisĂ©, traçabilitĂ©
OEMMonitoring / alertingAlertes utiles, dashboards, rétention
Observabilité minimale
  • KPIs : latence I/O, offload, saturation rĂ©seau, erreurs RDMA
  • KPIs DB : DB Time, top waits, top SQL, Ă©vĂ©nements RAC
  • Runbook : incidents types + actions “safe”
8) Backup / Restore / HA
Backup
  • RMAN : stratĂ©gie, fenĂȘtres, rĂ©tention, stockage cible.
  • ZDLRA (si prĂ©sent) : intĂ©gration, health, capacitĂ©.
  • Object Storage : coĂ»ts, dĂ©bit, sĂ©curitĂ©.
HA / DR
  • RAC (HA locale)
  • Data Guard (DR) : sync/async, bascule, runbook
  • Tests : restore & switchover/failover (obligatoire)
Signal rouge #1 : “On a des backups” ≠ “On sait restaurer”.
                Signal rouge #2 : RPO/RTO non contractualisés (ou non testés).
9) ExaChk & Patching (Conformité)
Ce qu’on patche (vraiment)
  • Grid Infrastructure (GI)
  • RDBMS
  • Cell software / storage server software
  • Composants rĂ©seau / firmware (selon politique)
Rolling patch
  • Objectif : rĂ©duire l’interruption (mais pas “zĂ©ro risque”).
  • PrĂ©-requis : runbook, fenĂȘtres, backups, validation post-patch.
ExaChk
  • FrĂ©quence : mensuelle / trimestrielle (selon criticitĂ©)
  • Analyse des Ă©carts : “drift” silencieux = danger
  • Historique : prouver l’amĂ©lioration (ou la dĂ©rive)
Rùgle d’or : ExaChk n’est pas un “rapport”, c’est une discipline.
                    Ignorer ExaChk = prĂ©parer l’incident.
10) Risques & Recommandations (Roadmap)
Anti-patterns
  • Exadata utilisĂ© comme baie SAN (sans offload)
  • Smart Scan non exploitĂ© (SQL non Ă©ligible / mauvaises pratiques)
  • Flash mal priorisĂ©e, IORM absent → OLTP pĂ©nalisĂ©
  • Patching en retard + ExaChk ignorĂ©
  • Restore jamais testĂ©
Quick wins
  • Mesurer offload Smart Scan + corriger SQL “bloquants”
  • Configurer IORM/QoS (OLTP vs batch)
  • Nettoyer / prioriser Smart Flash Cache
  • Rééquilibrer services RAC / sessions
  • ExaChk + remĂ©diations critiques
Chantiers 1–6 mois
  • StratĂ©gie HCC (tables Ă©ligibles + modes)
  • RĂ©vision architecture workload (sĂ©paration, fenĂȘtres batch)
  • Automatisation runbooks (DCLI, checks, reporting)
Long terme
  • Cloud@Customer / OCI : stratĂ©gie d’évolution
  • Consolidation + gouvernance capacity
  • Roadmap hardware (X9M → X10M, options flash)
3ïžâƒŁ Le "Secret Sauce" : Smart Scan & Offloading
Focus : IORM / QoS
Pourquoi c’est critique en prod
  • Sans QoS, un batch DW peut “manger” les I/O et tuer l’OLTP.
  • IORM permet d’exprimer une prioritĂ© alignĂ©e sur le business.
Objectif audit : prouver qu’un pic batch n’écrase pas la latence OLTP
                => QoS, rÚgles, et monitoring corrélé.