đ„ Oracle Exadata â Audit Framework & Production Checklist
Plan dâaudit structurĂ© : architecture â perf â exploitation â risques â recommandations. (IDEO-Lab / Juin 2025)
Cadre & PérimÚtre
Objectifs, SLA, pĂ©rimĂštre technique, risques âauditâ & gouvernance.
ScopeSLAMéthodoContexte & Workloads
OLTP vs DW, mixte, consolidation, Cloud@Customer / OCI, exigences métier.
OLTPDWSLOArchitecture Exadata
Compute / Storage Cells / Réseau RoCE-IB, modÚles X9M/X10M, choix HC vs EF.
ComputeCellsRoCEAudit Hardware
Compute nodes, RAM/CPU, storage (HDD/SSD/NVMe), latences, saturation réseau.
CPUFlashLatencyBriques Exadata (Perf)
Smart Scan, Storage Index, HCC, Smart Flash Cache, IORM : vérifs + anti-patterns.
Smart ScanHCCIORMOracle DB / RAC / ASM
Versions, paramÚtres, ASM diskgroups, équilibrage RAC, Cache Fusion, faux goulots SQL.
RACASMWaitsExploitation & Outils DBA
CellCLI / DBMCLI / DCLI / ExaCLI, OEM, observabilité, runbooks.
CellCLIOEMRunBackup / Restore / HA
RMAN, ZDLRA, Object Storage, RAC + Data Guard, tests de restauration, RPO/RTO.
RMANZDLRAData GuardPatching & ExaChk
GI/RDBMS/Cell : rolling patch, conformité, dérives, risques de retard.
ExaChkRollingConformitéRisques & Recos
Anti-patterns, quick wins 0â30j, chantiers 1â6 mois, roadmap long terme.
RisquesQuick WinsRoadmapChecklist ultra-rapide
| Bloc | à vérifier | Signal rouge |
|---|---|---|
| Architecture | Compute/Cells/RoCE, modĂšle rack, HC vs EF, sĂ©paration rĂ©seaux. | Exadata utilisĂ© âcomme un SANâ, pas de offload. |
| Smart Scan | % offload, SQL éligibles, full scans utiles vs subis. | 0% offload, offload inefficace, projections/filters non pushdown. |
| I/O & Flash | Smart Flash Cache, latence, hotspots, IORM. | Flash âinutileâ, IORM non configurĂ©, OLTP pĂ©nalisĂ©. |
| RAC | Balance interconnect, Cache Fusion, skew, services. | Sessions concentrĂ©es sur un nĆud, latence interconnect. |
| Patching | ExaChk, rolling patch GI/RDBMS/Cell, dérives. | Retard important, erreurs ExaChk ignorées. |
| Backup | RMAN, tests restore, RPO/RTO, ZDLRA si prĂ©sent. | âOn nâa jamais testĂ© la restaurationâ. |
Sortie attendue
- Top 5 risques (tech + run)
- Top 5 quick wins
- Plan dâaction 30 / 90 / 180 jours
Phrase clé
Exadata nâest pas âun stockage rapideâ.
Câest un moteur DB + stockage + rĂ©seau conçu pour exĂ©cuter du SQL au plus prĂšs des donnĂ©es.
Si Smart Scan / HCC / IORM ne servent pas, 70% du ROI est perdu.Objectifs
- Ăvaluer performance rĂ©elle (DB + cells + rĂ©seau), pas uniquement le SQL.
- Mesurer la conformité (patching, ExaChk, bonnes pratiques).
- Identifier anti-patterns : Exadata sous-utilisé / mal configuré.
- Produire un plan dâactions priorisĂ© : risques â quick wins â chantiers.
PérimÚtre recommandé
| Domaine | Inclus |
|---|---|
| Infra Exadata | Compute, Cells, RoCE/IB, bandes passantes, latences. |
| Oracle | DB, RAC, ASM, paramĂštres, services, workloads. |
| Run | Outils, observabilité, procédures, patching, capacity. |
| HA/Backup | RMAN, tests restore, DG, RPO/RTO. |
Livrables
- Executive summary (risques + décisions)
- Grille dâaudit dĂ©taillĂ©e + preuves
- Plan dâaction 30/90/180 jours
- Annexes : commandes / exports / captures / AWR/ASH si dispo
Cartographier le workload (avant toute conclusion)
| Type | Caractéristiques | Focus audit |
|---|---|---|
| OLTP | latence, commits, pics, contention | IORM, log sync, hotspots, RAC services |
| DW | scans, agrégations, parallélisme | Smart Scan, HCC, Storage Index, PQ |
| Mixte | concurrence batch + front | QoS (IORM), séparation ressources |
| Consolidation | multi-bases sur un rack | isolation workload, capacity planning |
Questions âDSIâ (Ă cadrer)
1) Quâest-ce qui coĂ»te le plus cher : latence OLTP ou durĂ©e batch ?
2) Les pics sont-ils quotidiens / hebdo / fin de mois ?
3) Quel est le RPO/RTO exigé ?
4) Quel est le niveau de tolĂ©rance au risque âpatchingâ ?
5) Exadata est-il on-prem, Cloud@Customer, OCI ?Triptyque Exadata
Compute Nodes (DB/RAC/ASM)
â RoCE/InfiniBand (RDMA faible latence)
Storage Cells (Smart Scan / Storage Index / HCC / IORM / Flash)- Compute : exécution Oracle + RAC + ASM.
- Cells : stockage + âintelligenceâ (offload SQL).
- Réseau : RDMA = perf, Cache Fusion, offload efficace.
Points dâaudit
| Item | Pourquoi |
|---|---|
| ModÚle rack | Capacités, options flash, réseau (X9M/X10M). |
| HC vs EF | Alignement usage (DW vs OLTP). |
| Séparation réseaux | Client / interconnect / backup. |
| ĂvolutivitĂ© | Scale-out compute/cells, limites rĂ©elles. |
Smart Scan (Offload SQL vers les Cells)
- But : filtrer/projeter/agrĂ©ger au niveau stockage (moins dâI/O, moins de data remontĂ©e).
- Audit : SQL éligibles ? offload réel ? anti-patterns (fonctions, accÚs row-by-row, etc.).
Signal rouge : âExadata ne change rien, câest juste plus rapideâ.
=> Souvent : Smart Scan non exploitĂ© / requĂȘtes non Ă©ligibles.Storage Index
- But : éviter les lectures inutiles (skip scan) via min/max par région.
- Audit : tables concernées, bénéfice réel, confusion avec B-Tree.
Hybrid Columnar Compression (HCC)
- But : compression massive (surtout données historiques / entrepÎt).
- Audit : modes utilisés (Query/Archive), impact CPU vs I/O, tables éligibles.
Smart Flash Cache
- But : accélérer les lectures chaudes.
- Audit : âchaud/froidâ, priorisation, interactions avec IORM.
IORM (I/O Resource Manager)
- But : QoS des workloads (OLTP prioritaire vs batch).
- Audit : stratégie définie, starvation, rÚgles cohérentes avec SLA.
Ce quâon vĂ©rifie
- Versions RDBMS / GI, cohérence patch level.
- ASM : diskgroups, rĂ©partition, problĂšmes dâĂ©quilibrage.
- RAC : services, répartition sessions, interconnect (Cache Fusion).
- Faux âSQL problemsâ : souvent rĂ©seau interconnect / skew.
SymptÎmes fréquents
- Un nĆud RAC âchaudâ, un nĆud âfroidâ
- Latence interconnect â waits Cache Fusion
- Plan SQL ok mais rĂ©ponse lente â rĂ©seau/IO/QoS
- âOn a Exadataâ mais comportements = serveur standardOutils Ă auditer (utilisation rĂ©elle)
| Outil | RĂŽle | Attendu |
|---|---|---|
| CellCLI | Admin & inspection storage cells | Commandes runbook + checks périodiques |
| DBMCLI | Gestion DB Machine (global) | Vision dâensemble + actions contrĂŽlĂ©es |
| DCLI | ExĂ©cution parallĂšle multi-nĆuds | Automatisation safe + inventaire |
| ExaCLI | Client distant dâadmin | AccĂšs maĂźtrisĂ©, traçabilitĂ© |
| OEM | Monitoring / alerting | Alertes utiles, dashboards, rétention |
Observabilité minimale
- KPIs : latence I/O, offload, saturation réseau, erreurs RDMA
- KPIs DB : DB Time, top waits, top SQL, événements RAC
- Runbook : incidents types + actions âsafeâ
Backup
- RMAN : stratĂ©gie, fenĂȘtres, rĂ©tention, stockage cible.
- ZDLRA (si présent) : intégration, health, capacité.
- Object Storage : coûts, débit, sécurité.
HA / DR
- RAC (HA locale)
- Data Guard (DR) : sync/async, bascule, runbook
- Tests : restore & switchover/failover (obligatoire)
Signal rouge #1 : âOn a des backupsâ â âOn sait restaurerâ.
Signal rouge #2 : RPO/RTO non contractualisĂ©s (ou non testĂ©s).Ce quâon patche (vraiment)
- Grid Infrastructure (GI)
- RDBMS
- Cell software / storage server software
- Composants réseau / firmware (selon politique)
Rolling patch
- Objectif : rĂ©duire lâinterruption (mais pas âzĂ©ro risqueâ).
- PrĂ©-requis : runbook, fenĂȘtres, backups, validation post-patch.
ExaChk
- Fréquence : mensuelle / trimestrielle (selon criticité)
- Analyse des Ă©carts : âdriftâ silencieux = danger
- Historique : prouver lâamĂ©lioration (ou la dĂ©rive)
RĂšgle dâor : ExaChk nâest pas un ârapportâ, câest une discipline.
Ignorer ExaChk = prĂ©parer lâincident.Anti-patterns
- Exadata utilisé comme baie SAN (sans offload)
- Smart Scan non exploité (SQL non éligible / mauvaises pratiques)
- Flash mal priorisĂ©e, IORM absent â OLTP pĂ©nalisĂ©
- Patching en retard + ExaChk ignoré
- Restore jamais testé
Quick wins
- Mesurer offload Smart Scan + corriger SQL âbloquantsâ
- Configurer IORM/QoS (OLTP vs batch)
- Nettoyer / prioriser Smart Flash Cache
- Rééquilibrer services RAC / sessions
- ExaChk + remédiations critiques
Chantiers 1â6 mois
- Stratégie HCC (tables éligibles + modes)
- RĂ©vision architecture workload (sĂ©paration, fenĂȘtres batch)
- Automatisation runbooks (DCLI, checks, reporting)
Long terme
- Cloud@Customer / OCI : stratĂ©gie dâĂ©volution
- Consolidation + gouvernance capacity
- Roadmap hardware (X9M â X10M, options flash)
Pourquoi câest critique en prod
- Sans QoS, un batch DW peut âmangerâ les I/O et tuer lâOLTP.
- IORM permet dâexprimer une prioritĂ© alignĂ©e sur le business.
Objectif audit : prouver quâun pic batch nâĂ©crase pas la latence OLTP
=> QoS, rÚgles, et monitoring corrélé.