1. Inference Engine
Exécute le modèle (forward pass) – latence & throughput.
IDEO LAB Dashboard 2026Inference, Training, Tokenization/Embeddings, RAG, Tools/Function-Calling, Memory, Optimization/Compilation, Serving/Orchestration.
▼ Voir les 8 briquesExécute le modèle (forward pass) – latence & throughput.
Backprop + parallélismes (data/model/pipeline).
Texte → tokens/embeddings ; impact direct sur coûts.
Recherche vectorielle + fusion contextuelle.
LLM → actions/API : function calling & plugins.
Mémoire session/long terme & personnalisation.
Compilation graph → kernels optimisés.
Scaling, routage multi-model, SLO/quotas.
Cœur d’exécution (GPU/TPU) avec batching, KV-cache, paged attention, speculative decoding.
Optimise les poids avec FSDP/ZeRO, checkpointing, mixed precision, gradient accumulation.
BPE/SentencePiece, normalisation, vocab, dimensions d’embeddings, quantisation possible.
Index densé (HNSW/IVF), reranking, chunking, freshness, guardrails et citations.
Schéma JSON, router d’outils, exécution sandboxée, observation-action-feedback.
Résumé hiérarchique, vector store, PII scrub, TTL, embeddings utilisateur.
XLA, TensorRT, TorchInductor, TVM, quantization/flash-attn, CUDA graphs.
Autoscaling, load-balancing, A/B, canary, observabilité, multi-tenant.