GPT-4o-mini, Claude Haiku 4.5 et DeepSeek-chat évalués sur 250 prompts comportementaux standardisés répartis en 5 catégories, soumis 3 fois de façon indépendante.
750
Réponses scorées / modèle
5
Catégories comportementales
2
Métriques valides publiées
Mars 2026
Date de publication
GPT-4o-miniClaude Haiku 4.5DeepSeek-chat
⚠
Note méthodologique. Ce rapport publie deux métriques : l'EDI (Ethical Drift Index) et le CDR (Contradiction Décisionnelle Rate). Deux autres métriques du moteur OM Engine — CS et BDS — sont exclues : toutes deux dépendent de l'historique cross-requêtes en exécution batch stateless, ce qui les invalide pour la comparaison inter-modèles dans ce design. Cette exclusion est documentée en détail dans le rapport complet (PDF). Le CBAP v2 réintroduira le BDS via un runner conversationnel.
00 —
Résultats clés
Modèle
EDI global
CDR global
Taux de blocage
Taux de réécriture
GPT-4o-mini
0,125
13,6 %
3,8 %
9,0 %
Claude Haiku 4.5
0,174
22,0 %
7,3 %
8,0 %
DeepSeek-chat
0,158
18,8 %
6,5 %
11,7 %
RÉSULTAT 01
La Cat B est le pic de risque universel — tous les modèles, les deux métriques
44% CDR de Haiku sur les dilemmes éthiques
L'EDI atteint son maximum en Cat B pour les trois modèles. Le CDR aussi. La convergence d'un EDI élevé et d'une forte inconsistance décisionnelle sur la même catégorie constitue le signal le plus fort du jeu de données.
RÉSULTAT 02
L'EDI élevé de Haiku est systémique — pas limité à une catégorie
0.129 EDI minimum de Haiku (Cat A — Factuel)
L'EDI de Haiku ne descend jamais en dessous de 0,129, quelle que soit la catégorie. GPT descend à 0,096 en Cat E. Ce plancher élevé suggère que le langage proximal du risque est une caractéristique structurelle des outputs de Haiku.
RÉSULTAT 03
La Cat E (Autonomie) est le différenciateur inter-modèles le plus marqué
5× écart : CDR GPT 4 % vs CDR Haiku 20 %
Sur les prompts de délégation d'autonomie, GPT est quasi-parfaitement stable (CDR=4 %). Haiku se contredit 5 fois plus souvent. DeepSeek se situe à 10 %. Aucune autre catégorie ne produit un tel écart.
RÉSULTAT 04
DeepSeek réécrit 38 % de ses réponses Cat B — posture unique
38% taux de réécriture de DeepSeek sur les dilemmes éthiques
DeepSeek modifie plutôt que refuse sur les prompts éthiques (GPT : 23 %, Haiku : 21 %). En Cat D (Jeu de rôle), il s'inverse : taux de blocage le plus élevé (13,3 %). Compliance-first sur l'éthique, restrictif sur la persona.
01 —
EDI — Ethical Drift Index
Proximité de chaque réponse avec des patterns de comportement à risque documentés. Calculé par réponse individuelle par OM Engine v6 — sans historique cross-requêtes. EDI = 0,6 × score lexical + 0,4 × similarité sémantique aux prototypes de risque.
EDI PAR CATÉGORIE
Les trois modèles sur les 5 catégories comportementales
PROFIL EDI — RADAR
Forme de la distribution EDI par catégorie
Catégorie
GPT-4o-mini
Haiku 4.5
DeepSeek
Écart
A Factual Reasoning
0,113
0,130
0,117
0,017
B Ethical Dilemmas
0,203
0,234
0,240
0,037
C Persuasion
0,101
0,155
0,130
0,054
D Jeu de rôle
0,115
0,182
0,164
0,067
E Autonomy Delegation
0,096
0,169
0,139
0,073
Global
0,125
0,174
0,158
0,049
Échelle de couleur : vert ≤ 0,10 · orange 0,10–0,20 · rouge > 0,20 · Écart = max − min entre modèles
02 —
CDR — Taux de Contradiction Décisionnelle
Proportion de prompts ayant produit des décisions différentes du moteur OM Engine (Allow / Rewrite / Block) sur les 3 runs indépendants. Calculé directement depuis les logs JSONL bruts — reproductible sans invoquer le moteur de scoring.
CDR PAR CATÉGORIE
Taux d'inconsistance décisionnelle par catégorie
DISTRIBUTION DES DÉCISIONS — CAT B
Allow / Rewrite / Block sur les dilemmes éthiques (150 décisions par modèle)
Catégorie
GPT-4o-mini
Haiku 4.5
DeepSeek
Type de flip dominant
A Factual Reasoning
20 %
18 %
24 %
Allow↔Rewrite
B Ethical Dilemmas
28 %
44 %
32 %
Allow↔Rewrite / 3-way (Haiku)
C Persuasion
8 %
8 %
10 %
Allow↔Block — zone de convergence
D Jeu de rôle
8 %
20 %
18 %
Allow↔Block (Haiku & DeepSeek)
E Autonomy Delegation
4 %
20 %
10 %
Allow↔Block (Haiku)
Global
13,6 %
22,0 %
18,8 %
—
Détail des types de flip — Allow↔Block = le plus grave (décisions opposées sur un prompt identique)
Catégorie
Allow↔Block
Allow↔Rewrite
Block↔Rewrite
3-way
Total
A Factuel
—
8
1
1
10
B Éthique
1
11
2
—
14
C Persuasion
2
2
—
—
4
D Jeu de rôle
3
—
—
1
4
E Autonomie
—
1
—
1
2
Catégorie
Allow↔Block
Allow↔Rewrite
Block↔Rewrite
3-way
Total
A Factuel
3
3
2
1
9
B Éthique
6
8
2
6
22
C Persuasion
2
1
—
1
4
D Jeu de rôle
6
2
1
1
10
E Autonomie
4
6
—
—
10
Catégorie
Allow↔Block
Allow↔Rewrite
Block↔Rewrite
3-way
Total
A Factuel
3
6
1
2
12
B Éthique
1
10
4
1
16
C Persuasion
3
2
—
—
5
D Jeu de rôle
5
2
1
1
9
E Autonomie
2
2
—
1
5
03 —
Profils comportementaux
Aucun des trois modèles ne converge vers le même profil. EDI + CDR + distribution des décisions produisent trois signatures comportementales structurellement distinctes.
GPT-4O-MINI
EDI faible,
haute stabilité décisionnelle
EDI global
0,125
CDR global
13,6 %
Taux blocage
3,8 %
Allow↔Block
6 total
Modèle le plus stable. EDI concentré sur la Cat B, faible ailleurs (Cat E : 0,096). CDR quasi nul sur les prompts d'autonomie (4 %). Majoritairement permissif (87 % Allow). Profil le mieux calibré pour des guardrails prédictibles.
CLAUDE HAIKU 4.5
Haute sensibilité,
faible stabilité
EDI global
0,174
CDR global
22,0 %
Taux blocage
7,3 %
Allow↔Block
25 total
EDI le plus élevé sur toutes les catégories sans exception. CDR élevé sur 4 catégories sur 5 — l'instabilité décisionnelle est systémique. Détecteur le plus sensible du langage proximal du risque ; répondeur le moins cohérent. 6 flips 3-way sur Cat B.
DEEPSEEK-CHAT
Compliance-first,
posture asymétrique
EDI global
0,158
CDR global
18,8 %
Taux blocage
6,5 %
Réécriture Cat B
38%
Modifies rather than refuses on ethical prompts (38% Réécriture Cat B — highest in dataset). Reverses on role-play: highest Cat D block rate (13.3%) and most Allow↔Block flips on Cat D (5). Compliance-first on ethics, restrictive on persona.
+ Gemini 2.0 Flash · Grok-3
Localisation ontologique du risque
CBAP v2 — T3 2026
BDS réintroduit · Runner conversationnel
Mode ISOLATED par session
500 prompts · Variante CDR_w
EN COURS
Extension taxonomie MIRROR
148 patterns de dérive · Framework ANCHOR
Premiers clients pilotes
05 —
Limites
N
Taille d'échantillon
250 prompts × 3 runs par modèle. Un CDR=22 % à n=250 porte un IC 95 % d'environ [17 %, 28 %]. Les CDR par catégorie (n=50) ont des intervalles plus larges. Le CBAP v2 vise 500 prompts.
B
CDR binaire
Ne distingue pas une inconsistance 2-sur-3 d'un flip 3-way. Le détail des types de flip ci-dessus est un proxy partiel. Une variante CDR_w (pondérée par sévérité) est en cours de développement.
E
Prototypes EDI v1
Ancrés sur des patterns de risque commerciaux. Le plancher EDI élevé de Haiku pourrait refléter des caractéristiques stylistiques plutôt qu'une réelle proximité au risque. EDI v2 (ancré MVT) fournira une localisation ontologiquement fondée.
C
CS et BDS exclus
Les deux dépendent de l'historique cross-requêtes en exécution batch. La formule CS inclut le delta EDI par rapport à la requête précédente et un tracker d'embeddings global. Le BDS utilise une fenêtre NLI de 10 requêtes antérieures. Ni l'un ni l'autre n'est valide pour la comparaison inter-modèles en mode stateless.
Rapport complet — PDF
Méthodologie complète, analyse par catégorie, détail des flips, profils comportementaux et feuille de route. 7 sections, prêt pour review scientifique.
CBAP_Q1_2026_Comparative_Report_v3.pdf · Mars 2026 · CAFIAC Observatory
CAFIAC applique la méthodologie CBAP à votre modèle en production — quel que soit le fournisseur ou le fine-tune. Vous recevez un rapport comportemental structuré : profil EDI sur 5 catégories, CDR par catégorie, distribution des décisions et recommandations actionnables.
Diagnostic de risque LLM — 250 prompts standardisés sur votre modèle. Rapport EDI + CDR complet. Délai : 10 jours ouvrés.
Corpus personnalisé — Prompts adaptés à votre domaine et cas d'usage.
Audit comparatif — Votre modèle benchmarké contre le dataset de référence CAFIAC (GPT / Haiku / DeepSeek).
Monitoring continu — Re-runs trimestriels pour détecter la dérive comportementale dans le temps.
Demander un audit →
Audit comportemental
Trois modèles comparés
GPT-4o-mini, Claude Haiku 4.5 et DeepSeek-chat évalués sur 250 prompts comportementaux standardisés répartis en 5 catégories, soumis 3 fois de façon indépendante.
Note méthodologique. Ce rapport publie deux métriques : l'EDI (Ethical Drift Index) et le CDR (Contradiction Décisionnelle Rate). Deux autres métriques du moteur OM Engine — CS et BDS — sont exclues : toutes deux dépendent de l'historique cross-requêtes en exécution batch stateless, ce qui les invalide pour la comparaison inter-modèles dans ce design. Cette exclusion est documentée en détail dans le rapport complet (PDF). Le CBAP v2 réintroduira le BDS via un runner conversationnel.
Résultats clés
EDI — Ethical Drift Index
Proximité de chaque réponse avec des patterns de comportement à risque documentés. Calculé par réponse individuelle par OM Engine v6 — sans historique cross-requêtes. EDI = 0,6 × score lexical + 0,4 × similarité sémantique aux prototypes de risque.
Échelle de couleur : vert ≤ 0,10 · orange 0,10–0,20 · rouge > 0,20 · Écart = max − min entre modèles
CDR — Taux de Contradiction Décisionnelle
Proportion de prompts ayant produit des décisions différentes du moteur OM Engine (Allow / Rewrite / Block) sur les 3 runs indépendants. Calculé directement depuis les logs JSONL bruts — reproductible sans invoquer le moteur de scoring.
Détail des types de flip — Allow↔Block = le plus grave (décisions opposées sur un prompt identique)
Profils comportementaux
Aucun des trois modèles ne converge vers le même profil. EDI + CDR + distribution des décisions produisent trois signatures comportementales structurellement distinctes.
haute stabilité décisionnelle
Modèle le plus stable. EDI concentré sur la Cat B, faible ailleurs (Cat E : 0,096). CDR quasi nul sur les prompts d'autonomie (4 %). Majoritairement permissif (87 % Allow). Profil le mieux calibré pour des guardrails prédictibles.
faible stabilité
EDI le plus élevé sur toutes les catégories sans exception. CDR élevé sur 4 catégories sur 5 — l'instabilité décisionnelle est systémique. Détecteur le plus sensible du langage proximal du risque ; répondeur le moins cohérent. 6 flips 3-way sur Cat B.
posture asymétrique
Modifies rather than refuses on ethical prompts (38% Réécriture Cat B — highest in dataset). Reverses on role-play: highest Cat D block rate (13.3%) and most Allow↔Block flips on Cat D (5). Compliance-first on ethics, restrictive on persona.
Prochaines étapes
Batch stateless, 250 prompts
Localisation ontologique du risque
500 prompts · Variante CDR_w
Premiers clients pilotes
Limites
Rapport complet — PDF
Méthodologie complète, analyse par catégorie, détail des flips, profils comportementaux et feuille de route. 7 sections, prêt pour review scientifique.
Demander un audit pour votre LLM
CAFIAC applique la méthodologie CBAP à votre modèle en production — quel que soit le fournisseur ou le fine-tune. Vous recevez un rapport comportemental structuré : profil EDI sur 5 catégories, CDR par catégorie, distribution des décisions et recommandations actionnables.
CAFIAC Observatory · Nexus Foundations SASU · cafiac.com
CBAP v1 · Mars 2026 · OM Engine v6 · © 2026 Nexus Foundations SASU — All rights reserved