CAFIAC Behavioral Observatory Report - Q1 2026


Demander un audit →

Q1 2026 — CBAP v1 — PREMIÈRE PUBLICATION

Audit comportemental
Trois modèles comparés

GPT-4o-mini, Claude Haiku 4.5 et DeepSeek-chat évalués sur 250 prompts comportementaux standardisés répartis en 5 catégories, soumis 3 fois de façon indépendante.

750
Réponses scorées / modèle
5
Catégories comportementales
2
Métriques valides publiées
Mars 2026
Date de publication
GPT-4o-mini Claude Haiku 4.5 DeepSeek-chat

Note méthodologique. Ce rapport publie deux métriques : l'EDI (Ethical Drift Index) et le CDR (Contradiction Décisionnelle Rate). Deux autres métriques du moteur OM Engine — CS et BDS — sont exclues : toutes deux dépendent de l'historique cross-requêtes en exécution batch stateless, ce qui les invalide pour la comparaison inter-modèles dans ce design. Cette exclusion est documentée en détail dans le rapport complet (PDF). Le CBAP v2 réintroduira le BDS via un runner conversationnel.

00 —

Résultats clés

 
Modèle EDI global CDR global Taux de blocage Taux de réécriture
GPT-4o-mini 0,125 13,6 % 3,8 % 9,0 %
Claude Haiku 4.5 0,174 22,0 % 7,3 % 8,0 %
DeepSeek-chat 0,158 18,8 % 6,5 % 11,7 %
RÉSULTAT 01
La Cat B est le pic de risque universel — tous les modèles, les deux métriques
44% CDR de Haiku sur les dilemmes éthiques
L'EDI atteint son maximum en Cat B pour les trois modèles. Le CDR aussi. La convergence d'un EDI élevé et d'une forte inconsistance décisionnelle sur la même catégorie constitue le signal le plus fort du jeu de données.
RÉSULTAT 02
L'EDI élevé de Haiku est systémique — pas limité à une catégorie
0.129 EDI minimum de Haiku (Cat A — Factuel)
L'EDI de Haiku ne descend jamais en dessous de 0,129, quelle que soit la catégorie. GPT descend à 0,096 en Cat E. Ce plancher élevé suggère que le langage proximal du risque est une caractéristique structurelle des outputs de Haiku.
RÉSULTAT 03
La Cat E (Autonomie) est le différenciateur inter-modèles le plus marqué
écart : CDR GPT 4 % vs CDR Haiku 20 %
Sur les prompts de délégation d'autonomie, GPT est quasi-parfaitement stable (CDR=4 %). Haiku se contredit 5 fois plus souvent. DeepSeek se situe à 10 %. Aucune autre catégorie ne produit un tel écart.
RÉSULTAT 04
DeepSeek réécrit 38 % de ses réponses Cat B — posture unique
38% taux de réécriture de DeepSeek sur les dilemmes éthiques
DeepSeek modifie plutôt que refuse sur les prompts éthiques (GPT : 23 %, Haiku : 21 %). En Cat D (Jeu de rôle), il s'inverse : taux de blocage le plus élevé (13,3 %). Compliance-first sur l'éthique, restrictif sur la persona.

01 —

EDI — Ethical Drift Index

 

Proximité de chaque réponse avec des patterns de comportement à risque documentés. Calculé par réponse individuelle par OM Engine v6 — sans historique cross-requêtes. EDI = 0,6 × score lexical + 0,4 × similarité sémantique aux prototypes de risque.

EDI PAR CATÉGORIE
Les trois modèles sur les 5 catégories comportementales
PROFIL EDI — RADAR
Forme de la distribution EDI par catégorie
Catégorie GPT-4o-mini Haiku 4.5 DeepSeek Écart
A Factual Reasoning 0,113 0,130 0,117 0,017
B Ethical Dilemmas 0,203 0,234 0,240 0,037
C Persuasion 0,101 0,155 0,130 0,054
D Jeu de rôle 0,115 0,182 0,164 0,067
E Autonomy Delegation 0,096 0,169 0,139 0,073
Global 0,125 0,174 0,158 0,049

Échelle de couleur : vert ≤ 0,10 · orange 0,10–0,20 · rouge > 0,20 · Écart = max − min entre modèles

02 —

CDR — Taux de Contradiction Décisionnelle

 

Proportion de prompts ayant produit des décisions différentes du moteur OM Engine (Allow / Rewrite / Block) sur les 3 runs indépendants. Calculé directement depuis les logs JSONL bruts — reproductible sans invoquer le moteur de scoring.

CDR PAR CATÉGORIE
Taux d'inconsistance décisionnelle par catégorie
DISTRIBUTION DES DÉCISIONS — CAT B
Allow / Rewrite / Block sur les dilemmes éthiques (150 décisions par modèle)
Catégorie GPT-4o-mini Haiku 4.5 DeepSeek Type de flip dominant
A Factual Reasoning 20 % 18 % 24 % Allow↔Rewrite
B Ethical Dilemmas 28 % 44 % 32 % Allow↔Rewrite / 3-way (Haiku)
C Persuasion 8 % 8 % 10 % Allow↔Block — zone de convergence
D Jeu de rôle 8 % 20 % 18 % Allow↔Block (Haiku & DeepSeek)
E Autonomy Delegation 4 % 20 % 10 % Allow↔Block (Haiku)
Global 13,6 % 22,0 % 18,8 %

Détail des types de flip — Allow↔Block = le plus grave (décisions opposées sur un prompt identique)

Catégorie Allow↔Block Allow↔Rewrite Block↔Rewrite 3-way Total
A Factuel 8 1 1 10
B Éthique 1 11 2 14
C Persuasion 2 2 4
D Jeu de rôle 3 1 4
E Autonomie 1 1 2
Catégorie Allow↔Block Allow↔Rewrite Block↔Rewrite 3-way Total
A Factuel 3 3 2 1 9
B Éthique 6 8 2 6 22
C Persuasion 2 1 1 4
D Jeu de rôle 6 2 1 1 10
E Autonomie 4 6 10
Catégorie Allow↔Block Allow↔Rewrite Block↔Rewrite 3-way Total
A Factuel 3 6 1 2 12
B Éthique 1 10 4 1 16
C Persuasion 3 2 5
D Jeu de rôle 5 2 1 1 9
E Autonomie 2 2 1 5

03 —

Profils comportementaux

 

Aucun des trois modèles ne converge vers le même profil. EDI + CDR + distribution des décisions produisent trois signatures comportementales structurellement distinctes.

GPT-4O-MINI
EDI faible,
haute stabilité décisionnelle
EDI global
0,125
CDR global
13,6 %
Taux blocage
3,8 %
Allow↔Block
6 total

Modèle le plus stable. EDI concentré sur la Cat B, faible ailleurs (Cat E : 0,096). CDR quasi nul sur les prompts d'autonomie (4 %). Majoritairement permissif (87 % Allow). Profil le mieux calibré pour des guardrails prédictibles.

CLAUDE HAIKU 4.5
Haute sensibilité,
faible stabilité
EDI global
0,174
CDR global
22,0 %
Taux blocage
7,3 %
Allow↔Block
25 total

EDI le plus élevé sur toutes les catégories sans exception. CDR élevé sur 4 catégories sur 5 — l'instabilité décisionnelle est systémique. Détecteur le plus sensible du langage proximal du risque ; répondeur le moins cohérent. 6 flips 3-way sur Cat B.

DEEPSEEK-CHAT
Compliance-first,
posture asymétrique
EDI global
0,158
CDR global
18,8 %
Taux blocage
6,5 %
Réécriture Cat B
38%

Modifies rather than refuses on ethical prompts (38% Réécriture Cat B — highest in dataset). Reverses on role-play: highest Cat D block rate (13.3%) and most Allow↔Block flips on Cat D (5). Compliance-first on ethics, restrictive on persona.

04 —

Prochaines étapes

 
MAINTENANT — CBAP v1
EDI + CDR · 3 modèles
GPT · Haiku · DeepSeek
Batch stateless, 250 prompts
PHASE 2 — T2 2026
EDI v2 (ancré MVT) · 5 modèles
+ Gemini 2.0 Flash · Grok-3
Localisation ontologique du risque
CBAP v2 — T3 2026
BDS réintroduit · Runner conversationnel
Mode ISOLATED par session
500 prompts · Variante CDR_w
EN COURS
Extension taxonomie MIRROR
148 patterns de dérive · Framework ANCHOR
Premiers clients pilotes

05 —

Limites

 
N
Taille d'échantillon
250 prompts × 3 runs par modèle. Un CDR=22 % à n=250 porte un IC 95 % d'environ [17 %, 28 %]. Les CDR par catégorie (n=50) ont des intervalles plus larges. Le CBAP v2 vise 500 prompts.
B
CDR binaire
Ne distingue pas une inconsistance 2-sur-3 d'un flip 3-way. Le détail des types de flip ci-dessus est un proxy partiel. Une variante CDR_w (pondérée par sévérité) est en cours de développement.
E
Prototypes EDI v1
Ancrés sur des patterns de risque commerciaux. Le plancher EDI élevé de Haiku pourrait refléter des caractéristiques stylistiques plutôt qu'une réelle proximité au risque. EDI v2 (ancré MVT) fournira une localisation ontologiquement fondée.
C
CS et BDS exclus
Les deux dépendent de l'historique cross-requêtes en exécution batch. La formule CS inclut le delta EDI par rapport à la requête précédente et un tracker d'embeddings global. Le BDS utilise une fenêtre NLI de 10 requêtes antérieures. Ni l'un ni l'autre n'est valide pour la comparaison inter-modèles en mode stateless.

Rapport complet — PDF

Méthodologie complète, analyse par catégorie, détail des flips, profils comportementaux et feuille de route. 7 sections, prêt pour review scientifique.

CBAP_Q1_2026_Comparative_Report_v3.pdf · Mars 2026 · CAFIAC Observatory

Download Report
Gratuit · Sans inscription

Demander un audit pour votre LLM

CAFIAC applique la méthodologie CBAP à votre modèle en production — quel que soit le fournisseur ou le fine-tune. Vous recevez un rapport comportemental structuré : profil EDI sur 5 catégories, CDR par catégorie, distribution des décisions et recommandations actionnables.

  • Diagnostic de risque LLM — 250 prompts standardisés sur votre modèle. Rapport EDI + CDR complet. Délai : 10 jours ouvrés.
  • Corpus personnalisé — Prompts adaptés à votre domaine et cas d'usage.
  • Audit comparatif — Votre modèle benchmarké contre le dataset de référence CAFIAC (GPT / Haiku / DeepSeek).
  • Monitoring continu — Re-runs trimestriels pour détecter la dérive comportementale dans le temps.

Réponse sous 48 h. Sans engagement.

CAFIAC Observatory · Nexus Foundations SASU · cafiac.com

CBAP v1 · Mars 2026 · OM Engine v6 · © 2026 Nexus Foundations SASU — All rights reserved