Analyse de précision du moteur

Micro-F1 · 76,1 %

Mesurée sur 14 jeux de données · 185 événements GT

Cette page documente la précision de classification mesurée du moteur de diff structurel à 8 passes. Tous les chiffres proviennent de l'exécution du moteur sur des données de transcription, comparées à des étiquettes de vérité terrain dérivées de ce que les annotateurs humains ont réellement fait.

Comment la vérité terrain a été dérivée

Il n'existe pas d'ensemble de test pré-étiqueté pour cette tâche. La vérité terrain est dérivée en analysant structurellement ce que l'annotateur humain a réellement fait lors de la transformation original → reworked — une approche d'étiquetage comportemental. L'idée d'inférer des étiquettes à partir de paires avant/après est liée à la supervision faible (étiquetage programmatique) dans la littérature NLP.

Phase 1 — MERGES en premier (N orig → 1 rewk)

Pour chaque ligne retravillée, essayer de combiner une petite fenêtre de lignes originales contiguës. Si la similarité textuelle combinée dépasse la meilleure correspondance individuelle par une marge requise, l'annotateur a fusionné ces lignes.

Phase 2 — SPLITS (1 orig → N rewk)

Même logique en sens inverse : pour chaque ligne originale non utilisée, essayer de combiner une petite fenêtre de lignes retravillées contiguës.

Phase 3 — Correspondance 1:1 (greedy par similarité)

Les lignes restantes sont appariées de manière greedy par similarité textuelle dans une fenêtre de temps. UNCHANGED : transcript identique ET timestamps dans la tolérance ET même locuteur. Sinon : MODIFIED.

Phase 4 — Restants

Lignes originales non appariées → DELETED. Lignes retravaillées non appariées → ADDED.

Périmètre des jeux de données

14 jeux de données issus de missions d'annotation de transcription. Tous les jeux incluent des marqueurs NSE (événements non verbaux), des balises de chevauchement ([overlap]), des horodatages, des étiquettes de locuteur et de métadonnées.

Jeu de données	Orig	Rewk	Événements GT	Corrects	Précision
DS6	14	19	17	16	94,1 %
DS7	22	13	14	14	100,0 %
DS8	11	9	9	5	55,6 %
DS9	11	9	9	9	100,0 %
DS10	24	22	23	15	65,2 %
DS11	28	17	21	17	81,0 %
DS12	1	15	15	8	53,3 %
DS13	9	14	11	8	72,7 %
DS14	10	10	10	9	90,0 %
DS15	6	8	8	5	62,5 %
DS16	3	5	3	2	66,7 %
DS17	12	13	14	9	64,3 %
DS18	21	17	18	12	66,7 %
DS19	9	11	13	5	38,5 %
Total	181	182	185	134	72,4 % (rappel)

Distribution des classes

Le jeu de données est fortement biaisé vers MODIFIED, qui représente plus de la moitié de tous les événements GT. C'est une propriété naturelle du reworking de transcription.

Le micro-F1 de 76,1 % est influencé par ce déséquilibre : MODIFIED (classe dominante, F1=82,7 %) contribue de manière disproportionnée à la moyenne micro. Le macro-F1 (70,4 %) traite les 6 catégories de manière égale et donne une vue plus équilibrée. UNCHANGED et SPLIT n'ont que 6 événements GT chacun — leurs métriques P/R/F1 portent une incertitude élevée.

Catégorie	Événements GT	Part du total
MODIFIED	94	50,8 %
ADDED	46	24,9 %
MERGED	22	11,9 %
DELETED	11	5,9 %
UNCHANGED	6	3,2 %
SPLIT	6	3,2 %

Le moteur montre également un léger biais vers la prédiction MODIFIED : 3 lignes GT-UNCHANGED sont classées MODIFIED (sur-détection des changements), et plusieurs lignes GT-ADDED sont absorbées dans MODIFIED ou SPLIT.

Précision / rappel / F1 par catégorie

Calculé sur 185 événements GT issus de 14 jeux de données.

Catégorie	Support	TP	FP	FN	Précision	Rappel	F1
MODIFIED	94	74	11	20	87,1 %	78,7 %	82,7 %
ADDED	46	28	8	18	77,8 %	60,9 %	68,3 %
MERGED	22	18	8	4	69,2 %	81,8 %	75,0 %
DELETED	11	6	2	5	75,0 %	54,5 %	63,2 %
UNCHANGED	6	3	0	3	100,0 %	50,0 %	66,7 %
SPLIT	6	5	4	1	55,6 %	83,3 %	66,7 %
Moy. micro	185	134	33	51	80,2 %	72,4 %	76,1 %
Moy. macro					77,4 %	68,2 %	70,4 %

Micro-F1 global : 76,1 % — 134 sur 185 événements GT correctement classifiés.

Matrice de confusion

Lignes = étiquettes GT. Colonnes = prédictions du moteur. · = zéro. UNMATCHED = aucune sortie moteur à cette ancre.

GT \ Engine	UNCHANGED	MODIFIED	SPLIT	MERGED	DELETED	ADDED	UNMATCHED
UNCHANGED	3	3	·	·	·	·	·
MODIFIED	·	74	·	6	1	5	8
SPLIT	·	1	5	·	·	·	·
MERGED	·	1	·	18	1	2	·
DELETED	·	3	1	·	6	1	·
ADDED	·	3	3	2	·	28	10

La colonne UNMATCHED représente 18 événements (9,7 %) : 8 GT-MODIFIED, 10 GT-ADDED. La cause principale est DS12 (1 ligne originale → 15 lignes retravaillées) où le moteur ne peut pas produire suffisamment d'événements.

Analyse des causes

Décomposition des 51 erreurs de classification par type de défaut.

Risque	Fréquence	Cause	Ajustable via
MODIFIED → UNMATCHED	8/94 = 9 %	Aucune correspondance trouvée	↑ fenêtre de correspondance résiduelle
MODIFIED → MERGED (sur-fusion)	6/94 = 6 %	La passe MERGE absorbe des correspondances 1:1	↑ seuil similarité fusion
ADDED → UNMATCHED	10/46 = 22 %	Moteur produit moins de lignes que GT	Décalage de compte
ADDED → SPLIT	3/46 = 7 %	Nouvelles lignes classées SPLIT	↑ seuil similarité division
UNCHANGED → MODIFIED	3/6 = 50 %	Dérive timestamp / espaces mineurs	↑ tolérance temps inchangé
DELETED → MODIFIED	3/11 = 27 %	Correspondance faible trouvée pour une ligne supprimée	↑ seuil similarité textuelle

Analyse de la métrique de similarité

Calculée sur 6 jeux de données (DS6–DS11), 116 lignes originales, 1 754 paires total.

text

matchScore = w_temps × timeSim + w_texte × txtSim
timeSim  = score de proximité temporelle (sature au-delà d'un delta max)
txtSim   = similarité bigramme Jaccard après normalisation NFKC + diacritiques
[bloqué] si txtSim est inférieur au seuil minimal de similarité textuelle

Couverture des scores par paires

Métrique	Valeur
Total paires évaluées	1 754
Paires bloquées (txtSim < 0,10)	1 459 (83,2 %)
Paires avec score non nul	295 (16,8 %)
Score moyen — toutes paires	0,065
Score moyen — paires non nulles	0,385

Distribution de confiance des correspondances acceptées (64)

Bande de confiance	Nb	Part
HIGH (score ≥ 0,70)	38	59,4 %
MED (0,40 – 0,70)	22	34,4 %
LOW (0,20 – 0,40)	4	6,3 %

Marge de décision au-dessus du seuil d'acceptation

Métrique	Valeur
Marge moyenne au-dessus du seuil d'acceptation	0,522
Correspondances limites (marge < 0,05)	1 (1,6 %)
Risque d'inversion : perturbation minimale rejetterait	1 (1,6 %)

Limitations

•
185 événements GT est un petit échantillon. Les chiffres par catégorie pour UNCHANGED (6 événements) et SPLIT (6 événements) portent une incertitude élevée.
•
La vérité terrain est dérivée, non étiquetée manuellement. Les paramètres ajustables de l'algorithme de dérivation influencent quels événements apparaissent dans GT.