Analyse de précision du moteur

Micro-F1 · 76,1 %

Mesurée sur 14 jeux de données · 185 événements GT

Cette page documente la précision de classification mesurée du moteur de diff structurel à 8 passes. Tous les chiffres proviennent de l'exécution du moteur sur des données de transcription, comparées à des étiquettes de vérité terrain dérivées de ce que les annotateurs humains ont réellement fait.

Comment la vérité terrain a été dérivée

Il n'existe pas d'ensemble de test pré-étiqueté pour cette tâche. La vérité terrain est dérivée en analysant structurellement ce que l'annotateur humain a réellement fait lors de la transformation original → reworked — une approche d'étiquetage comportemental. L'idée d'inférer des étiquettes à partir de paires avant/après est liée à la supervision faible (étiquetage programmatique) dans la littérature NLP.

Phase 1 — MERGES en premier (N orig → 1 rewk)

Pour chaque ligne retravillée, essayer de combiner une petite fenêtre de lignes originales contiguës. Si la similarité textuelle combinée dépasse la meilleure correspondance individuelle par une marge requise, l'annotateur a fusionné ces lignes.

Phase 2 — SPLITS (1 orig → N rewk)

Même logique en sens inverse : pour chaque ligne originale non utilisée, essayer de combiner une petite fenêtre de lignes retravillées contiguës.

Phase 3 — Correspondance 1:1 (greedy par similarité)

Les lignes restantes sont appariées de manière greedy par similarité textuelle dans une fenêtre de temps. UNCHANGED : transcript identique ET timestamps dans la tolérance ET même locuteur. Sinon : MODIFIED.

Phase 4 — Restants

Lignes originales non appariées → DELETED. Lignes retravaillées non appariées → ADDED.

Périmètre des jeux de données

14 jeux de données issus de missions d'annotation de transcription. Tous les jeux incluent des marqueurs NSE (événements non verbaux), des balises de chevauchement ([overlap]), des horodatages, des étiquettes de locuteur et de métadonnées.

Jeu de donnéesOrigRewkÉvénements GTCorrectsPrécision
DS61419171694,1 %
DS722131414100,0 %
DS81199555,6 %
DS911999100,0 %
DS102422231565,2 %
DS112817211781,0 %
DS1211515853,3 %
DS1391411872,7 %
DS14101010990,0 %
DS15688562,5 %
DS16353266,7 %
DS17121314964,3 %
DS182117181266,7 %
DS1991113538,5 %
Total18118218513472,4 % (rappel)

Distribution des classes

Le jeu de données est fortement biaisé vers MODIFIED, qui représente plus de la moitié de tous les événements GT. C'est une propriété naturelle du reworking de transcription.

Le micro-F1 de 76,1 % est influencé par ce déséquilibre : MODIFIED (classe dominante, F1=82,7 %) contribue de manière disproportionnée à la moyenne micro. Le macro-F1 (70,4 %) traite les 6 catégories de manière égale et donne une vue plus équilibrée. UNCHANGED et SPLIT n'ont que 6 événements GT chacun — leurs métriques P/R/F1 portent une incertitude élevée.

CatégorieÉvénements GTPart du totalDistribution
MODIFIED9450,8 %
ADDED4624,9 %
MERGED2211,9 %
DELETED115,9 %
UNCHANGED63,2 %
SPLIT63,2 %

Le moteur montre également un léger biais vers la prédiction MODIFIED : 3 lignes GT-UNCHANGED sont classées MODIFIED (sur-détection des changements), et plusieurs lignes GT-ADDED sont absorbées dans MODIFIED ou SPLIT.

Précision / rappel / F1 par catégorie

Calculé sur 185 événements GT issus de 14 jeux de données.

CatégorieSupportTPFPFNPrécisionRappelF1
MODIFIED9474112087,1 %78,7 %82,7 %
ADDED462881877,8 %60,9 %68,3 %
MERGED22188469,2 %81,8 %75,0 %
DELETED1162575,0 %54,5 %63,2 %
UNCHANGED6303100,0 %50,0 %66,7 %
SPLIT654155,6 %83,3 %66,7 %
Moy. micro185134335180,2 %72,4 %76,1 %
Moy. macro77,4 %68,2 %70,4 %

Micro-F1 global : 76,1 % — 134 sur 185 événements GT correctement classifiés.

Matrice de confusion

Lignes = étiquettes GT. Colonnes = prédictions du moteur. · = zéro. UNMATCHED = aucune sortie moteur à cette ancre.

GT \ EngineUNCHANGEDMODIFIEDSPLITMERGEDDELETEDADDEDUNMATCHED
UNCHANGED33·····
MODIFIED·74·6158
SPLIT·15····
MERGED·1·1812·
DELETED·31·61·
ADDED·332·2810

La colonne UNMATCHED représente 18 événements (9,7 %) : 8 GT-MODIFIED, 10 GT-ADDED. La cause principale est DS12 (1 ligne originale → 15 lignes retravaillées) où le moteur ne peut pas produire suffisamment d'événements.

Analyse des causes

Décomposition des 51 erreurs de classification par type de défaut.

RisqueFréquenceCauseAjustable via
MODIFIED → UNMATCHED8/94 = 9 %Aucune correspondance trouvée↑ fenêtre de correspondance résiduelle
MODIFIED → MERGED (sur-fusion)6/94 = 6 %La passe MERGE absorbe des correspondances 1:1↑ seuil similarité fusion
ADDED → UNMATCHED10/46 = 22 %Moteur produit moins de lignes que GTDécalage de compte
ADDED → SPLIT3/46 = 7 %Nouvelles lignes classées SPLIT↑ seuil similarité division
UNCHANGED → MODIFIED3/6 = 50 %Dérive timestamp / espaces mineurs↑ tolérance temps inchangé
DELETED → MODIFIED3/11 = 27 %Correspondance faible trouvée pour une ligne supprimée↑ seuil similarité textuelle

Analyse de la métrique de similarité

Calculée sur 6 jeux de données (DS6–DS11), 116 lignes originales, 1 754 paires total.

text
matchScore = w_temps × timeSim + w_texte × txtSim
timeSim  = score de proximité temporelle (sature au-delà d'un delta max)
txtSim   = similarité bigramme Jaccard après normalisation NFKC + diacritiques
[bloqué] si txtSim est inférieur au seuil minimal de similarité textuelle

Couverture des scores par paires

MétriqueValeur
Total paires évaluées1 754
Paires bloquées (txtSim < 0,10)1 459 (83,2 %)
Paires avec score non nul295 (16,8 %)
Score moyen — toutes paires0,065
Score moyen — paires non nulles0,385

Distribution de confiance des correspondances acceptées (64)

Bande de confianceNbPart
HIGH (score ≥ 0,70)3859,4 %
MED (0,40 – 0,70)2234,4 %
LOW (0,20 – 0,40)46,3 %

Marge de décision au-dessus du seuil d'acceptation

MétriqueValeur
Marge moyenne au-dessus du seuil d'acceptation0,522
Correspondances limites (marge < 0,05)1 (1,6 %)
Risque d'inversion : perturbation minimale rejetterait1 (1,6 %)

Limitations

  • 185 événements GT est un petit échantillon. Les chiffres par catégorie pour UNCHANGED (6 événements) et SPLIT (6 événements) portent une incertitude élevée.

  • La vérité terrain est dérivée, non étiquetée manuellement. Les paramètres ajustables de l'algorithme de dérivation influencent quels événements apparaissent dans GT.