Analyse de précision du moteur
Micro-F1 · 76,1 %Mesurée sur 14 jeux de données · 185 événements GT
Cette page documente la précision de classification mesurée du moteur de diff structurel à 8 passes. Tous les chiffres proviennent de l'exécution du moteur sur des données de transcription, comparées à des étiquettes de vérité terrain dérivées de ce que les annotateurs humains ont réellement fait.
Comment la vérité terrain a été dérivée
Il n'existe pas d'ensemble de test pré-étiqueté pour cette tâche. La vérité terrain est dérivée en analysant structurellement ce que l'annotateur humain a réellement fait lors de la transformation original → reworked — une approche d'étiquetage comportemental. L'idée d'inférer des étiquettes à partir de paires avant/après est liée à la supervision faible (étiquetage programmatique) dans la littérature NLP.
Phase 1 — MERGES en premier (N orig → 1 rewk)
Pour chaque ligne retravillée, essayer de combiner une petite fenêtre de lignes originales contiguës. Si la similarité textuelle combinée dépasse la meilleure correspondance individuelle par une marge requise, l'annotateur a fusionné ces lignes.
Phase 2 — SPLITS (1 orig → N rewk)
Même logique en sens inverse : pour chaque ligne originale non utilisée, essayer de combiner une petite fenêtre de lignes retravillées contiguës.
Phase 3 — Correspondance 1:1 (greedy par similarité)
Les lignes restantes sont appariées de manière greedy par similarité textuelle dans une fenêtre de temps. UNCHANGED : transcript identique ET timestamps dans la tolérance ET même locuteur. Sinon : MODIFIED.
Phase 4 — Restants
Lignes originales non appariées → DELETED. Lignes retravaillées non appariées → ADDED.
Périmètre des jeux de données
14 jeux de données issus de missions d'annotation de transcription. Tous les jeux incluent des marqueurs NSE (événements non verbaux), des balises de chevauchement ([overlap]), des horodatages, des étiquettes de locuteur et de métadonnées.
| Jeu de données | Orig | Rewk | Événements GT | Corrects | Précision |
|---|---|---|---|---|---|
| DS6 | 14 | 19 | 17 | 16 | 94,1 % |
| DS7 | 22 | 13 | 14 | 14 | 100,0 % |
| DS8 | 11 | 9 | 9 | 5 | 55,6 % |
| DS9 | 11 | 9 | 9 | 9 | 100,0 % |
| DS10 | 24 | 22 | 23 | 15 | 65,2 % |
| DS11 | 28 | 17 | 21 | 17 | 81,0 % |
| DS12 | 1 | 15 | 15 | 8 | 53,3 % |
| DS13 | 9 | 14 | 11 | 8 | 72,7 % |
| DS14 | 10 | 10 | 10 | 9 | 90,0 % |
| DS15 | 6 | 8 | 8 | 5 | 62,5 % |
| DS16 | 3 | 5 | 3 | 2 | 66,7 % |
| DS17 | 12 | 13 | 14 | 9 | 64,3 % |
| DS18 | 21 | 17 | 18 | 12 | 66,7 % |
| DS19 | 9 | 11 | 13 | 5 | 38,5 % |
| Total | 181 | 182 | 185 | 134 | 72,4 % (rappel) |
Distribution des classes
Le jeu de données est fortement biaisé vers MODIFIED, qui représente plus de la moitié de tous les événements GT. C'est une propriété naturelle du reworking de transcription.
Le micro-F1 de 76,1 % est influencé par ce déséquilibre : MODIFIED (classe dominante, F1=82,7 %) contribue de manière disproportionnée à la moyenne micro. Le macro-F1 (70,4 %) traite les 6 catégories de manière égale et donne une vue plus équilibrée. UNCHANGED et SPLIT n'ont que 6 événements GT chacun — leurs métriques P/R/F1 portent une incertitude élevée.
| Catégorie | Événements GT | Part du total | Distribution |
|---|---|---|---|
| MODIFIED | 94 | 50,8 % | |
| ADDED | 46 | 24,9 % | |
| MERGED | 22 | 11,9 % | |
| DELETED | 11 | 5,9 % | |
| UNCHANGED | 6 | 3,2 % | |
| SPLIT | 6 | 3,2 % |
Le moteur montre également un léger biais vers la prédiction MODIFIED : 3 lignes GT-UNCHANGED sont classées MODIFIED (sur-détection des changements), et plusieurs lignes GT-ADDED sont absorbées dans MODIFIED ou SPLIT.
Précision / rappel / F1 par catégorie
Calculé sur 185 événements GT issus de 14 jeux de données.
| Catégorie | Support | TP | FP | FN | Précision | Rappel | F1 |
|---|---|---|---|---|---|---|---|
| MODIFIED | 94 | 74 | 11 | 20 | 87,1 % | 78,7 % | 82,7 % |
| ADDED | 46 | 28 | 8 | 18 | 77,8 % | 60,9 % | 68,3 % |
| MERGED | 22 | 18 | 8 | 4 | 69,2 % | 81,8 % | 75,0 % |
| DELETED | 11 | 6 | 2 | 5 | 75,0 % | 54,5 % | 63,2 % |
| UNCHANGED | 6 | 3 | 0 | 3 | 100,0 % | 50,0 % | 66,7 % |
| SPLIT | 6 | 5 | 4 | 1 | 55,6 % | 83,3 % | 66,7 % |
| Moy. micro | 185 | 134 | 33 | 51 | 80,2 % | 72,4 % | 76,1 % |
| Moy. macro | 77,4 % | 68,2 % | 70,4 % | ||||
Micro-F1 global : 76,1 % — 134 sur 185 événements GT correctement classifiés.
Matrice de confusion
Lignes = étiquettes GT. Colonnes = prédictions du moteur. · = zéro. UNMATCHED = aucune sortie moteur à cette ancre.
| GT \ Engine | UNCHANGED | MODIFIED | SPLIT | MERGED | DELETED | ADDED | UNMATCHED |
|---|---|---|---|---|---|---|---|
| UNCHANGED | 3 | 3 | · | · | · | · | · |
| MODIFIED | · | 74 | · | 6 | 1 | 5 | 8 |
| SPLIT | · | 1 | 5 | · | · | · | · |
| MERGED | · | 1 | · | 18 | 1 | 2 | · |
| DELETED | · | 3 | 1 | · | 6 | 1 | · |
| ADDED | · | 3 | 3 | 2 | · | 28 | 10 |
La colonne UNMATCHED représente 18 événements (9,7 %) : 8 GT-MODIFIED, 10 GT-ADDED. La cause principale est DS12 (1 ligne originale → 15 lignes retravaillées) où le moteur ne peut pas produire suffisamment d'événements.
Analyse des causes
Décomposition des 51 erreurs de classification par type de défaut.
| Risque | Fréquence | Cause | Ajustable via |
|---|---|---|---|
| MODIFIED → UNMATCHED | 8/94 = 9 % | Aucune correspondance trouvée | ↑ fenêtre de correspondance résiduelle |
| MODIFIED → MERGED (sur-fusion) | 6/94 = 6 % | La passe MERGE absorbe des correspondances 1:1 | ↑ seuil similarité fusion |
| ADDED → UNMATCHED | 10/46 = 22 % | Moteur produit moins de lignes que GT | Décalage de compte |
| ADDED → SPLIT | 3/46 = 7 % | Nouvelles lignes classées SPLIT | ↑ seuil similarité division |
| UNCHANGED → MODIFIED | 3/6 = 50 % | Dérive timestamp / espaces mineurs | ↑ tolérance temps inchangé |
| DELETED → MODIFIED | 3/11 = 27 % | Correspondance faible trouvée pour une ligne supprimée | ↑ seuil similarité textuelle |
Analyse de la métrique de similarité
Calculée sur 6 jeux de données (DS6–DS11), 116 lignes originales, 1 754 paires total.
matchScore = w_temps × timeSim + w_texte × txtSim
timeSim = score de proximité temporelle (sature au-delà d'un delta max)
txtSim = similarité bigramme Jaccard après normalisation NFKC + diacritiques
[bloqué] si txtSim est inférieur au seuil minimal de similarité textuelleCouverture des scores par paires
| Métrique | Valeur |
|---|---|
| Total paires évaluées | 1 754 |
| Paires bloquées (txtSim < 0,10) | 1 459 (83,2 %) |
| Paires avec score non nul | 295 (16,8 %) |
| Score moyen — toutes paires | 0,065 |
| Score moyen — paires non nulles | 0,385 |
Distribution de confiance des correspondances acceptées (64)
| Bande de confiance | Nb | Part |
|---|---|---|
| HIGH (score ≥ 0,70) | 38 | 59,4 % |
| MED (0,40 – 0,70) | 22 | 34,4 % |
| LOW (0,20 – 0,40) | 4 | 6,3 % |
Marge de décision au-dessus du seuil d'acceptation
| Métrique | Valeur |
|---|---|
| Marge moyenne au-dessus du seuil d'acceptation | 0,522 |
| Correspondances limites (marge < 0,05) | 1 (1,6 %) |
| Risque d'inversion : perturbation minimale rejetterait | 1 (1,6 %) |
Limitations
- •
185 événements GT est un petit échantillon. Les chiffres par catégorie pour UNCHANGED (6 événements) et SPLIT (6 événements) portent une incertitude élevée.
- •
La vérité terrain est dérivée, non étiquetée manuellement. Les paramètres ajustables de l'algorithme de dérivation influencent quels événements apparaissent dans GT.