تحليل دقة المحرك
Micro-F1 · 76.1%مُقاس على 14 مجموعة بيانات · 185 حدث GT
توثّق هذه الصفحة دقة التصنيف المقاسة لمحرك الـ diff الهيكلي ذي الـ 8 مراحل. جميع الأرقام مأخوذة من تشغيل المحرك على بيانات تفريغ ومقارنة مخرجاته بتسميات الحقيقة الأرضية المشتقة مما قام به المُدقّقون البشريون فعلياً.
كيف تم اشتقاق الحقيقة الأرضية
لا توجد مجموعة اختبار مُصنَّفة مسبقاً لهذه المهمة. تُشتَق الحقيقة الأرضية بتحليل هيكلي لما قام به المُدقِّق البشري فعلياً عند تحويل original → reworked — نهج تصنيف سلوكي. فكرة استنتاج التسميات من أزواج قبل/بعد مرتبطة بالإشراف الضعيف (التصنيف البرمجي) في أدبيات NLP.
المرحلة 1 — الدمج أولاً (N orig → 1 rewk)
لكل صف مُعاد، جرّب دمج نافذة صغيرة من الصفوف الأصلية المتتالية. إذا تجاوز التشابه النصي المُدمَج أفضل تطابق فردي بهامش مطلوب، فقد دمج المُدقّق تلك الصفوف.
المرحلة 2 — التقسيمات (1 orig → N rewk)
نفس المنطق بشكل معكوس: لكل صف أصلي غير مستخدم، جرّب دمج نافذة صغيرة من الصفوف المُعادة المتتالية.
المرحلة 3 — مطابقة 1:1 (greedy بحسب التشابه)
تتطابق الصفوف المتبقية بشكل greedy بالتشابه النصي ضمن نافذة زمنية. UNCHANGED: نص متطابق وطوابع زمنية ضمن التسامح ونفس المتحدث. وإلا: MODIFIED.
المرحلة 4 — المتبقيات
الصفوف الأصلية غير المطابَقة → DELETED. الصفوف المُعادة غير المطابَقة → ADDED.
نطاق مجموعات البيانات
14 مجموعة بيانات من مهام تصنيف التفريغ. جميع المجموعات تحتوي على علامات NSE (الأحداث غير الكلامية) وعلامات التداخل ([overlap]) وطوابع زمنية وتسميات متحدث وعلامات بيانات وصفية.
| المجموعة | Orig | Rewk | أحداث GT | صحيح | الدقة |
|---|---|---|---|---|---|
| DS6 | 14 | 19 | 17 | 16 | 94.1% |
| DS7 | 22 | 13 | 14 | 14 | 100.0% |
| DS8 | 11 | 9 | 9 | 5 | 55.6% |
| DS9 | 11 | 9 | 9 | 9 | 100.0% |
| DS10 | 24 | 22 | 23 | 15 | 65.2% |
| DS11 | 28 | 17 | 21 | 17 | 81.0% |
| DS12 | 1 | 15 | 15 | 8 | 53.3% |
| DS13 | 9 | 14 | 11 | 8 | 72.7% |
| DS14 | 10 | 10 | 10 | 9 | 90.0% |
| DS15 | 6 | 8 | 8 | 5 | 62.5% |
| DS16 | 3 | 5 | 3 | 2 | 66.7% |
| DS17 | 12 | 13 | 14 | 9 | 64.3% |
| DS18 | 21 | 17 | 18 | 12 | 66.7% |
| DS19 | 9 | 11 | 13 | 5 | 38.5% |
| الإجمالي | 181 | 182 | 185 | 134 | 72.4% (استرجاع) |
توزيع الفئات
البيانات مائلة بشدة نحو MODIFIED الذي يشكّل أكثر من نصف جميع أحداث GT. هذه خاصية طبيعية لإعادة صياغة التفريغ.
يتأثر الـ micro-F1 البالغ 76.1% بهذا الاختلال: تُساهم MODIFIED (الفئة السائدة، F1=82.7%) بشكل غير متناسب في المتوسط الدقيق. الـ macro-F1 (70.4%) يعامل الفئات الست بالتساوي ويعطي صورة أكثر توازناً. UNCHANGED وSPLIT لديهما 6 أحداث GT فقط — مقاييسهما تحمل عدم يقين عالياً.
| الفئة | أحداث GT | الحصة | Distribution |
|---|---|---|---|
| MODIFIED | 94 | 50.8% | |
| ADDED | 46 | 24.9% | |
| MERGED | 22 | 11.9% | |
| DELETED | 11 | 5.9% | |
| UNCHANGED | 6 | 3.2% | |
| SPLIT | 6 | 3.2% |
يُظهر المحرك أيضاً تحيزاً خفيفاً نحو التنبؤ بـ MODIFIED: 3 صفوف GT-UNCHANGED تُصنَّف كـ MODIFIED، وعدة صفوف GT-ADDED تُمتَص في MODIFIED أو SPLIT.
الدقة / الاسترجاع / F1 لكل فئة
مُحسَب على 185 حدث GT من 14 مجموعة بيانات.
| الفئة | الدعم | TP | FP | FN | الدقة | الاسترجاع | F1 |
|---|---|---|---|---|---|---|---|
| MODIFIED | 94 | 74 | 11 | 20 | 87.1% | 78.7% | 82.7% |
| ADDED | 46 | 28 | 8 | 18 | 77.8% | 60.9% | 68.3% |
| MERGED | 22 | 18 | 8 | 4 | 69.2% | 81.8% | 75.0% |
| DELETED | 11 | 6 | 2 | 5 | 75.0% | 54.5% | 63.2% |
| UNCHANGED | 6 | 3 | 0 | 3 | 100.0% | 50.0% | 66.7% |
| SPLIT | 6 | 5 | 4 | 1 | 55.6% | 83.3% | 66.7% |
| المتوسط الدقيق | 185 | 134 | 33 | 51 | 80.2% | 72.4% | 76.1% |
| المتوسط الكلي | 77.4% | 68.2% | 70.4% | ||||
الـ micro-F1 الكلي للمحرك: 76.1% — 134 من 185 حدث GT مُصنَّف بشكل صحيح.
مصفوفة الارتباك
الصفوف = تسميات GT. الأعمدة = تنبؤات المحرك. · = صفر. UNMATCHED = لا مخرج للمحرك عند هذا الارتساء.
| GT \ Engine | UNCHANGED | MODIFIED | SPLIT | MERGED | DELETED | ADDED | UNMATCHED |
|---|---|---|---|---|---|---|---|
| UNCHANGED | 3 | 3 | · | · | · | · | · |
| MODIFIED | · | 74 | · | 6 | 1 | 5 | 8 |
| SPLIT | · | 1 | 5 | · | · | · | · |
| MERGED | · | 1 | · | 18 | 1 | 2 | · |
| DELETED | · | 3 | 1 | · | 6 | 1 | · |
| ADDED | · | 3 | 3 | 2 | · | 28 | 10 |
عمود UNMATCHED يمثّل 18 حدثاً (9.7%): 8 GT-MODIFIED و10 GT-ADDED. السبب الرئيسي هو DS12 (صف أصلي واحد → 15 صفاً مُعاداً) حيث لا يستطيع المحرك إنتاج عدد كافٍ من الأحداث.
تحليل الأسباب الجذرية
تفصيل الـ 51 تصنيفاً خاطئاً حسب نمط الفشل.
| الخطر | التكرار | السبب الجذري | قابل للضبط عبر |
|---|---|---|---|
| MODIFIED → UNMATCHED | 8/94 = 9% | لم يُعثَر على تطابق | ↑ نافذة التطابق المتبقية |
| MODIFIED → MERGED (دمج مفرط) | 6/94 = 6% | مرحلة MERGE تمتص تطابقات 1:1 | ↑ عتبة تشابه الدمج |
| ADDED → UNMATCHED | 10/46 = 22% | المحرك ينتج صفوفاً أقل من GT | عدم تطابق في العدد |
| ADDED → SPLIT | 3/46 = 7% | صفوف جديدة تُصنَّف كتقسيمات | ↑ عتبة تشابه التقسيم |
| UNCHANGED → MODIFIED | 3/6 = 50% | انزياح طفيف في الطوابع الزمنية | ↑ تسامح الوقت للتطابق التام |
| DELETED → MODIFIED | 3/11 = 27% | تطابق ضعيف لصف محذوف | ↑ حد التشابه النصي الأدنى |
تحليل مقياس التشابه
مُحسَب على 6 مجموعات بيانات (DS6–DS11)، 116 صفاً أصلياً، 1,754 زوجاً إجمالاً.
matchScore = w_زمن × timeSim + w_نص × txtSim
timeSim = درجة القرب الزمني (تشبع بعد حد زمني أقصى)
txtSim = تشابه Jaccard ثنائي الأحرف بعد تطبيع NFKC + علامات التشكيل
[محجوب] إذا كان txtSim أقل من الحد الأدنى للتشابه النصيتغطية الدرجات للأزواج
| المقياس | القيمة |
|---|---|
| إجمالي الأزواج المُقيَّمة | 1,754 |
| أزواج محجوبة (txtSim < 0.10) | 1,459 (83.2%) |
| أزواج بدرجات غير صفرية | 295 (16.8%) |
| متوسط الدرجة — جميع الأزواج | 0.065 |
| متوسط الدرجة — الأزواج غير الصفرية | 0.385 |
توزيع الثقة للتطابقات المقبولة (64 تطابقاً)
| نطاق الثقة | العدد | الحصة |
|---|---|---|
| عالية (score ≥ 0.70) | 38 | 59.4% |
| متوسطة (0.40 – 0.70) | 22 | 34.4% |
| منخفضة (0.20 – 0.40) | 4 | 6.3% |
هامش القرار فوق عتبة القبول
| المقياس | القيمة |
|---|---|
| متوسط الهامش فوق عتبة القبول | 0.522 |
| تطابقات حدية (هامش < 0.05) | 1 (1.6%) |
| خطر الانعكاس: اضطراب بسيط سيرفض | 1 (1.6%) |
القيود
- •
185 حدث GT هو حجم عينة صغير. الأرقام لكل فئة لـ UNCHANGED (6 أحداث) وSPLIT (6 أحداث) تحمل عدم يقين عالياً.
- •
الحقيقة الأرضية مشتقة وليست مُصنَّفة يدوياً. المعاملات القابلة للضبط في خوارزمية الاشتقاق تؤثر على الأحداث التي تظهر في GT.