تحليل دقة المحرك

Micro-F1 · 76.1%

مُقاس على 14 مجموعة بيانات · 185 حدث GT

توثّق هذه الصفحة دقة التصنيف المقاسة لمحرك الـ diff الهيكلي ذي الـ 8 مراحل. جميع الأرقام مأخوذة من تشغيل المحرك على بيانات تفريغ ومقارنة مخرجاته بتسميات الحقيقة الأرضية المشتقة مما قام به المُدقّقون البشريون فعلياً.

كيف تم اشتقاق الحقيقة الأرضية

لا توجد مجموعة اختبار مُصنَّفة مسبقاً لهذه المهمة. تُشتَق الحقيقة الأرضية بتحليل هيكلي لما قام به المُدقِّق البشري فعلياً عند تحويل original → reworked — نهج تصنيف سلوكي. فكرة استنتاج التسميات من أزواج قبل/بعد مرتبطة بالإشراف الضعيف (التصنيف البرمجي) في أدبيات NLP.

المرحلة 1 — الدمج أولاً (N orig → 1 rewk)

لكل صف مُعاد، جرّب دمج نافذة صغيرة من الصفوف الأصلية المتتالية. إذا تجاوز التشابه النصي المُدمَج أفضل تطابق فردي بهامش مطلوب، فقد دمج المُدقّق تلك الصفوف.

المرحلة 2 — التقسيمات (1 orig → N rewk)

نفس المنطق بشكل معكوس: لكل صف أصلي غير مستخدم، جرّب دمج نافذة صغيرة من الصفوف المُعادة المتتالية.

المرحلة 3 — مطابقة 1:1 (greedy بحسب التشابه)

تتطابق الصفوف المتبقية بشكل greedy بالتشابه النصي ضمن نافذة زمنية. UNCHANGED: نص متطابق وطوابع زمنية ضمن التسامح ونفس المتحدث. وإلا: MODIFIED.

المرحلة 4 — المتبقيات

الصفوف الأصلية غير المطابَقة → DELETED. الصفوف المُعادة غير المطابَقة → ADDED.

نطاق مجموعات البيانات

14 مجموعة بيانات من مهام تصنيف التفريغ. جميع المجموعات تحتوي على علامات NSE (الأحداث غير الكلامية) وعلامات التداخل ([overlap]) وطوابع زمنية وتسميات متحدث وعلامات بيانات وصفية.

المجموعةOrigRewkأحداث GTصحيحالدقة
DS61419171694.1%
DS722131414100.0%
DS81199555.6%
DS911999100.0%
DS102422231565.2%
DS112817211781.0%
DS1211515853.3%
DS1391411872.7%
DS14101010990.0%
DS15688562.5%
DS16353266.7%
DS17121314964.3%
DS182117181266.7%
DS1991113538.5%
الإجمالي18118218513472.4% (استرجاع)

توزيع الفئات

البيانات مائلة بشدة نحو MODIFIED الذي يشكّل أكثر من نصف جميع أحداث GT. هذه خاصية طبيعية لإعادة صياغة التفريغ.

يتأثر الـ micro-F1 البالغ 76.1% بهذا الاختلال: تُساهم MODIFIED (الفئة السائدة، F1=82.7%) بشكل غير متناسب في المتوسط الدقيق. الـ macro-F1 (70.4%) يعامل الفئات الست بالتساوي ويعطي صورة أكثر توازناً. UNCHANGED وSPLIT لديهما 6 أحداث GT فقط — مقاييسهما تحمل عدم يقين عالياً.

الفئةأحداث GTالحصةDistribution
MODIFIED9450.8%
ADDED4624.9%
MERGED2211.9%
DELETED115.9%
UNCHANGED63.2%
SPLIT63.2%

يُظهر المحرك أيضاً تحيزاً خفيفاً نحو التنبؤ بـ MODIFIED: 3 صفوف GT-UNCHANGED تُصنَّف كـ MODIFIED، وعدة صفوف GT-ADDED تُمتَص في MODIFIED أو SPLIT.

الدقة / الاسترجاع / F1 لكل فئة

مُحسَب على 185 حدث GT من 14 مجموعة بيانات.

الفئةالدعمTPFPFNالدقةالاسترجاعF1
MODIFIED9474112087.1%78.7%82.7%
ADDED462881877.8%60.9%68.3%
MERGED22188469.2%81.8%75.0%
DELETED1162575.0%54.5%63.2%
UNCHANGED6303100.0%50.0%66.7%
SPLIT654155.6%83.3%66.7%
المتوسط الدقيق185134335180.2%72.4%76.1%
المتوسط الكلي77.4%68.2%70.4%

الـ micro-F1 الكلي للمحرك: 76.1% — 134 من 185 حدث GT مُصنَّف بشكل صحيح.

مصفوفة الارتباك

الصفوف = تسميات GT. الأعمدة = تنبؤات المحرك. · = صفر. UNMATCHED = لا مخرج للمحرك عند هذا الارتساء.

GT \ EngineUNCHANGEDMODIFIEDSPLITMERGEDDELETEDADDEDUNMATCHED
UNCHANGED33·····
MODIFIED·74·6158
SPLIT·15····
MERGED·1·1812·
DELETED·31·61·
ADDED·332·2810

عمود UNMATCHED يمثّل 18 حدثاً (9.7%): 8 GT-MODIFIED و10 GT-ADDED. السبب الرئيسي هو DS12 (صف أصلي واحد → 15 صفاً مُعاداً) حيث لا يستطيع المحرك إنتاج عدد كافٍ من الأحداث.

تحليل الأسباب الجذرية

تفصيل الـ 51 تصنيفاً خاطئاً حسب نمط الفشل.

الخطرالتكرارالسبب الجذريقابل للضبط عبر
MODIFIED → UNMATCHED8/94 = 9%لم يُعثَر على تطابق↑ نافذة التطابق المتبقية
MODIFIED → MERGED (دمج مفرط)6/94 = 6%مرحلة MERGE تمتص تطابقات 1:1↑ عتبة تشابه الدمج
ADDED → UNMATCHED10/46 = 22%المحرك ينتج صفوفاً أقل من GTعدم تطابق في العدد
ADDED → SPLIT3/46 = 7%صفوف جديدة تُصنَّف كتقسيمات↑ عتبة تشابه التقسيم
UNCHANGED → MODIFIED3/6 = 50%انزياح طفيف في الطوابع الزمنية↑ تسامح الوقت للتطابق التام
DELETED → MODIFIED3/11 = 27%تطابق ضعيف لصف محذوف↑ حد التشابه النصي الأدنى

تحليل مقياس التشابه

مُحسَب على 6 مجموعات بيانات (DS6–DS11)، 116 صفاً أصلياً، 1,754 زوجاً إجمالاً.

text
matchScore = w_زمن × timeSim + w_نص × txtSim
timeSim  = درجة القرب الزمني (تشبع بعد حد زمني أقصى)
txtSim   = تشابه Jaccard ثنائي الأحرف بعد تطبيع NFKC + علامات التشكيل
[محجوب] إذا كان txtSim أقل من الحد الأدنى للتشابه النصي

تغطية الدرجات للأزواج

المقياسالقيمة
إجمالي الأزواج المُقيَّمة1,754
أزواج محجوبة (txtSim < 0.10)1,459 (83.2%)
أزواج بدرجات غير صفرية295 (16.8%)
متوسط الدرجة — جميع الأزواج0.065
متوسط الدرجة — الأزواج غير الصفرية0.385

توزيع الثقة للتطابقات المقبولة (64 تطابقاً)

نطاق الثقةالعددالحصة
عالية (score ≥ 0.70)3859.4%
متوسطة (0.40 – 0.70)2234.4%
منخفضة (0.20 – 0.40)46.3%

هامش القرار فوق عتبة القبول

المقياسالقيمة
متوسط الهامش فوق عتبة القبول0.522
تطابقات حدية (هامش < 0.05)1 (1.6%)
خطر الانعكاس: اضطراب بسيط سيرفض1 (1.6%)

القيود

  • 185 حدث GT هو حجم عينة صغير. الأرقام لكل فئة لـ UNCHANGED (6 أحداث) وSPLIT (6 أحداث) تحمل عدم يقين عالياً.

  • الحقيقة الأرضية مشتقة وليست مُصنَّفة يدوياً. المعاملات القابلة للضبط في خوارزمية الاشتقاق تؤثر على الأحداث التي تظهر في GT.