تحليل دقة المحرك

Micro-F1 · 76.1%

مُقاس على 14 مجموعة بيانات · 185 حدث GT

توثّق هذه الصفحة دقة التصنيف المقاسة لمحرك الـ diff الهيكلي ذي الـ 8 مراحل. جميع الأرقام مأخوذة من تشغيل المحرك على بيانات تفريغ ومقارنة مخرجاته بتسميات الحقيقة الأرضية المشتقة مما قام به المُدقّقون البشريون فعلياً.

كيف تم اشتقاق الحقيقة الأرضية

لا توجد مجموعة اختبار مُصنَّفة مسبقاً لهذه المهمة. تُشتَق الحقيقة الأرضية بتحليل هيكلي لما قام به المُدقِّق البشري فعلياً عند تحويل original → reworked — نهج تصنيف سلوكي. فكرة استنتاج التسميات من أزواج قبل/بعد مرتبطة بالإشراف الضعيف (التصنيف البرمجي) في أدبيات NLP.

المرحلة 1 — الدمج أولاً (N orig → 1 rewk)

لكل صف مُعاد، جرّب دمج نافذة صغيرة من الصفوف الأصلية المتتالية. إذا تجاوز التشابه النصي المُدمَج أفضل تطابق فردي بهامش مطلوب، فقد دمج المُدقّق تلك الصفوف.

المرحلة 2 — التقسيمات (1 orig → N rewk)

نفس المنطق بشكل معكوس: لكل صف أصلي غير مستخدم، جرّب دمج نافذة صغيرة من الصفوف المُعادة المتتالية.

المرحلة 3 — مطابقة 1:1 (greedy بحسب التشابه)

تتطابق الصفوف المتبقية بشكل greedy بالتشابه النصي ضمن نافذة زمنية. UNCHANGED: نص متطابق وطوابع زمنية ضمن التسامح ونفس المتحدث. وإلا: MODIFIED.

المرحلة 4 — المتبقيات

الصفوف الأصلية غير المطابَقة → DELETED. الصفوف المُعادة غير المطابَقة → ADDED.

نطاق مجموعات البيانات

14 مجموعة بيانات من مهام تصنيف التفريغ. جميع المجموعات تحتوي على علامات NSE (الأحداث غير الكلامية) وعلامات التداخل ([overlap]) وطوابع زمنية وتسميات متحدث وعلامات بيانات وصفية.

المجموعة	Orig	Rewk	أحداث GT	صحيح	الدقة
DS6	14	19	17	16	94.1%
DS7	22	13	14	14	100.0%
DS8	11	9	9	5	55.6%
DS9	11	9	9	9	100.0%
DS10	24	22	23	15	65.2%
DS11	28	17	21	17	81.0%
DS12	1	15	15	8	53.3%
DS13	9	14	11	8	72.7%
DS14	10	10	10	9	90.0%
DS15	6	8	8	5	62.5%
DS16	3	5	3	2	66.7%
DS17	12	13	14	9	64.3%
DS18	21	17	18	12	66.7%
DS19	9	11	13	5	38.5%
الإجمالي	181	182	185	134	72.4% (استرجاع)

توزيع الفئات

البيانات مائلة بشدة نحو MODIFIED الذي يشكّل أكثر من نصف جميع أحداث GT. هذه خاصية طبيعية لإعادة صياغة التفريغ.

يتأثر الـ micro-F1 البالغ 76.1% بهذا الاختلال: تُساهم MODIFIED (الفئة السائدة، F1=82.7%) بشكل غير متناسب في المتوسط الدقيق. الـ macro-F1 (70.4%) يعامل الفئات الست بالتساوي ويعطي صورة أكثر توازناً. UNCHANGED وSPLIT لديهما 6 أحداث GT فقط — مقاييسهما تحمل عدم يقين عالياً.

الفئة	أحداث GT	الحصة
MODIFIED	94	50.8%
ADDED	46	24.9%
MERGED	22	11.9%
DELETED	11	5.9%
UNCHANGED	6	3.2%
SPLIT	6	3.2%

يُظهر المحرك أيضاً تحيزاً خفيفاً نحو التنبؤ بـ MODIFIED: 3 صفوف GT-UNCHANGED تُصنَّف كـ MODIFIED، وعدة صفوف GT-ADDED تُمتَص في MODIFIED أو SPLIT.

الدقة / الاسترجاع / F1 لكل فئة

مُحسَب على 185 حدث GT من 14 مجموعة بيانات.

الفئة	الدعم	TP	FP	FN	الدقة	الاسترجاع	F1
MODIFIED	94	74	11	20	87.1%	78.7%	82.7%
ADDED	46	28	8	18	77.8%	60.9%	68.3%
MERGED	22	18	8	4	69.2%	81.8%	75.0%
DELETED	11	6	2	5	75.0%	54.5%	63.2%
UNCHANGED	6	3	0	3	100.0%	50.0%	66.7%
SPLIT	6	5	4	1	55.6%	83.3%	66.7%
المتوسط الدقيق	185	134	33	51	80.2%	72.4%	76.1%
المتوسط الكلي					77.4%	68.2%	70.4%

الـ micro-F1 الكلي للمحرك: 76.1% — 134 من 185 حدث GT مُصنَّف بشكل صحيح.

مصفوفة الارتباك

الصفوف = تسميات GT. الأعمدة = تنبؤات المحرك. · = صفر. UNMATCHED = لا مخرج للمحرك عند هذا الارتساء.

GT \ Engine	UNCHANGED	MODIFIED	SPLIT	MERGED	DELETED	ADDED	UNMATCHED
UNCHANGED	3	3	·	·	·	·	·
MODIFIED	·	74	·	6	1	5	8
SPLIT	·	1	5	·	·	·	·
MERGED	·	1	·	18	1	2	·
DELETED	·	3	1	·	6	1	·
ADDED	·	3	3	2	·	28	10

عمود UNMATCHED يمثّل 18 حدثاً (9.7%): 8 GT-MODIFIED و10 GT-ADDED. السبب الرئيسي هو DS12 (صف أصلي واحد → 15 صفاً مُعاداً) حيث لا يستطيع المحرك إنتاج عدد كافٍ من الأحداث.

تحليل الأسباب الجذرية

تفصيل الـ 51 تصنيفاً خاطئاً حسب نمط الفشل.

الخطر	التكرار	السبب الجذري	قابل للضبط عبر
MODIFIED → UNMATCHED	8/94 = 9%	لم يُعثَر على تطابق	↑ نافذة التطابق المتبقية
MODIFIED → MERGED (دمج مفرط)	6/94 = 6%	مرحلة MERGE تمتص تطابقات 1:1	↑ عتبة تشابه الدمج
ADDED → UNMATCHED	10/46 = 22%	المحرك ينتج صفوفاً أقل من GT	عدم تطابق في العدد
ADDED → SPLIT	3/46 = 7%	صفوف جديدة تُصنَّف كتقسيمات	↑ عتبة تشابه التقسيم
UNCHANGED → MODIFIED	3/6 = 50%	انزياح طفيف في الطوابع الزمنية	↑ تسامح الوقت للتطابق التام
DELETED → MODIFIED	3/11 = 27%	تطابق ضعيف لصف محذوف	↑ حد التشابه النصي الأدنى

تحليل مقياس التشابه

مُحسَب على 6 مجموعات بيانات (DS6–DS11)، 116 صفاً أصلياً، 1,754 زوجاً إجمالاً.

text

matchScore = w_زمن × timeSim + w_نص × txtSim
timeSim  = درجة القرب الزمني (تشبع بعد حد زمني أقصى)
txtSim   = تشابه Jaccard ثنائي الأحرف بعد تطبيع NFKC + علامات التشكيل
[محجوب] إذا كان txtSim أقل من الحد الأدنى للتشابه النصي

تغطية الدرجات للأزواج

المقياس	القيمة
إجمالي الأزواج المُقيَّمة	1,754
أزواج محجوبة (txtSim < 0.10)	1,459 (83.2%)
أزواج بدرجات غير صفرية	295 (16.8%)
متوسط الدرجة — جميع الأزواج	0.065
متوسط الدرجة — الأزواج غير الصفرية	0.385

توزيع الثقة للتطابقات المقبولة (64 تطابقاً)

نطاق الثقة	العدد	الحصة
عالية (score ≥ 0.70)	38	59.4%
متوسطة (0.40 – 0.70)	22	34.4%
منخفضة (0.20 – 0.40)	4	6.3%

هامش القرار فوق عتبة القبول

المقياس	القيمة
متوسط الهامش فوق عتبة القبول	0.522
تطابقات حدية (هامش < 0.05)	1 (1.6%)
خطر الانعكاس: اضطراب بسيط سيرفض	1 (1.6%)

القيود

•
185 حدث GT هو حجم عينة صغير. الأرقام لكل فئة لـ UNCHANGED (6 أحداث) وSPLIT (6 أحداث) تحمل عدم يقين عالياً.
•
الحقيقة الأرضية مشتقة وليست مُصنَّفة يدوياً. المعاملات القابلة للضبط في خوارزمية الاشتقاق تؤثر على الأحداث التي تظهر في GT.