خلاصةالنصوص التلقائي 7-تقنيات التقييم و جمع نقاط الجمل البارزه

المقالة السابعة والنهائية من سلسلة خلاصة النصوص التلقائي. لقراءة المقالة السادسة على منصة كرسي التعليمية اضغط هنا

ما هو دور تقييم الملخص  (Summary evaluation) في مجال التلخيص التلقائي؟

يساعد تقييم الملخص إلى جانب تحسين تطوير الموارد والبنية التحتية القابلة لإعادة الاستخدام في مقارنة النتائج وتكرارها ، وبالتالي ، يضيف منافسة لتحسين النتائج. ومع ذلك ، فمن المستحيل عمليًا تقييم مستندات متعددة يدويًا للحصول على عرض غير متحيز. لذلك ، فإن مقاييس التقييم التلقائي الموثوقة مطلوبة لإجراء تقييم سريع ومتسق. تقييم الملخص هو عمل صعب أيضًا لأنه ليس من السهل على البشر معرفة نوع المعلومات التي يجب أن تكون موجودة في الملخص. تغيير المعلومات وفقًا للغرض من الملخص والتقاط هذه المعلومات تلقائيًا ، يصف الشكل  أدناه تصنيف مقاييس تقييم الملخص.

تقنيات التقييم
Summary Evaluation Measures

التقييم الخارجي (Extrinsic evaluation)

يحدد جودة الملخص بناءً على كيفية تأثيره على المهام الأخرى (تصنيف النص (Text classification)، واسترجاع المعلومات (Information retrieval)، والإجابة على الأسئلة (Question answering)، أي يُطلق على الملخص ملخصًا جيدًا إذا كان يوفر المساعدة لمهام أخرى. الطرق المختلفة للتقييم الخارجي هي:

1- تقييم الصلة بالموضوع: يتم هنا استخدام طرق مختلفة لتقييم مدى صلة الموضوع بالموضوع الموجود في ملخص المستند الأصلي.

2- الفهم القرائي: يحدد ما إذا كان قادرًا على الإجابة على اختبارات الاختيار من متعدد بعد قراءة الملخص.

التقييم الداخلي (Intrinsic evaluation)

يحدد جودة الملخص على أساس التغطية بين الملخص المصنوع آليًا والملخص من صنع الإنسان. الجودة أو المعلومات هما جانبان مهمان يتم على أساسهما تقييم الملخص. عادة ، يتم تقييم معلومات للملخص من خلال مقارنته بملخص من صنع الإنسان ، أي ملخص مرجعي. أو تحقق مما إذا كان الملخص يتكون من نفس المحتوى أو محتوى مشابه كما هو موجود في المستند الأصلي. في هذه الطريقة يتم التركيز على ، كيفية معرفة المفاهيم الموجودة في المستند ذات الصلة وأيها ليست كذلك.

ماهي تقنيات جمع نقاط الجمل البارزه (Sentence salience scoring techniques)؟

طول الجملة (Sentence length)

قد لا يمثل اختيار الجمل القصيرة جدًا الموضوعات الرئيسية للوثيقة. وبالمثل ، فإن اختيار جملة طويلة جدًا قد يكون مضيعة للسعة نظرًا لأن الجملة قد تحتوي على معلومات مهمة في جزء ومعلومات غير ذات صلة في جزء آخر. أولاً ، يتم حذف الجمل الأصغر أو الأكبر من عتبة معينة. بعد ذلك ، يتم إعطاء درجة الجمل المتبقية كما هو معروض في المعادلة.

يتم حساب طول الجملة عن طريق تقسيم عدد كلمات الجملة على عدد كلمات اطول جملة في النص

موقع الجملة (Sentence position)

يُعد موضع الجملة في المستند أحد الأساليب التجريبية الأكثر فاعلية لاختيار الجمل ذات الصلة لـ ATS ، خاصة بالنسبة للمقالات الإخبارية. الاستدلال على موقع الجملة هو أن الجمل الأولى في المستند تشكل الأكثر صلة وتقل أهميتها كلما تقدمت الجملة أكثر من بداية النص. اقترحت مناهج أخرى تباينات تعطي أهمية كبيرة للجمل في بداية الوثيقة وفي نهايتها. بالنسبة للوثائق الطويلة مثل المقالات أو الكتب العلمية ، يمكن حساب موضع الجملة في كل فقرة. ويمكن إعطاء أهمية أكبر للجمل في كل من بداية ونهاية المستند على النحو التالي: الجملة الأولى لديها درجة N / N ، الجملة الثانية حصلت على درجة N − 1 / N ، وهكذا ، حيث N هو حد معين لعدد الجمل التي يتم أخذها في الاعتبار.ويمكن تطبيق نفس الفكرة ، ولكن بدءًا من نهاية المستند. إستراتيجية تحدد درجة أعلى للجمل فقط في بداية المستند. يتم حساب درجة الميزة هذه كما هو موضح في المعادلة.

تقنيات التقييم
sentence position

حيث أن،

  • i هي رقم الجملة في المستند ، حيث تبدأ بصفر ،
  • S هو مجموع الجمل في المستند.

تردد المصطلح – تردد الجملة العكسية (TF-ISF)

TF-ISF يطبق كبديل من TF-IDF على تلخيص النص على مستوى الجملة بدلاً من مستوى المستند. في هذه الطريقة ، يتم حساب تكرار المصطلح t في المستند بأكمله وليس في جملة معينة ، بينما يقيس تكرار الجملة العكسية مقدار الكلمة الوصفية ، أي إذا كانت الكلمة شائعة أو نادرة في جميع الجمل. يفترض هذا الأسلوب أنه إذا كانت الكلمة متكررة وظهرت في بضع جمل ، فمن المحتمل أن يتم تضمينها في الملخص. يتم حساب TF-ISF للكلمة كما هو موضح في معادلة الأولى. ويتم احتساب درجة بروز الجملة كما هو معروض في المعادلةالثانية.

TF-ISF expression
Calculation of the score of the sentence

حيث أن،

  • يقوم TF بإرجاع تكرار أحد المصطلحات في كل جمل المستند  ،
  • S هو إجمالي الجمل في المستند ،
  • T هو مجموع المصطلحات في الجملة ،
  • sti هو مجموع الجمل التي تحدث فيها الكلمة .

TextRank

خوارزمية استخراج TextRank هي خوارزمية ترتيب قائمة على الرسم البياني المستخدمة لاستخراج الكلمات الرئيسية المهمة وتحديد وزن هذه الكلمات الرئيسية في المستند بأكمله باستخدام رسم بياني نموذج. تمنح هذه الطريقة درجة أعلى للجمل التي تحتوي على العديد من الكلمات الرئيسية ذات الصلة. يذكر (Barrera and Verma 2012) أنه يمكن العثور على النتائج المثلى باستخدام الأسماء والصفات فقط. يتم حساب درجة المصطلح أو n-gram ، وهو رأس في الرسم البياني ، كما هو معروض في المعادلة الأولى. يتم حساب بروز الجملة التي تستند إلى خوارزمية TextRank كما هو موضح في المعادلة الثانية.

تقنيات التقييم
Term or n-gram score
TextRank score

تردد الكلمات(Word frequency)

يعد تكرار الكلمات  أحد أقدم التقنيات لقياس مدى ملاءمة الجملة لتلخيص النص . ويستند إلى فرضية أن الجمل ذات الصلة تحتوي على كلمات أكثر تكرارا. بمعنى آخر ، كلما زاد تكرار الكلمة ، زادت أهمية الإشارة إلى الموضوع الرئيسي للمستند. بالطبع ، لا يجب أخذ كل الكلمات في الاعتبار ، وفي كثير من الأحيان ، يتم تطبيق خوارزميات تصفية الكلمات المتقطعة والاشتقاق قبل حساب الترددات. تحدد أول N كلمات أكثر تكرارا (بترتيب تنازلي) في المستند باعتبارها كلمات موضوعية. يتم إعطاء أهمية الجملة بناءً على تكرار الكلمات كما هو موضح في المعادلة.

تقنيات التقييم

 موجز عن التلخيص الاستخراجي و التجريدي

الأن سوف نتناول موجز عن التلخيص الاستخراجي و التجريدي حيث تحدثنا عنهم في المقالات السابقة.

يُنشئ نظام تلخيص النص التلقائي ملخصًا ، أي نص قصير الطول يتضمن جميع المعلومات المهمة للمستند. منذ ظهور تلخيص النص في الخمسينيات من القرن الماضي ، كان الباحثون يحاولون تحسين تقنيات إنشاء الملخصات بحيث يتطابق الملخص الذي تم إنشاؤه آليًا مع الملخص من صنع الإنسان. يمكن إنشاء ملخص من خلال الأساليب الاستخراجية والتجريدية. يتضمن الاستخراج تسلسل المقتطفات المأخوذة من النصوص الأصلية و توضع في الملخص ، بينما يتضمن التجريد إنشاء جمل جديدة من المعلومات المستخرجة من النصوص الأصلية.

هناك أيضًا طرق تلقائية للتقييم الموجز ، مثل ROUGE   والتي تعطي درجة بناءً على التشابه في تسلسل الكلمات بين ملخص نموذج مكتوب بشريًا وملخص الجهاز. بينما ثبت أن درجات ROUGE غالبًا ما ترتبط ارتباطًا جيدًا بالأحكام البشرية ، إلا أنها لا توفر رؤى حول نقاط القوة والضعف المحددة في الملخص.

لا تركز الملخصات الاستخراجية على فهم النص. يستخرج الجزء الأكثر أهمية بناءً على السمات الإحصائية واللغوية مثل الكلمات الرئيسية والموقع وتردد الكلمات.  تعمل الطرق الاستخراجية عن طريق تحديد مجموعة فرعية من الكلمات أو العبارات أو الجمل الموجودة في النص الأصلي لتشكيل الملخص. في المقابل ، تبني الطرق التجريدية تمثيلًا دلاليًا داخليًا ثم تستخدم تقنيات توليد اللغة الطبيعية لإنشاء ملخص أقرب إلى ما قد يولده الإنسان. قد يحتوي هذا الملخص على كلمات غير موجودة صراحة في الأصل. لا تزال الأساليب التجريدية الحديثة ضعيفة للغاية ، لذلك ركزت معظم الأبحاث على الأساليب الاستخراجية.

الخاتمة

في هذه السلسلة ، وصفنا لمحة عامة عن التلخيص التلقائي للنص. لقد تغير وضع وحالة التلخيص التلقائي بشكل جذري على مر السنين. وقد استفاد بشكل خاص من أعمال طلبات أخرى ، على سبيل المثال استرجاع المعلومات أو استخراج المعلومات أو تصنيف النص. سيستمر البحث في هذا المجال نظرًا لحقيقة أن مهمة تلخيص النص لم تنته بعد ولا يزال هناك الكثير من الجهد للقيام به والتحقيق والتحسين.

يعد تلخيص النص مجال بحث مثير للاهتمام وله مجموعة واسعة من التطبيقات. الهدف من هذه السلسلة ، توضيح بعض المعلومات الهامة المتعلقة بالماضي من تلخيص النص ، أحدث ما توصلت إليه التكنولوجيا ، وإمكانيات المستقبل.

 تم الكشف عن التعريف والأنواع والنهج المختلفة وطرق التقييم بالإضافة إلى ميزات أنظمة التلخيص والتقنيات التي تم تطويرها بالفعل. كما قدمنا ، ​​TextRank – نموذج تصنيف قائم على الرسم البياني لمعالجة النصوص ، ونوضح كيف يمكن استخدامه بنجاح لتطبيقات اللغة الطبيعية. على وجه الخصوص ، قمنا باقتراح وتقييم نهجين مبتكرين غير خاضعين للرقابة لاستخراج الكلمات الرئيسية والجمل ، وأظهرنا أن الدقة التي حققتها TextRank في هذه التطبيقات تنافس تلك التي تم اقتراحها مسبقًا من قبل الخوارزميات الحديثة. يتمثل أحد الجوانب المهمة في TextRank في أنه لا يتطلب معرفة لغوية عميقة ، ولا مجالًا أو مجموعة تعليقات توضيحية خاصة باللغة ، مما يجعله قابلاً للنقل إلى مجالات أو أنواع أو لغات أخرى.

و تم تصنيف الأساليب الاستخراجية المعروفة لتلخيص النص في فئات مختلفة. وتم  مناقشة نوع جديد من الملخصات التي ظهرت مؤخرًا. التقييم الموجز هو قضية أخرى صعبة في هذا المجال البحثي. لذلك ، تتم مناقشة كلتا طريقتين للتقييم الموجز بالتفصيل ، أي داخليًا وخارجيًا جنبًا إلى جنب مع برامج تقييم تلخيص النص التي حدثت حتى الآن. على وجه الخصوص ، يتم التركيز بشكل أكبر على الأساليب الاستخراجية الحديثة لتلخيص النص التي تم تطويرها في العقد الماضي. ستساعد قائمة إيجابيات وسلبيات هذه الأساليب جنبًا إلى جنب مع الحاجة إلى كل تقنية القراء بالتأكيد على معرفة فائدة كل تقنية. كما يتم توفير وصف موجز لبعض التقنيات التجريدية ومتعددة اللغات.

الاتجاهات المستقبلية لنظام التخليص التلقائي

يتم تحديث طرق تلخيص النص الحالية بمرور الوقت مثل استخدام خوارزميات التعلم الآلي الجديدة لبناء أنظمة تلخيص النص. لكن لا يوجد تغيير كبير في الميزات (تكرار المصطلح ، الموضع ، إلخ) المطلوبة لاستخراج الجمل المهمة. لذلك ، يجب اكتشاف بعض الميزات الجديدة للكلمات والجمل والتي يمكنها استخراج جمل مهمة من الناحية الدلالية من المستند.

هناك تغيير في نوع الملخصات للتكيف مع متطلبات المستخدم المتغيرة. في البداية ، تم إنشاء ملخصات وثيقة فردية عامة ولكن الآن بسبب توفر كمية كبيرة من البيانات بتنسيقات مختلفة ولغات مختلفة وبسبب التطور السريع للتكنولوجيا ، اكتسبت ملخصات الوسائط المتعددة متعددة اللغات واللغات الشعبية.

وهذا واضح أيضًا من برامج التقييم التي تعمل الآن على أنواع جديدة من مسارات التلخيص. يتم أيضًا إنشاء الملخصات ذات التركيز المحدد مثل الملخصات القائمة على المشاعر والشخصية وما إلى ذلك. لكن كيفية تقديم هذه المعلومات هي قضية مهمة أخرى. في الوقت الحاضر ، تتعامل معظم الأنظمة مع المدخلات والمخرجات النصية.

يمكن اقتراح مناهج جديدة يمكن أن تكون فيها المدخلات في شكل اجتماعات ، ومقاطع فيديو ، وما إلى ذلك ، ومخرجات في تنسيق غير النص. يمكن تطوير بعض الأنظمة الأخرى حيث يكون الإدخال في شكل نص ويمكن تمثيل الإخراج من خلال الإحصائيات والجداول والرسومات ومقاييس التصنيف المرئي وما إلى ذلك مما يسمح بتصور النتائج ويمكن للمستخدمين الوصول إلى المحتوى المطلوب في وقت أقل.

هناك حاجة لتطوير أنظمة تلخيص فعالة قائمة على الإحصاء يمكنها تلخيص نصوص جميع اللغات وإنشاء ملخص تتطابق جودته مع الملخص البشري. بصرف النظر عن ربط الجمل ، يجب أن يكون المحتوى في الملخص متماسكًا. لذلك ، فإن النهج التجريدي أو الهجين يحتاج إلى مزيد من التحسين. مع التقنيات الهجينة ، يمكن اختيار المعلومات المهمة أو دمجها أو ضغطها أو حذف بعض المعلومات للحصول على معلومات موجزة جديدة. يمكن تطوير نهج هجين لإنتاج ملخص جيد النوعية من خلال الجمع بين التقنيات الاستخراجية والتجريدية معًا. يجري البحث أيضًا لتوليد الملخصات بحيث تتطابق الملخصات التي تم إنشاؤها بواسطة الآلة بشكل وثيق مع الملخصات التي كتبها الإنسان.

أتمنى أن تكون هذه السلسلة”خلاصة النصوص التلقائية” على منصة كرسي التعليمية قد نالت اعجابكم و اهتمامكم

منشور ذات صلة
سلسلة دروس: خلاصةالنصوص التلقائي

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

السلة