خلاصة النصوص التلقائي 5- دراسة أساليب تلخيص النص

المقال الخامسة من سلسلة خلاصة النصوص التلقائي لقراءة المقال الرابعة علی منصة كرسي التعليمية اضغط هنا

دراسة أساليب تلخيص النص

تقدم هذه المقالة مسحًا شاملاً للنهج الاستخراجية الحديثة لتلخيص النصوص التي تم تطويرها في العقد الماضي. يتم تحديد احتياجات هذه المناهج  ويتم سرد مزاياهم وعيوبهم بطريقة مقارنة. أيضًا تناول عدد قليل من مناهج تلخيص النص التجريدية ومتعددة اللغات.

Text Summarization Features؟

تلخيص النص يحدد ويستخرج الجمل الأساسية من النص المصدر ويربطها لتكوين ملخص موجز. من أجل تحديد الجمل الرئيسية للملخص ، يمكن استخدام قائمة الميزات(Features) كما هو موضح أدناه لاختيار الجمل الرئيسية.

  • تكرار المصطلح(Term Frequency): توفر الإحصائيات المصطلحات البارزة بناءً على تكرار المصطلح ، وبالتالي فإن الجمل البارزة هي تلك التي تحتوي على الكلمات التي تتكرر كثيرًا. تزداد درجة الجمل لكل كلمة متكررة. المقياس الأكثر شيوعًا المستخدم على نطاق واسع لحساب تكرار الكلمات هو TF-IDF.
  • الموقع: يعتمد على أن الجمل المهمة موجودة في موضع معين في النص أو في الفقرة ، مثل بداية الفقرة أو نهايتها.
  • طريقة الإشارة: الكلمات التي قد يكون لها تأثير إيجابي أو سلبي على وزن الجملة المعنية للإشارة إلى الأهمية أو الفكرة الرئيسية مثل الإشارات: “في الختام” ، “هذه المقالة توضح” ، “بشكل ملحوظ”….
  • العنوان / الكلمة الرئيسية: وهي تفترض أن الكلمات الموجودة في العنوان التي تظهر في الجمل ذات صلة إيجابية بالتلخيص.
  • طول الجملة: الجمل القصيرة تعبر عن معلومات أقل وبالتالي تستبعد من الملخص. بالنظر إلى حجم الملخص ، فإن الجمل الطويلة جدًا ليست مناسبة أيضًا للملخص.
  • التشابه: تحدد هذه الميزة التشابه بين الجملة وبقية جمل المستند والتشابه بين الجملة وعنوان المستند. يمكن حساب التشابه من خلال المعرفة اللغوية أو تشابه الكلمات.
  • الاسم العلم: الجمل التي تحتوي على أسماء علم تعتبر مهمة لتلخيص الوثيقة. من أمثلة أسماء العلم: اسم الشخص أو المكان أو المنظمة.
  • الجوار: المسافة بين وحدات النص حيث موقع الكيانات هي عامل حاسم في إقامة العلاقات بين الكيانات.

استخراج العبارة الرئيسية(Keyphrase Extraction)

وصف طريقه العمل ومثال(Task Description and Example)

المهمة هي التالية. يتم إعطاؤك جزءًا من النص ، مثل مقالة في مجلة ، ويجب عليك إنتاج قائمة بالكلمات الرئيسية أو العبارات الرئيسية التي تلتقط الموضوعات الأساسية التي تمت مناقشتها في النص. في حالة المقالات البحثية ، يوفر العديد من المؤلفين كلمات رئيسية مخصصة يدويًا ، لكن معظم النصوص تفتقر إلى العبارات الرئيسية الموجودة مسبقًا. على سبيل المثال ، نادرًا ما يتم إرفاق جمل مفاتيح بالمقالات الإخبارية ، ولكن قد يكون من المفيد أن تكون قادرًا على القيام بذلك تلقائيًا .

مثال نص من مقالة إخبارية حديثة:

  “فيلق المهندسين بالجيش ، الذي سارع إلى الوفاء بوعد الرئيس بوش بحماية نيو أورلينز بحلول بداية موسم الأعاصير عام 2006 ، قام بتركيب مضخات معيبة للتحكم في الفيضانات العام الماضي على الرغم من تحذيرات من خبيرها بأن المعدات ستعطل أثناء عاصفة ، وفقًا على الوثائق التي حصلت عليها وكالة أسوشيتد برس “.

قد يختار مستخرج عبارة المفاتيح (Keyphrase Extraction)”فيلق المهندسين بالجيش” و “الرئيس بوش” و “نيو أورلينز” و “مضخات التحكم في الفيضانات المعيبة” كعبارات رئيسية. يتم سحبها مباشرة من النص. وعلى النقيض من ذلك ، فإن نظام العبارة الرئيسية التجريدي (abstractive keyphrase)من شأنه بطريقة ما استيعاب المحتوى وإنشاء عبارات رئيسية قد تكون أكثر وصفية وأكثر شبهاً بما قد ينتجه الإنسان ، مثل “الإهمال السياسي” أو “الحماية غير الكافية من الفيضانات”. لاحظ أن هذه المصطلحات لا تظهر في النص وتتطلب فهمًا عميقًا ، مما يجعل من الصعب على الكمبيوتر إنتاج مثل هذه العبارات الرئيسية.

تحتوي العبارات الرئيسية على العديد من التطبيقات ، مثل تحسين تصفح المستندات من خلال تقديم ملخص قصير. أيضًا ، يمكن للعبارات الأساسية تحسين استرجاع المعلومات – إذا تم تعيين عبارات مفاتيح للمستندات ، يمكن للمستخدم البحث عن طريق عبارة مفتاح للحصول على نتائج موثوقة أكثر من البحث عن نص كامل. أيضًا ، يمكن أن يكون الاستخراج التلقائي لعبارات المفاتيح مفيدًا في إنشاء مدخلات فهرس لمجموعة نصية كبيرة.

استخراج العبارة الرئيسية كتعلم تحت الإشراف(Keyphrase Extraction as Supervised Learning)

نفترض أن هناك جمل مفاتيح معروفة متاحة لمجموعة من وثائق التدريب. باستخدام عبارات المفاتيح المعروفة ، يمكننا تعيين تسميات موجبة أو سلبية للأمثلة. ثم نتعلم المصنف الذي يمكنه التمييز بين الأمثلة الإيجابية والسلبية كدالة للسمات. تقوم بعض المصنفات بعمل تصنيف ثنائي ، بينما يعين البعض الآخر احتمالية أن تكون عبارة مفتاح. على سبيل المثال ، في النص أعلاه ، قد نتعلم قاعدة تقول إن العبارات ذات الأحرف الأولى من المحتمل أن تكون عبارات رئيسية.

 بعد تدريب المتعلم(training a learner) ، يمكننا تحديد العبارات الرئيسية لوثائق الاختبار. نحن نطبق نفس إستراتيجية توليد الأمثلة على وثائق الاختبار ، ثم نقوم بتشغيل كل مثال من خلال المتعلم. يمكننا تحديد العبارات الأساسية من خلال النظر في قرارات التصنيف الثنائي أو الاحتمالات التي يتم إرجاعها من نموذجنا الذي تعلمناه. إذا تم تحديد الاحتمالات ، فسيتم استخدام عتبة لتحديد العبارات الرئيسية.

استخراج عبارة المفاتيح غير الخاضعة للرقابة(Unsupervised Keyphrase Extraction: TextRank)

 في حين أن الأساليب الخاضعة للإشراف لها بعض الخصائص الرائعة ، مثل القدرة على إنتاج قواعد قابلة للتفسير للميزات التي تميز العبارة الرئيسية ، فإنها تتطلب أيضًا قدرًا كبيرًا من بيانات التدريب. هناك حاجة إلى العديد من المستندات ذات العبارات الرئيسية المعروفة. علاوة على ذلك ، فإن التدريب على مجال معين يميل إلى تخصيص عملية الاستخراج لهذا المجال ، وبالتالي فإن المصنف الناتج ليس بالضرورة قويا.

يؤدي استخراج عبارة المفاتيح غير الخاضعة للإشراف إلى إلغاء الحاجة إلى بيانات التدريب. إنها تقترب من المشكلة من زاوية مختلفة. بدلاً من محاولة تعلم الميزات الواضحة التي تميز عبارات المفاتيح ، تستغل خوارزمية TextRank بنية النص نفسه لتحديد العبارات الرئيسية التي تظهر “مركزية” في النص بنفس الطريقة التي يختار بها نظام ترتيب الصفحات صفحات الويب المهمة. تذكر أن هذا يستند إلى فكرة ” prestige ” أو ” recommendation ” من الشبكات الاجتماعية. بهذه الطريقة ، لا يعتمد TextRank على أي بيانات تدريب سابقة على الإطلاق ، بل يمكن تشغيله على أي جزء عشوائي من النص ، ويمكن أن ينتج مخرجات بناءً على الخصائص الجوهرية للنص. وبالتالي يمكن نقل الخوارزمية بسهولة إلى مجالات ولغات جديدة.

ما هو تلخيص الوثيقة(Document Summarization)؟

        نظرة عامة على مناهج التعلم الخاضعة للإشراف

يشبه تلخيص النص الخاضع للإشراف إلى حد كبير استخراج العبارة الرئيسية الخاضع للإشراف ، ولن نقضي الكثير من الوقت عليه. بشكل أساسي ، إذا كان لديك مجموعة من المستندات والملخصات التي تم إنشاؤها بواسطة الإنسان ، يمكنك تعلم ميزات الجمل التي تجعلها مرشحة جيدة للتضمين في الملخص. قد تتضمن الميزات موضعًا في المستند (على سبيل المثال ، ربما تكون الجمل القليلة الأولى مهمة) ، وعدد الكلمات في الجملة ، وما إلى ذلك. تتمثل الصعوبة الرئيسية في التلخيص الاستخراجي الخاضع للإشراف في أنه يجب إنشاء الملخصات المعروفة يدويًا عن طريق استخراج الجمل بحيث يمكن تسمية الجمل الموجودة في مستند التدريب الأصلي بأنها “ملخصة” أو “ليست موجزة”. هذه ليست الطريقة التي يصنع بها الأشخاص الملخصات ، لذا فإن استخدام ملخصات المجلات أو الملخصات الحالية لا يكفي عادةً. الجمل في هذه الملخصات لا تتطابق بالضرورة مع الجمل الموجودة في النص الأصلي ، لذلك سيكون من الصعب تعيين تسميات (labeled)لأمثلة للتدريب.

الأساليب غير الخاضعة للإشراف: TextRank و LexRank

النهج غير الخاضع للإشراف للتلخيص هو أيضًا مشابه تمامًا من حيث الروح لاستخراج عبارة المفاتيح غير الخاضعة للرقابة ويتغلب على مشكلة بيانات التدريب المكلفة. تستند بعض مناهج التلخيص غير الخاضعة للإشراف إلى العثور على جملة “centroid” ، وهي عبارة عن متجه الكلمات المتوسط ​​لجميع الجمل في المستند. ثم يمكن ترتيب الجمل من حيث تشابهها مع هذه الجملة النقطية.

طريقة أكثر مبدئية لتقدير أهمية الجملة هي استخدام مناحي عشوائية ومركزية eigenvector. LexRank هي خوارزمية مماثلة بشكل أساسي لـ TextRank ، ويستخدم كلاهما هذا الأسلوب لتلخيص المستندات. تم تطوير الطريقتين من قبل مجموعات مختلفة في نفس الوقت ، وركز LexRank ببساطة على التلخيص ، ولكن يمكن استخدامه بسهولة لاستخراج عبارة المفاتيح أو أي مهمة أخرى في ترتيب البرمجة اللغوية العصبية.

اختلافات TextRank و LexRank

يجمع بين درجة LexRank (الاحتمالية الثابتة) مع ميزات (features)أخرى مثل موضع الجملة وطولها باستخدام مجموعة خطية باستخدام أوزان يحددها المستخدم أو يتم ضبطها تلقائيًا. في هذه الحالة ، قد تكون هناك حاجة إلى بعض مستندات التدريب ، بينما نتائج TextRank تظهر أن الميزات (features)الإضافية ليست ضرورية تمامًا.

تمييز مهم آخر هو أنه تم استخدام TextRank لتلخيص مستند واحد ، بينما تم تطبيق LexRank على تلخيص متعدد المستندات. تظل المهمة كما هي في كلتا الحالتين – فقط عدد الجمل للاختيار من بينها زاد. ومع ذلك ، عند تلخيص مستندات متعددة ، هناك خطر أكبر في تحديد جمل مكررة أو مكررة للغاية لوضعها في نفس الملخص. تخيل أن لديك مجموعة من المقالات الإخبارية حول حدث معين ، وتريد إنتاج ملخص واحد. من المحتمل أن تحتوي كل مقالة على العديد من الجمل المتشابهة ، وستحتاج فقط إلى تضمين أفكار مميزة في الملخص. لمعالجة هذه المشكلة ، يطبق LexRank خطوة معالجة ما بعد الكشف عن مجريات الأمور التي تنشئ ملخصًا عن طريق إضافة جمل بترتيب ترتيب ، ولكنها تتجاهل أي جمل مشابهة جدًا لتلك الموضوعة بالفعل في الملخص. الطريقة المستخدمة تسمى( Cross-Sentence Information Subsumption (CSIS

مقالة التالية من موقع coursee تتناول انواع الخلاصات(Various types of text Summarization)

منشور ذات صلة
سلسلة دروس: خلاصةالنصوص التلقائي

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

السلة