ما هي معالجة اللغة الطبيعية؟|Natural Language Processing

معالجة اللغة الطبيعية

معالجة اللغة الطبيعية (NLP) هي فرع من علوم الكمبيوتر (Computer Science) وهندسة المعلومات والذكاء الاصطناعي (AI)، والتي تتعامل مع التفاعل بين أجهزة الكمبيوتر واللغات البشرية (الطبيعية)، وخاصة كيفية برمجة أجهزة الكمبيوتر للتعامل مع كميات كبيرة من المعلومات، تحليل ومعالجة اللغة الطبيعية.

غالبًا ما تشمل التحديات في معالجة اللغة الطبيعية التعرف على الكلام وفهم اللغة الطبيعية وإنتاج اللغة الطبيعية.

معالجة اللغة الطبيعية
مساعد أتمتة عبر الإنترنت يوفر خدمة العملاء على صفحة ويب. هذا تطبيق نموذجي تكون فيه معالجة اللغة الطبيعية مكونًا مركزيًا.

تاريخ معالجة اللغة الطبيعية

بشكل عام، يعود تاريخ معالجة اللغة الطبيعية إلى الخمسينيات من القرن الماضي، على الرغم من أنه يمكن إرجاع بعضها إلى فترات سابقة. في عام 1950، نشر آلان تورينج مقالًا بعنوان “الذكاء وآلة الحوسبة”، حدد ما يعرف الآن بتجربة تورينج كمقياس للذكاء.

تضمنت تجربة جورج تاون (Georgetown) في عام 1954 الترجمة الآلية لأكثر من ستين جملة من الروسية إلى الإنجليزية. ادعى المؤلفون أن الترجمة الآلية ستكون مشكلة محلولة بين ثلاث وخمس سنوات. ومع ذلك، كان التقدم الحقيقي أبطأ بكثير، وانخفض تمويل الترجمة الآلية بشكل حاد بعد تقرير ALPAC في عام 1966، والذي وجد أن عشر سنوات من البحث قد فشلت في تلبية التوقعات. تم إجراء القليل من الأبحاث حول الترجمة الآلية حتى ثمانينيات القرن الماضي، ولكن خلال هذا الوقت تم تطوير أول أنظمة ترجمة آلية إحصائية.

بعض أنظمة معالجة اللغة الطبيعية الناجحة نسبيًا التي تم تطويرها في الستينيات كانت SHRDLU، وهو نظام لغة طبيعية يعمل في “عوالم مجمعة” محدودة مع قواميس محدودة، و ELIZA، وهي محاكاة للعلاج النفسي الفردي. تم التركيز عليها وكتابتها بواسطة جوزيف ويزنباوم بين عام 1964 و 1966. خلقت إليزا أحيانًا تفاعلات بشرية مذهلة دون استخدام معلومات حول المشاعر أو التفكير البشري. عندما يتجاوز “المريض” قاعدة معرفية صغيرة جدًا، قد تعطي إليزا إجابة عامة، على سبيل المثال، “رأسي يؤلمني” بعبارة “لماذا تقول أن رأسك يؤلمك؟” .

خلال السبعينيات، بدأ العديد من المبرمجين في كتابة “الأنطولوجيا المفاهيمية”، والتي دمجت معلومات العالم الحقيقي في هياكل بيانات مفهومة بواسطة الكمبيوتر. ومن الأمثلة على ذلك MARGIE (Schank ، 1975) ،SAM (Cullingford ، 1978) ،PAM (Wilensky) ، 1978) ، TaleSpin (Meehan ، 1976) ،QUALM (Lehnert ، 1977) ،politics (Carbonell ، 1979).

Plot units (lehnert 1981 ). خلال هذا الوقت، تمت كتابة العديد من روبوتات المحادثة، بما في ذلك PARRY و Racter و Jabberwacky.

في عام 2010، أصبحت تقنيات التعلم الآلي للتعلم الآلي والشبكات العصبية العميقة منتشرة في معالجة اللغة الطبيعية، ويرجع الفضل في ذلك جزئيًا إلى سلسلة من الأبحاث التي تظهر أن مثل هذه الأساليب يمكن أن تحقق نتائج فائقة في العديد من أنشطة اللغة الطبيعية. على سبيل المثال، في نمذجة اللغة، الإعراب (parsing) وأكثر من ذلك بكثير. تتضمن بعض الأساليب الشائعة استخدام تضمين الكلمات (Word embedding) للحصول على معنى الكلمات، وزيادة التعلم الشامل لإجراء رفيع المستوى.

(end-to-end) (على سبيل المثال، الإجابة على سؤال) بدلاً من الاعتماد. في سلسلة من أنشطة الوساطة (مثل وسم مكونات الكلام وتحليل التبعيات).

في بعض النواحي، أدى هذا التحول إلى مثل هذه التغييرات الأساسية في تصميم أنظمة البرمجة اللغوية العصبية (NLP) التي يمكن اعتبار الأساليب القائمة على الشبكة العصبية العميقة نموذجًا جديدًا ومتميزًا لمعالجة اللغة الطبيعية. على سبيل المثال، يؤكد مصطلح الترجمة الآلية العصبية (NMT) على حقيقة أن أساليب التعلم العميق في الترجمة الآلية تتعلم بشكل مباشر التحولات من سلسلة إلى أخرى وتتطلب خطوات وسيطة مثل محاذاة الكلمات ونمذجة اللغة في الترجمة الآلية الإحصائية (SMT) المستخدمة، الإصلاحات.

NLP العادية مقابل NLP الإحصائية

في الأيام الأولى، تم تصميم العديد من أنظمة معالجة اللغة عن طريق الترميز اليدوي لمجموعة من القواعد، مثل كتابة القواعد النحوية أو إنشاء قواعد مبتكرة لتأصيل الكلمات. ومع ذلك، نادرًا ما يكون هذا هو الحال مع التغييرات اللغوية الطبيعية.

منذ “الثورة الإحصائية” الشهيرة في أواخر الثمانينيات ومنتصف التسعينيات، اعتمدت الكثير من الأبحاث في معالجة اللغة الطبيعية على التعلم الآلي.

من ناحية أخرى، يتطلب نموذج التعلم الآلي استدلالًا إحصائيًا للتعلم التلقائي لمثل هذه القواعد من خلال تحليل مجموعات كبيرة من أمثلة العالم الحقيقي الشائعة.

تم استخدام العديد من فئات خوارزميات التعلم الآلي في مهام معالجة اللغة الطبيعية. تتلقى هذه الخوارزميات مجموعة كبيرة من “السمات” كمدخلات تم إنشاؤها من بيانات الإدخال. أنتجت بعض الخوارزميات القديمة، بما في ذلك أشجار القرار، أنظمة صارمة لقواعد الشرط التي كانت مشابهة لأنظمة قواعد الكتابة اليدوية الشائعة في ذلك الوقت. لكن البحث ركز بشكل متزايد على الأساليب الإحصائية، التي تتخذ قرارات ناعمة واحتمالية تعتمد على ربط أوزان القيمة الحقيقية بكل خاصية إدخال. تتمتع هذه النماذج بميزة أنها يمكن أن تعبر عن اليقين النسبي للعديد من الإجابات المحتملة بدلاً من واحدة فقط، مما ينتج عنه نتائج أكثر موثوقية عند استخدام مثل هذا النموذج كمُكون في نظام أكبر.

تتمتع الأنظمة القائمة على خوارزميات التعلم الآلي بالعديد من المزايا مقارنة بقواعد الكتابة اليدوية:

  • تركز عمليات التعلم المستخدمة في التعلم الآلي تلقائيًا على العمليات الأكثر شيوعًا، بينما عند كتابة القواعد يدويًا، غالبًا ما لا يكون من الواضح على الإطلاق إلى أين يجب توجيه الانتباه.
  • يمكن أن تستخدم عمليات التعلم الآلي خوارزميات الاستدلال الإحصائي لإنشاء نماذج تستند إلى مدخلات غير مألوفة (على سبيل المثال، تحتوي على كلمات أو هياكل لم تتم رؤيتها من قبل). وبشكل عام، من الصعب جدًا، وكذلك عرضة للخطأ، وتستغرق وقتًا طويلاً إدارة مثل هذه الإدخالات بسخاء من خلال قواعد الكتابة اليدوية – أو بشكل عام لبناء أنظمة لقواعد الكتابة اليدوية التي تتخذ قرارات سهلة.
  • يمكن تبسيط الأنظمة القائمة على تعلم القواعد التلقائية ببساطة عن طريق توفير المزيد من بيانات الإدخال. ومع ذلك، لا يمكن تحسين الأنظمة القائمة على القواعد المكتوبة بخط اليد إلا من خلال زيادة تعقيد القواعد، وهي مهمة أكثر صعوبة. على وجه الخصوص، يعد تعقيد الأنظمة القائمة على الكتابة اليدوية معقدًا للغاية بحيث تصبح الأنظمة أكثر فأكثر غير قابلة للإدارة. ومع ذلك، فإن إنشاء المزيد من البيانات عند إدخال أنظمة التعلم لا يتطلب سوى زيادة مقابلة في عدد الأشخاص العاملين، وهو ما لا یؤدی عادةً إلى زيادة تعقيد عملية التعليقات التوضيحية (annotation) بشكل كبير.

الواجبات والتقييمات الرئيسية لمعالجة اللغة الطبيعية

فيما يلي قائمة بالأعمال الأكثر بحثًا في معالجة اللغة الطبيعية. لاحظ/ي أن بعض هذه المهام لها تطبيقات مباشرة في العالم الحقيقي، بينما يعمل البعض الآخر كمهام فرعية للمساعدة في حل المشكلات الأكبر.

على الرغم من أن مهام معالجة اللغة الطبيعية متشابكة، إلا أنها غالبًا ما يتم تقسيمها إلى عدة فئات للراحة. يتبع فئة كبيرة.

بناء الجملة (Syntax) فی معالجة اللغة الطبيعية

الاستقراء النحوي: قم بإعداد قواعد نحوية رسمية تصف بناء الجملة للغة.

اللماتة (Lemmatization): مهمة حذف المحطات الصرفية فقط لاستعادة الكلمة الأساسية في شكل قاموس.

تقسيم أحادي الزواج: قسّم الكلمات إلى صيغ منفصلة وحدد الصرفيات. تعتمد صعوبة هذه المهمة بشكل أساسي على مدى تعقيد الصيغ (مثل بنية الكلمات) في اللغة الهدف. تعد أحادية اللغة في اللغة الإنجليزية بسيطة نسبيًا، وخاصة علم التشكل الصرفي، ولذا فمن الممكن غالبًا تخطي هذا النشاط تمامًا واستخدام جميع الأشكال الممكنة للكلمة فقط (على سبيل المثال، “open، opens، opened، opening”) ككلمات منفصلة. ومع ذلك، في لغات مثل التركية أو المانيبورية، وهي لغة هندية شديدة التماسك، فإن هذا غير ممكن، حيث قد يتخذ كل إدخال في القاموس آلاف الأشكال.

تأصيل المفردات: عملية اختزال الكلمات المستخدمة (أو المشتقة أحيانًا) إلى شكل جذرها. (على سبيل المثال، “Close” هو ​​أصل “closing” أو “closed” أو “closer” أو “close”.)

الدلالات (Semantics) فی معالجة اللغة الطبيعية

دلالات أبجدية: ما المعنى الحسابي لكل كلمة في سياق النص؟

دلالات التوزيع: كيف يمكننا اشتقاق التمثيلات الدلالية من البيانات؟

الترجمة الآلية: ترجمة النص تلقائيًا من لغة إلى أخرى. هذه واحدة من أصعب المشاكل، وهي جزء من فئة المشاكل التي تسمى بشكل غير رسمي “AI-Complete”، بمعنى أن جميع أنواع المعرفة البشرية المختلفة مطلوبة لحلها على النحو الأمثل (القواعد، الدلالات).  حقائق العالم الحقيقي، وما إلى ذلك.

المحادثة في NLP

ملخص تلقائي: إنتاج ملخص مقروء لقطعة من النص. غالبًا ما يستخدم النوع المعروف لإنشاء ملخص نصي، مثل الأوراق البحثية أو المقالات في القسم المالي لإحدى الصحف.

تحليل الخطاب: يحتوي هذا القسم على عدد من المهام ذات الصلة. وتتمثل إحدى المهام في تحديد بنية الخطاب من النصوص المتصلة، أي طبيعة علاقات الخطاب بين الجمل (على سبيل المثال، الشرح والوصف والتماثل). نشاط آخر محتمل هو تحديد وتصنيف إجراءات الكلام في جزء من النص (على سبيل المثال، نعم لا سؤال، سؤال المحتوى، البيان، التأكيد، وما إلى ذلك).

الخطاب في NLP

تجزئة الكلام: وجود مقطع صوتي لشخص أو مجموعة من الأشخاص يتحدثون يقسمه إلى كلمات. هذه مهمة فرعية للتعرف على الكلام وعادة ما يتم دمجها معها.

النص إلى الكلام: وجود نص، وحداته، يتم نقله ويتم إنتاج تمثيل منطوق. يمكن استخدام ميزة تحويل النص إلى كلام لمساعدة الأشخاص الذين يعانون من ضعف البصر.

حوار: في عام 2018، تم نشر أول عمل في هذا المجال بواسطة ذكاء اصطناعي يسمى 1 the Road وتم تسويقه على أنه رواية. وتحتوي هذه الرواية على ستين مليون كلمة.

منشور ذات صلة
PCA 3 Minutes

تنفیذ تحليل العنصر الرئيسي (Principal Component Analysis) بإستخدام البایثون

حسن خنفري

تحليل العنصر الرئيسي (PCA) هو إجراء إحصائي يستخدم لتخفیض الأبعاد. يستخدم تحويلًا متعامدًا لتحويل مجموعة من الملاحظات للمتغيرات المرتبطة المحتملة إلى مجموعة من مقادیر المتغيرات غير المرتبطة خطيًا یسمى العناصر الأساسية.

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

السلة