الشبكة العصبية التلافيفية (Convolutional Neural Network) وبنياتها

شبكة CNN

يشهد الذكاء الاصطناعي نموًا هائلاً في سد الفجوة بين قدرات البشر والآلات. يعمل الباحثون والمتحمسون على حد سواء في جوانب عديدة من المجال لتحقيق أشياء مذهلة. يعد مجال رؤية الكمبيوتر أحد المجالات العديدة المماثلة.

يتمثل جدول أعمال هذا المجال في تمكين الآلات من رؤية العالم كما يفعل البشر، وإدراكه بطريقة مماثلة وحتى استخدام المعرفة للعديد من المهام مثل التعرف على الصور والفيديو، وتحليل الصور وتصنيفها، واستجمام الوسائط، وأنظمة التوصية، معالجة اللغة الطبيعية، إلخ.

تم إنشاء التطورات في رؤية الكمبيوتر مع التعلم العميق (deep learning) وإتقانها بمرور الوقت، في المقام الأول على خوارزمية معينة – شبكة عصبية تلافيفية (convolutional neural network).

المقدمة

الشبكة العصبية التلافيفية (ConvNet /CNN) هي خوارزمية التعلم العميق التي يمكن أن تأخذ صورة إدخال، وتعيين الأهمية (الأوزان القابلة للتعلم والتحيزات) لمختلف الجوانب/ الكائنات في الصورة وتكون قادرة على تمييز واحدة عن الأخرى. المعالجة المسبقة المطلوبة في ConvNet أقل بكثير مقارنة بخوارزميات التصنيف الأخرى. بينما في الأساليب البدائية، يتم تصميم المرشحات يدويًا، مع التدريب الكافي، تمتلك ConvNets القدرة على تعلم هذه المرشحات / الخصائص.

تشبه بنية ConvNet تلك الخاصة بنمط الاتصال للخلايا العصبية في الدماغ البشري وهي مستوحاة من تنظيم Visual Cortex. تستجيب الخلايا العصبية الفردية للمنبهات فقط في منطقة محدودة من المجال البصري تُعرف باسم المجال الاستقبالي. تتداخل مجموعة من هذه الحقول لتغطية المنطقة المرئية بأكملها.

الشبكة العصبية التلافيفية - ConvNet / CNN

خلفية CNN

تم تطوير واستخدام CNN لأول مرة في حوالي الثمانينيات. أكثر ما يمكن أن تفعله CNN في ذلك الوقت هو التعرف على الأرقام المكتوبة بخط اليد. تم استخدامه في الغالب في القطاعات البريدية لقراءة الرموز البريدية والرموز الشخصية وما إلى ذلك. الشيء المهم الذي يجب تذكره حول أي نموذج تعلم عميق هو أنه يتطلب قدرًا كبيرًا من البيانات للتدريب ويتطلب أيضًا الكثير من موارد الحوسبة. كان هذا عيبًا كبيرًا لشبكات CNN في تلك الفترة، وبالتالي اقتصرت شبكات CNN على القطاعات البريدية وفشلت في دخول عالم التعلم الآلي.

الشبكة العصبية التلافيفية - ConvNet / CNN

في عام 2012، أدرك أليكس كريجفسكي أن الوقت قد حان لإعادة فرع التعلم العميق الذي يستخدم شبكات عصبية متعددة الطبقات. أتاح توافر مجموعات كبيرة من البيانات، لتكون مجموعات بيانات ImageNet أكثر تحديدًا مع ملايين الصور المصنفة ووفرة الموارد الحاسوبية، للباحثين إحياء شبكات CNN.

ما هو بالضبط CNN؟

في التعلم العميق، الشبكة العصبية التلافيفية (CNN / ConvNet) هي فئة من الشبكات العصبية العميقة (deep neural network)، يتم تطبيقها بشكل شائع لتحليل الصور المرئية. الآن عندما نفكر في شبكة عصبية، نفكر في مضاعفات المصفوفة ولكن هذا ليس هو الحال مع ConvNet. يستخدم تقنية خاصة تسمى الالتفاف (convolution). الالتفاف في الرياضيات الآن هو عملية حسابية على وظيفتين تنتج وظيفة ثالثة تعبر عن كيفية تعديل شكل إحداهما بواسطة الأخرى.

الشبكة العصبية التلافيفية - ConvNet / CNN

لكننا لسنا بحاجة حقًا إلى الرجوع إلى الجزء المتعلق بالرياضيات لفهم ماهية شبكة CNN أو كيف تعمل. خلاصة القول هي أن دور شبكة ConvNet هو تقليل الصور إلى شكل يسهل معالجته، دون فقدان الخصائص الحاسمة للحصول على تنبؤ جيد.

کیف تعمل شبکة CNN؟

قبل أن نذهب إلى عمل CNN، دعونا نغطي الأساسيات مثل ما هي الصورة وكيف يتم تمثيلها. صورة RGB ليست سوى مصفوفة (Matrix) من قيم البكسل لها ثلاثة مستويات بينما الصورة ذات التدرج الرمادي هي نفسها ولكن لها مستوى واحد. الق نظرة على هذه الصورة لفهم المزيد.

 شبکة CNN

للتبسيط، دعنا نلتزم بالصور ذات التدرج الرمادي (grayscale) بينما نحاول فهم كيفية عمل شبكات CNN.

 شبکة CNN

توضح الصورة أعلاه ما هو الالتواء. نأخذ مرشح / نواة (مصفوفة 3 × 3) ونطبقه على صورة الإدخال للحصول على الميزة الملتفة. يتم تمرير هذه الميزة الملتفة إلى الطبقة التالية.

 شبکة CNN

في حالة لون RGB، تلقي القناة نظرة على هذه الرسوم المتحركة لفهم عملها.

تتكون الشبكة العصبية التلافيفية (Convolutional neural network) من طبقات متعددة من الخلايا العصبية الاصطناعية. الخلايا العصبية الاصطناعية، وهي تقليد تقريبي لنظيراتها البيولوجية، هي دالات رياضية تحسب المجموع الموزون (weighted sum) للمدخلات والمخرجات المتعددة وقيمة التفعیل. عندما تقوم بإدخال صورة في شبكة ConvNet، تقوم كل طبقة بإنشاء العديد من دالات التفعیل (activation functions) التي يتم تمريرها إلى الطبقة التالية.

تستخرج الطبقة الأولى عادةً الخصائص الأساسية مثل الحواف الأفقية أو المائلة. يتم تمرير هذا الإخراج إلى الطبقة التالية التي تكتشف خصائص أكثر تعقيدًا مثل الزوايا أو الحواف الترکیبیة. كلما تعمقنا في الشبكة، يمكننا تحديد خصائص أكثر تعقيدًا مثل الأشیاء والوجوه وما إلى ذلك.

استنادًا إلى خريطة التفعیل لطبقة الالتفاف النهائية، تُخرج طبقة التصنيف مجموعة من درجات الثقة (القيم بين 0 و 1) التي تحدد مدى احتمالية انتماء الصورة إلى “فئة”. على سبيل المثال، إذا كان لديك شبكة ConvNet تكتشف القطط والكلاب والخيول، فإن ناتج الطبقة النهائية هو احتمال احتواء الصورة المدخلة على أي من تلك الحيوانات.

الشبكة العصبية التلافيفية - ConvNet / CNN

ما هية طبقة التجميع (pooling layer)؟

على غرار الطبقة التلافيفية، تكون طبقة التجميع مسؤولة عن تقليل الحجم المكاني للميزة الملتفة. هذا لتقليل القوة الحسابية المطلوبة لمعالجة البيانات عن طريق تقليل الأبعاد. هناك نوعان من التجميع (pooling)، متوسط التجميع (average pooling) والحد الأقصى للتجميع (max pooling).

إذن ما نفعله في الحد الأقصى للتجميع (max pooling) هو إيجاد القيمة القصوى للبكسل من جزء الصورة الذي تغطيه النواة. يعمل الحد الأقصى للتجميع (max pooling) أيضًا كمانع للضوضاء. إنه يتجاهل عمليات التفعیل الصاخبة تمامًا ويقوم أيضًا بإزالة الضوضاء جنبًا إلى جنب مع تقليل الأبعاد. من ناحية أخرى، يُرجع متوسط التجميع متوسط جميع القيم من جزء الصورة الذي تغطیه نواة. ينفذ متوسط التجميع (average pooling) ببساطة تقليل الأبعاد كآلية لقمع الضوضاء. ومن ثم، يمكننا القول أن أداء الحد الأقصى للتجميع (max pooling) الحد الأقصى للتجميع (max pooling) أفضل بكثير من متوسط التجميع.

الشبكة العصبية التلافيفية - ConvNet / CNN

طبقة متصلة بالكامل (fully connected layer)

الشبكة العصبية التلافيفية - ConvNet / CNN

تعد إضافة طبقة متصلة بالكامل (عادةً) طريقة رخيصة لتعلم مجموعات غير خطية من الخصائص عالية المستوى كما هو موضح في إخراج الطبقة التلافيفية (convolutional layer). تتعلم الطبقة المتصلة بالكامل دالة غير خطية محتملة في تلك المساحة.

هناك العديد من البنیات المتاحة لشبكات CNN والتي كانت أساسية في بناء الخوارزميات التي تعمل على تشغيل الذكاء الاصطناعي ككل في المستقبل المنظور. تم سرد بعضها أدناه:

  1. LeNet
  2. AlexNet
  3. VGGNet
  4. GoogLeNet
  5. ResNet
  6. ZFNet
  7. ImageNet
  8. DenseNet
  9. SENet

المصادر

منشور ذات صلة

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

السلة