الاختلافات بين دالات التفعيل Sigmoid و Softmax

Sigmoid و Softmax

هناك العديد من الخوارزميات في السوق والتي يمكن استخدامها لحل مشاكل التصنيف (classification). ستكون مواضيع اليوم هي الشبكات العصبية الاصطناعية والتلافيفية (convolutional neutral network) وكيفية تحديد ما يُسمح لخوارزميتنا بإنشاء العديد من الإجابات لنا أو أن تكون ثنائية، بإجابة واحدة فقط. كل ذلك يعود إلى دالتين التنشيط Sigmoid و SoftMax.

الخلايا العصبية (neurons) والشبكة العصبية الاصطناعية (Artificial neutral network)

تمثل شبكة الخلايا العصبية الاصطناعية نموذجًا حسابيًا يشبه الجهاز العصبي البشري الاصطناعي تمامًا. إنه مصمم لتلقي المعلومات ومعالجتها وإرسال المعلومات في شكل قيمة مخرجات.

يتكون من وحدات متصلة المسمّاة بالخلايا العصبية الاصطناعية، والتي تشبه الخلايا العصبية في الدماغ البيولوجي. يمكن لكل اتصال أن ينقل إشارة إلى قيم أخرى، تمامًا مثل المشبك في الدماغ البيولوجي. بعد إرسال الإشارة، تستقبلها الخلية العصبية التالية وتعالجها وتنقلها إلى آخر إشارة. في التنفيذ، تكون الإشارة نفسها رقمًا حقيقيًا، ويتم استخراج ناتج أو قيمة كل خلية عصبية ببعض الدالات غير الخطية (non-linear functios). الخلايا العصبية والوصلات لها أوزان تتكيف مع عملية التعلم. مع هذه التعديلات، يزيد الوزن أو ينقص من قوة الإشارة عند اتصال معين. قد يكون لكل خلية عصبية أيضًا مستوى عتبة (threshold level)، بحيث تتم معالجة الإشارة إذا تجاوزت القيمة العتبة (threshold value). من الضروري الإشارة إلى أن هذه الخلايا العصبية تتجمع في طبقات قد تؤدي إلى تحولات مختلفة. تنتقل قيم الإدخال من الطبقة الأولى (طبقة الإدخال (input layer)) إلى الطبقة الأخيرة (طبقة الإخراج (output layer))، وربما تتقاطع مع طبقات مخفية (hidden layers) متعددة بينهما.

الشبكة العصبية الاصطناعية

لهذه الطبقات المتعددة، يمكن أن يكون لدينا الكثير من القيم. يعتمد في الغالب على ما إذا كان يتم تنشيط خلية عصبية (artificial neurons) معينة أم لا. لتطبيع هذا النطاق من القيم، نستخدم دالات التفعيل (activation functions) لجعل العملية برمتها متوازنة إحصائيًا.

دالة التفعيل السينية (sigmoid activation function)

دالة التفعيل السينية (sigmoid activation function)، دالة رياضية ذات منحنى على شكل “S” يمكن التعرف عليها. يتم استخدامه للانحدار اللوجستي (logistic regression) وتنفيذ الشبكة العصبية الأساسية (basic neural network). إذا أردنا أن يكون لدينا مصنف (classifier) لحل مشكلة بأكثر من إجابة صحيحة، فإن الدالة السينية هي الخيار الصحيح. يجب أن نطبق هذه الوظيفة على كل عنصر من عناصر المخرجات الأولية بشكل مستقل. تقع القيمة المرجعة للدالة السينية في الغالب في نطاق القيم بين 0 و 1 أو 1- و 1.

هناك مجموعة واسعة من هذه الدالات. بصرف النظر عن اللوجيستية، هناك أيضًا وظيفة الظل الزائدي (hyperbolic tangent function) التي تم استخدامها في الخلايا العصبية الاصطناعية. بصرف النظر عن هذا، فقد تم استخدامه أيضًا كوظيفة توزيع تراكمي (Cumulative Distribution Function). إنه واضح ومباشر ويقلل من الوقت المطلوب للتنفيذ. من جانب آخر، هناك عيب كبير بسبب المشتقات ذات المدى القصير، مما يؤدي إلى فقدان المعلومات بشكل كبير.

هكذا تبدو الدالة السينية (sigmoid function):

إذا كان هناك المزيد من الطبقات في شبكتنا العصبية، فسيتم ضغط المزيد من البيانات وفقدانها لكل طبقة، مما يؤدي إلى تضخيم البيانات وتسبّب فقدانًا كبيرًا للبيانات بشكل عام.

هكذا تبدو دالة السينية (sigmoid function):

دالة التفعيل Sigmoid

دالة تفعيل Softmax

دالة تنشيط Softmax، والمعروفة أيضًا باسم SoftArgMax أو Normalized Exponential Function، دالة تفعيل رائعة تأخذ متجهات من الأرقام الحقيقية كمدخلات، وتطبيعها في توزيع احتمالي (probability distribution) يتناسب مع الأسي (exponentials) لأرقام الإدخال. قبل التقديم، قد تكون بعض بيانات الإدخال سالبة أو أكبر من 1. أيضًا، قد لا تصل إلى 1. بعد تطبيق Softmax، سيكون كل عنصر في النطاق من 0 إلى 1، وستضيف العناصر ما يصل إلى 1. وبهذه الطريقة، يمكن تفسيرها على أنها توزيع احتمالي. للمزيد من التوضيح، كلما زاد رقم الإدخال، زادت الاحتمالات.

دالة تفعيل Softmax

غالبًا ما يستخدم Softmax في:

  1. الشبكات العصبية الاصطناعية والتلافيفية – الفكرة هي تعيين الإخراج غير الطبيعي (non-normalized output) للبيانات لتوزيع الاحتمالات لفئات المخرجات. يتم استخدامه في الطبقات النهائية للمصنفات القائمة على الشبكة العصبية. يتم تدريبهم إما في ظل نظام فقدان السجل (log-loss) أو الانتروبيا المتقاطعة (cross-entropy). بهذه الطريقة، تكون النتيجة متغيرًا غير خطي للانحدار اللوجستي متعدد الحدود (Softmax Regression).
  2. طرق التصنيف الأخرى متعددة الفئات مثل التحليل التمييزي الخطي متعدد الطبقات (Multiclass Linear Discriminant Analysis)، ومصنفات بايز الساذجة (Naive Bayes Classifiers)، إلخ.
  3. التعلم المعزز (Reinforcement Learning)- يمكن استخدام وظيفة Softmax لتحويل القيم إلى احتمالات عمل.

النقطة الأساسية: يستخدم Softmax للتصنيف المتعدد في نموذج الانحدار اللوجستي، بينما يستخدم Sigmoid للتصنيف الثنائي في نموذج الانحدار اللوجستي.

هكذا تبدو وظيفة Softmax كما يلي:

هذا يشبه الدالة السينية (sigmoid function). لكن الفرق هو أنه في المقام، نجمع كل القيم معًا. لتوضيح ذلك بشكل أكبر، عند حساب قيمة Softmax على ناتج خام واحد، لا يمكننا النظر إلى عنصر واحد فقط، ولكن بدلاً من ذلك، علينا أن نأخذ في الاعتبار جميع بيانات المخرجات.

نقطة أساسية أخرى: هذا هو السبب الرئيسي الذي يجعل Softmax مفيدة جدأ. إنها تتأكد من أن مجموع احتمالات المخرجات لدينا يساوي واحدًا.

على سبيل المثال، إذا كنا نصنف الأرقام ونطبق Softmax على مخرجاتنا الأولية، لكي تزيد الشبكة الاصطناعية من احتمالية تصنيف مثال ناتج معين على أنه “5”، وبعض الاحتمالات الأخرى لأرقام أخرى (0، 1، 2، 3 ، 4، 6، 7، 8 و / أو 9) يحتاج إلى تقليل.

تطبيق Sigmoid أو Softmax

طبقة الإخراج لمصنف الشبكة العصبية عبارة عن متجه للقيم الأولية. دعنا نقول أن قيم المخرجات الأولية من شبكتنا العصبية هي:

[0.5-, 1.2, 0.1-, 2.4]

إذن، ماذا تعني قيم المخرجات الأولية هذه؟

تكمن الفكرة في تحويل هذه القيم الأولية إلى تنسيق مفهوم – الاحتمالات، بدلاً من مجرد بعض أرقام المخرجات، والتي تبدو عشوائية ومربكة.

الخطوة التالية هي تحويل قيم المخرجات الأولية هذه إلى احتمالات باستخدام بعض وظائف التنشيط، إما Sigmoid أو Softmax.

كما ترى، فإن وظائف التنشيط Sigmoid و Softmax تعطي نتائج مختلفة.

  • قيم إدخال (sofmax): 0.5، 1.2،-0.1، 2.4-
  • قيم إخراج (softmax): 0.04، 0.21، 0.05، 0.70
  • السينية (sigmoid): الاحتمالات التي تنتجها السينية مستقلة. علاوة على ذلك، فهي غير مقيدة بمجموع واحد: 0.37 + 0.77 + 0.48 + 0.91 = 2.53. والسبب في ذلك هو أن السينية تنظر إلى كل قيمة إخراج خام بشكل منفصل.
  • سافتمكس (Softmax): النواتج مترابطة. سيتم جمع احتمالات Softmax دائمًا بواحد حسب التصميم: 0.04 + 0.21 + 0.05 + 0.70 = 1.00. في هذه الحالة، إذا أردنا زيادة احتمالية وجود فئة واحدة، يجب أن تنخفض الفئة الأخرى بمقدار متساوٍ.

ملخص

خصائص دالة التفعيل السينية (Sigmoid Activation Function):

  1. تستخدم للتصنيف الثنائي في نموذج الانحدار اللوجستي (Logistic Regression).
  2. لا يلزم أن يكون مجموع الاحتمالات 1.
  3. تستخدم كدالة تفعيل أثناء بناء شبكة عصبية (Neural Network).

خصائص دالة التفعيل Softmax:

  1. يستخدم في التصنيف المتعدد في نموذج الانحدار اللوجستي (Logistic Regression).
  2. مجموع الاحتمالات سيكون 1.
  3. يستخدم في طبقات الشبكات العصبية المختلفة.

المصدر

منشور ذات صلة

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

السلة