أفضل 10 خوارزميات للتعلم الآلي يجب على كل مبتدئ معرفتها

خوارزميات التعلم الآلي

في خوارزميات التعلم الآلي (machine learning algorithms) هناك ما يسمى نظرية “لا غداء مجاني”. باختصار تنص على أنه لا توجد خوارزمية واحدة للتعلم الآلي تعمل بشكل أفضل مع كل مشكلة وهي ذات صلة بشكل خاص بالتعلم الخاضع للإشراف (أي النمذجة التنبؤية).

على سبيل المثال لا يمكنك القول إن الشبكات العصبية دائمًا ما تكون أفضل من أشجار القرار أو العكس. هناك العديد من العوامل المؤثرة مثل حجم مجموعة البيانات وبنيتها.

نتيجة لذلك يجب أن تجرب العديد من الخوارزميات المختلفة لمشكلتك أثناء استخدام “مجموعة اختبار” من البيانات لتقويم الأداء واختيار الفائز.

بالطبع يجب أن تكون الخوارزميات التي تجربها مناسبة لمشكلتك وهنا يأتي دور اختيار مهمة التعلم الآلي الصحيحة. على سبيل المثال إذا كنت بحاجة إلى تنظيف منزلك فيمكنك استخدام مكنسة كهربائية أو مكنسة أو ممسحة لكنك لن تكسر مجرفة وتبدأ في الحفر.

أفضل 10 خوارزميات للتعلم الآلي يجب على كل مبتدئ معرفتها

المبدأ الكبير (the big principle)

مع ذلك هناك مبدأ مشترك يكمن وراء جميع خوارزميات التعلم الآلي الخاضعة للإشراف على النمذجة التنبؤية.

يتم وصف خوارزميات التعلم الآلي على أنها تعلم وظيفة مستهدفة (f) التي أفضل تعيين متغيرات الإدخال (X) إلى متغير الإخراج (Y): Y = f (X)

هذه مهمة تعليمية عامة حيث نرغب في عمل تنبؤات في المستقبل (Y) بالنظر إلى أمثلة جديدة لمتغيرات الإدخال (X). لا نعرف كيف تبدو الوظيفة (f) أو شكلها. إذا فعلنا ذلك فسنستخدمه مباشرة ولن نحتاج إلى تعلمه من البيانات باستخدام خوارزميات التعلم الآلي.

أكثر أنواع التعلم الآلي شيوعًا هو تعلم رسم الخرائط Y = f (X) لعمل تنبؤات لـ Y لـ X الجديد. وهذا ما يسمى بالنمذجة التنبؤية أو التحليلات التنبؤية وهدفنا هو جعل التنبؤات الأكثر دقة ممكنة.

بالنسبة للمبتدئين في التعلم الآلي الذين يتوقون إلى فهم أساسيات التعلم الآلي إليك جولة سريعة حول أفضل 10 خوارزميات للتعلم الآلي يستخدمها علماء البيانات.

الانحدار الخطي (linear regression)

ربما يكون الانحدار الخطي أحد أكثر الخوارزميات شهرة وفهمًا جيدًا في الإحصاء والتعلم الآلي.

النمذجة التنبؤية معنية في المقام الأول بتقليل خطأ النموذج أو جعل التنبؤات الأكثر دقة ممكنة على حساب القابلية للتفسير. سنقوم باستعارة الخوارزميات وإعادة استخدامها وسرقتها من العديد من المجالات المختلفة بما في ذلك الإحصائيات واستخدامها لتحقيق هذه الغايات.

تمثيل الانحدار الخطي معادلة تصف الخط الذي يناسب العلاقة بين متغيرات الإدخال (x) ومتغيرات الإخراج (y) من خلال إيجاد أوزان محددة لمتغيرات الإدخال تسمى المعاملات (B).

أفضل 10 خوارزميات للتعلم الآلي

على سبيل المثال: y = B0 + B1 * x

سوف نتوقع y بالنظر إلى المدخلات x والهدف من خوارزمية تعلم الانحدار الخطي هو العثور على قيم المعاملين B0 و B1.

يمكن استخدام تقنيات مختلفة لتعلم نموذج الانحدار الخطي من البيانات مثل حل الجبر الخطي للمربعات الصغرى العادية وتحسين الانحدار المتدرج.

كان الانحدار الخطي موجودًا منذ أكثر من 200 عام وقد تمت دراسته على نطاق واسع. تتمثل بعض القواعد الأساسية الجيدة عند استخدام هذه التقنية في إزالة المتغيرات المتشابهة جدًا (المرتبطة) وإزالة الضوضاء من بياناتك إن أمكن. إنها تقنية سريعة وبسيطة وأفضل خوارزمية يجب تجربتها.

الانحدار اللوجستي (logistic regression)

الانحدار اللوجستي أسلوب آخر استعاره التعلم الآلي من مجال الإحصاء. إنها طريقة go-to لمشاكل التصنيف الثنائي (المشكلات المتعلقة بقيمتين للفئتين).

يشبه الانحدار اللوجستي الانحدار الخطي، حيث أن هدفه العثور على قيم المعاملات التي تزن كل متغير إدخال. على عكس الانحدار الخطي يتم تحويل التنبؤ بالمخرجات باستخدام وظيفة غير خطية تسمى الوظيفة اللوجيستية.

تبدو الوظيفة اللوجيستية مثل S كبيرة وستحول أي قيمة إلى النطاق من 0 إلى 1. وهذا مفيد لأنه يمكننا تطبيق قاعدة على ناتج الوظيفة اللوجيستية لمحاذاة القيم إلى 0 و 1 (على سبيل المثال إذا كانت أقل من 0.5 إذن الإخراج 1) وتوقع قيمة الفئة.

أفضل 10 خوارزميات للتعلم الآلي

نظرًا للطريقة التي يتم بها تعلم النموذج يمكن أيضًا استخدام التنبؤات التي يتم إجراؤها بواسطة الانحدار اللوجستي كاحتمال لمثيل بيانات معين ينتمي إلى الفئة 0 أو الفئة 1. ويمكن أن يكون هذا مفيدًا للمشكلات التي تحتاج إلى تقديم المزيد من الأسباب المنطقية لها تنبؤ.

مثل الانحدار الخطي يعمل الانحدار اللوجستي بشكل أفضل عند إزالة السمات غير المرتبطة بمتغير الإخراج؛ بالإضافة إلى السمات المتشابهة جدًا (المرتبطة) ببعضها. إنه نموذج سريع التعلم وفعال في مشاكل التصنيف الثنائي.

التحليل التمييزي الخطي (linear discriminant analysis)

الانحدار اللوجستي هو خوارزمية تصنيف تقتصر تقليديا على مشاكل التصنيف من فئتين فقط. إذا كان لديك أكثر من فئتين فإن خوارزمية التحليل الخطي التمييزي هي تقنية التصنيف الخطي المفضلة.

تمثيل LDA واضح ومباشر. يتكون من الخصائص الإحصائية لبياناتك المحسوبة لكل فئة. بالنسبة لمتغير الإدخال الفردي يتضمن ذلك:

متوسط ​​القيمة لكل فئة.

تم حساب التباين عبر جميع الفئات.

يتم إجراء التنبؤات عن طريق حساب قيمة تمييزية لكل فئة وإجراء تنبؤ للفئة ذات القيمة الأكبر. تفترض التقنية أن البيانات لها توزيع غاوسي (منحني الجرس)، لذلك من الجيد إزالة القيم المتطرفة من بياناتك مسبقًا. إنها طريقة بسيطة وفعالة لتصنيف مشاكل النمذجة التنبؤية.

أشجار التصنيف والانحدار (classification and regression trees)

تعد أشجار القرار نوعًا مهمًا من الخوارزمية للتعلم الآلي للنمذجة التنبؤية.

تمثيل نموذج شجرة القرار هو شجرة ثنائية. هذه شجرتك الثنائية من الخوارزميات وهياكل البيانات ليست خيالية. تمثل كل عقدة متغير إدخال فردي (x) ونقطة انقسام على هذا المتغير (بافتراض أن المتغير رقمي).

تحتوي العقد الورقية للشجرة على متغير الإخراج (y) الذي يستخدم لعمل التنبؤ. يتم عمل التنبؤات عن طريق المشي في انشقاقات الشجرة حتى الوصول إلى عقدة ورقية وإخراج قيمة الفئة في تلك العقدة الورقية.

الأشجار سريعة التعلم وسريعة جدًا في التنبؤات. كما أنها غالبًا ما تكون دقيقة لمجموعة كبيرة من المشكلات ولا تتطلب أي إعداد خاص لبياناتك.

ساذج بايز(naïve bayes)

Naive Bayes خوارزمية بسيطة لكنها قوية بشكل مدهش للنمذجة التنبؤية.

يتكون النموذج من نوعين من الاحتمالات التي يمكن حسابها مباشرة من بيانات التدريب الخاصة بك: أولا احتمالية كل فئة، ثانيا الاحتمال الشرطي لكل فئة مع إعطاء كل قيمة x. بمجرد الحساب يمكن استخدام نموذج الاحتمالية لعمل تنبؤات للبيانات الجديدة باستخدام نظرية بايز. عندما تكون بياناتك ذات قيمة حقيقية فمن الشائع افتراض توزيع غاوسي (منحني الجرس)، حيث يمكنك تقدير هذه الاحتمالات بسهولة.

يُطلق على Naive Bayes اسم ساذج لأنه يفترض أن كل متغير إدخال يكون مستقلا. هذا افتراض قوي وغير واقعي للبيانات الحقيقية ومع ذلك فإن التقنية فعالة للغاية في مجموعة كبيرة من المشاكل المعقدة.

ابق على اطلاع على أحدث اتجاهات علم البيانات

أقرب الجيران (nearest neighbors)

خوارزمية KNN بسيطة وفعالة للغاية. التمثيل النموذجي لـ KNN هو مجموعة بيانات التدريب بأكملها. إنه بسيط! أليس كذلك؟

يتم عمل تنبؤات لنقطة بيانات جديدة من خلال البحث في مجموعة التدريب الكاملة عن مثيلات K الأكثر تشابهًا (الجيران) وتلخيص متغير الإخراج لمثيلات K. بالنسبة لمشاكل الانحدار قد يكون هذا هو متوسط ​​متغير الإخراج وبالنسبة لمشاكل التصنيف قد يكون هذا هو النمط (أو الأكثر شيوعًا) لقيمة الفئة.

الحيلة في كيفية تحديد التشابه بين مثيلات البيانات. إن أبسط أسلوب إذا كانت السمات الخاصة بك كلها من نفس المقياس (الكل بالبوصة على سبيل المثال) هو استخدام المسافة الإقليدية ورقم يمكنك احتسابه مباشرة بناءً على الاختلافات بين كل متغير إدخال.

يمكن أن تتطلب KNN مساحة كبيرة من الذاكرة أو المساحة لتخزين جميع البيانات ولكنها تؤدي فقط عملية حسابية (أو تعلم) عند الحاجة إلى التنبؤ في الوقت المناسب فقط. يمكنك أيضًا تحديث حالات التدريب الخاصة بك وتنظيمها بمرور الوقت للحفاظ على دقة التنبؤات.

يمكن أن تنقسم فكرة المسافة أو القرب إلى أبعاد عالية جدًا (الكثير من متغيرات الإدخال) مما قد يؤثر سلبًا على أداء الخوارزمية في مشكلتك، مما يسمى لعنة الأبعاد. يقترح عليك فقط استخدام متغيرات الإدخال الأكثر صلة بالتنبؤ بمتغير الإخراج.

تعلم تكميم المتجهات (learning vector quantization)

الجانب السلبي لـ K-Nearest Neighbours هو أنك تحتاج إلى التمسك بمجموعة بيانات التدريب بالكامل. تعد خوارزمية Learning Vector Quantization )أو LVQ للاختصار) خوارزمية شبكة عصبية اصطناعية تسمح لك باختيار عدد حالات التدريب التي يمكنك التمسك بها ومعرفة الشكل الذي يجب أن تبدو عليه هذه الحالات بالضبط.

تمثيل LVQ عبارة عن مجموعة من نواقل الكود. يتم تحديدها عشوائيًا في البداية وتكييفها لتلخيص أفضل مجموعة بيانات التدريب على عدد من التكرار لخوارزمية التعلم. بعد التعلم ، يمكن استخدام متجهات دفتر الشفرات لعمل تنبؤات تمامًا مثل K-Nearest Neighbours. تم العثور على الجار الأكثر تشابهًا (أفضل متجه في دفتر الرموز المطابق) عن طريق حساب المسافة بين كل متجه في دفتر الشفرات ومثيل البيانات الجديد. ثم يتم إرجاع قيمة الفئة أو (القيمة الحقيقية في حالة الانحدار) لأفضل وحدة مطابقة كتوقع. يتم تحقيق أفضل النتائج إذا قمت بإعادة قياس بياناتك للحصول على نفس النطاق، على سبيل المثال بين 0 و 1.

إذا اكتشفت أن KNN تعطي نتائج جيدة في مجموعة البيانات الخاصة بك، فحاول استخدام LVQ لتقليل متطلبات الذاكرة لتخزين مجموعة بيانات التدريب بالكامل.

دعم آلات المتجهات (support vector machines)

ربما تكون آلات Vector Support واحدة من أكثر خوارزميات التعلم الآلي شيوعًا وتحدثًا عنها.

المستوى الفائق هو الخط الذي يقسم مساحة متغير الإدخال. في SVM يتم تحديد المستوى الفائق لفصل النقاط في مساحة متغير الإدخال بشكل أفضل حسب فئتها إما الفئة 0 أو الفئة 1. في بعدين يمكنك تصور هذا كخط ودعنا نفترض أن جميع نقاط الإدخال لدينا يمكن أن تكون مفصولة تمامًا بهذا الخط. تجد خوارزمية التعلم SVM المعاملات التي ينتج عنها أفضل فصل للفئات بواسطة المستوى الفائق.

خوارزميات التعلم الآلي

يشار إلى المسافة بين الطائرة الفائقة وأقرب نقاط البيانات بالهامش. المستوى الأفضل أو الأمثل الذي يمكنه فصل الفئتين هو الخط الذي يحتوي على أكبر هامش. فقط هذه النقاط ذات صلة في تحديد المستوى الفائق وبناء المصنف. تسمى هذه النقاط نواقل الدعم. إنهم يدعمون أو يحددون المستوى الفائق. في الممارسة العملية يتم استخدام خوارزمية التحسين للعثور على قيم المعاملات التي تزيد الهامش.

قد يكون SVM أحد أقوى المصنفات الجاهزة ويستحق المحاولة على مجموعة البيانات الخاصة بك.

التعبئة والغابات العشوائية (bagging and random forest)

تعد Random Forest واحدة من أكثر خوارزميات التعلم الآلي شيوعًا وقوة. إنه نوع من خوارزمية التعلم الآلي للمجموعة تسمى Bootstrap Aggregation أو التعبئة.

التمهيد هو طريقة إحصائية قوية لتقدير كمية من عينة البيانات. مثل الوسيلة. تأخذ الكثير من العينات من بياناتك وتحسب المتوسط  ثم متوسط ​​كل القيم المتوسطة الخاصة بك لتزويدك بتقدير أفضل للقيمة المتوسطة الحقيقية.

في التعبئة يتم استخدام نفس النهج ولكن بدلاً من ذلك لتقدير نماذج إحصائية كاملة وأشجار القرار الأكثر شيوعًا. يتم أخذ عينات متعددة من بيانات التدريب الخاصة بك ثم يتم إنشاء نماذج لكل عينة بيانات. عندما تحتاج إلى عمل تنبؤ لبيانات جديدة يقوم كل نموذج بعمل التنبؤ ويتم حساب متوسط ​​التوقعات لإعطاء تقدير أفضل لقيمة المخرجات الحقيقية.

خوارزميات التعلم الآلي

الغابة العشوائية عبارة عن تعديل على هذا النهج حيث يتم إنشاء أشجار القرار بحيث يتم إجراء الانقسامات دون المثلى عن طريق إدخال العشوائية بدلاً من اختيار نقاط الانقسام المثلى.

وبالتالي تكون النماذج التي تم إنشاؤها لكل عينة من البيانات أكثر اختلافًا مما ستكون عليه بخلاف ذلك ولكنها لا تزال دقيقة بطرقها الفريدة والمختلفة. ويؤدي إلى الجمع بين تنبؤاتهم إلى تقدير أفضل لقيمة الإنتاج الأساسية الحقيقية.

إذا حصلت على نتائج جيدة باستخدام خوارزمية ذات تباين عالٍ (مثل أشجار القرار) فيمكنك غالبًا الحصول على نتائج أفضل عن طريق تعبئة تلك الخوارزمية.

التعزيز وAdaBoost

التعزيز (boosting) هو أسلوب تجميعي يحاول إنشاء مصنف قوي من عدد من المصنفات الضعيفة. ويتم ذلك عن طريق بناء نموذج من بيانات التدريب ثم إنشاء نموذج ثانٍ يحاول تصحيح الأخطاء من النموذج الأول. وتتم إضافة النماذج حتى يتم توقع مجموعة التدريب تمامًا أو يتم إضافة أقصى عدد من النماذج.

AdaBoost كانت أول خوارزمية تعزيز ناجحة حقًا تم تطويرها للتصنيف الثنائي. إنها أفضل نقطة انطلاق لفهم التعزيز. تعتمد طرق التعزيز الحديثة على AdaBoost وبالأخص على آلات تعزيز التدرج العشوائي.

منشور ذات صلة

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

السلة