تقنیة تحليل الارتباط الكنسي (Canonical Correlation Analysis) وتنفیذها في بايثون

تقنية CCA

مقدمة

تقنية CCA هي طريقة لإيجاد علاقات ارتباط خطية بين مجموعتين أو أكثر من مجموعات البيانات متعددة الأبعاد. يجد CCA مساحة إحداثيات أساسية تزيد من الارتباطات بين إسقاطات مجموعات البيانات على تلك المساحة. يشترك CCA في العديد من أوجه التشابه الرياضية مع تقنيات تقليل الأبعاد مثل تحليل المكونات الرئيسية (PCA) وطرق الانحدار مثل انحدار المربعات الصغرى الجزئي (PLS).

تتمتع CCA بالعديد من الخصائص التي تجعلها مناسبة لتحليل البيانات التجريبية في العالم الحقيقي. أولاً، لا يتطلب CCA أن يكون لمجموعات البيانات نفس الأبعاد. ثانيًا، يمكن استخدام CCA مع أكثر من مجموعتي بيانات في وقت واحد. ثالثًا، لا يفترض CCA مسبقًا اتجاه العلاقة بين مجموعات البيانات. هذا على عكس طرق الانحدار التي تحدد مجموعة بيانات مستقلة ومعتمدة. رابعًا، يميز CCA العلاقات بين مجموعات البيانات بطريقة قابلة للتفسير. هذا على عكس الطرق الارتباطية التي تحدد فقط التشابه بين مجموعات البيانات. PCA

CCA له عيب واحد بالنسبة لبعض الطرق الأخرى: يمكن بسهولة أن يتناسب (overfit) مع ارتباطات الضوضاء الزائفة (spurious noise correlations) بين مجموعات البيانات. ومع ذلك، يمكن تجنب الإفراط في التناسب (overfitting) عن طريق الحد من حجم مساحة الکنسیة عليها، عن طريق التنظيم، أو كليهما.

تقنیة تحليل الارتباط الكنسي
تقنیة CCA

نظرة عامة إلی تقنية CCA

تحليل الارتباط الكنسي (Canonical Correlation Analysis) هو أسلوب إحصائي متعدد المتغيرات يسمح لك بتحليل الارتباطات بين مجموعتي بيانات. يمكن استخدام تحليل الارتباط الكنسي لنمذجة الارتباطات بين مجموعتي بيانات بطريقتين:

  1. التركيز على علاقة التبعية، ونمذجة مجموعتي البيانات بطريقة تشبه الانحدار: مجموعة البيانات y كدالة لمجموعة البيانات x.
  2. التركيز على استكشاف العلاقات بين مجموعتي البيانات دون ذكر أي مجموعة بيانات كمتغير تابع أو متغير مستقل.

هناك مفهومان أساسيان يجب فهمهما عند إجراء تحليل الارتباط الكنسي:

  1. المتغيرات الكنسية (Canonical Variables)
  2. الارتباط الكنسي (Canonical Correlation)

المتغيرات الكنسية (Canonical Variables)

أول مفهوم مركزي لتحليل الارتباط الكنسي هو مفهوم المتغيرات الكنسي. الهدف من تحليل الارتباط الكنسي هو نمذجة العلاقات بين مجموعتي بيانات.

بالطبع، من الصعب نمذجة مجموعات البيانات في وقت واحد، لأنها تتكون من عدد من المتغيرات. يعد تحليل الارتباطات بين جميع المتغيرات في مجموعة بيانات واحدة تحديًا بالفعل، وبالتالي فإن المهمة أكثر تعقيدًا الآن حيث يتعين علينا التمييز بين الارتباط بين المتغيرات والارتباط بين مجموعتي البيانات.

لتبسيط هذه المهمة، سيحدد النموذج المتغيرات الأساسية. المتغيرات الأساسية هي مجموعات خطية من متغيرات إحدى مجموعات البيانات. نظرًا لأن تحليل الارتباط الكنسي يركز على الارتباطات بين مجموعتين من البيانات، فسوف تحدد أزواجًا من المتغيرات الكنسية: متغير أساسي واحد يأتي من مجموعة البيانات اليسرى ومتغير الكنسي يأتي من مجموعة البيانات الیمینة.

إذا كان لدينا عدد مختلف من المتغيرات في مجموعتي البيانات، فيمكن الحصول على عدد أزواج من المتغيرات الکنسیة حيث توجد متغيرات في أصغر مجموعة بيانات.

سيتم تحديد المتغيرات الكنسي بواسطة النموذج. تم اختيارهما ليكونا مجموعتين خطيتين من المتغيرات (الأصلية) (واحد في كل مجموعة بيانات) التي لها أكبر ارتباط ممكن.

الارتباط الكنسي (Canonical Correlation)

بمجرد تحديد المتغيرات الأساسية، يمكن متابعة التحليل من خلال النظر في الارتباطات بين المتغيرات الكنسية. نظرًا لأنه يتم قياس هذا الارتباط بين المتغيرات الكنسية، فإننا ببساطة نسميها الارتباط الكنسي.

سوف ندخل في تفسير مثال قريبًا. فقط ضع في اعتبارك أنه سيتعين علينا تحليل مجموعتين مهمتين من المؤشرات لفهم الارتباطات بين مجموعتي البيانات لدينا:

فسر الارتباط الكنسي: ما مدى ارتباط كل متغير کنسی من مجموعة البيانات 1 بنظيره في مجموعة البيانات 2؟

فسر المتغيرات الکنسیة: ما المتغيرات الأصلية التي يمثلها كل من المتغيرات الکنسیة؟

تحليل الارتباط الكنسي مقابل الطرق الأخرى

الآن بعد أن فهمت أهداف تحليل الارتباط الكنسي، دعنا نناقش كيف ترتبط الطريقة وتختلف عن الطرق وثيقة الصلة.

تحليل الارتباط الكنسي مقابل PCA

المقارنة الأولى المفيدة هي بين تحليل الارتباط الكنسي وتحليل المكونات الرئيسية (PCA). PCA هي طريقة تبحث عن مجموعات خطية (تسمى المكونات الرئيسية) ضمن مجموعة بيانات بهدف تعظيم مقدار التباين الذي يتم شرحه بواسطة تلك المكونات الرئيسية.

حيث يركز PCA على إيجاد مجموعات خطية تمثل أكبر قدر من التباين في مجموعة بيانات واحدة، يركز تحليل الارتباط الكنسي على إيجاد مجموعات خطية تمثل معظم الارتباط في مجموعتي بيانات.

تحليل الارتباط الكنسي مقابل الانحدار المتعدد المتغيرات (Multivariate Multiple Regression)

المقارنة الثانية التي من المثير للاهتمام القيام بها هي بين تحليل الارتباط الكنسي والانحدار المتعدد المتغيرات (Multivariate Multiple Regression). الانحدار المتعدد المتغيرات هو متغیر من الانحدار المتعدد (Multiple Regression) حيث توجد عدة متغيرات تابعة، بينما في الانحدار المتعدد القياسی، لا يوجد سوى متغير تابع واحد.

إن هدف الانحدار المتعدد المتغيرات مشابه جدًا لهدف تحليل الارتباط الكنسي: في كليهما، نحاول العثور على مجموعات خطية تسمح لك بنمذجة الارتباطات بين مجموعتي بيانات (مجموعة بيانات تابعة ومجموعة بيانات مستقلة).

 تقنية CCA
المتغیرات الکنسیة

تنفیذ تقنية CCA في بايثون

يمكننا تنفيذ هذه التقنية في بايثون. سنقوم هنا بتحويل المصفوفتين أو استخدام تقنية تقليل أبعاد CCA إلى مصفوفات أخرى أصغر:

کود:

from sklearn.cross_decomposition import CCA
X = [[0., 0., 1.], [1.,0.,0.], [2.,2.,2.], [3.,5.,4.]]
Y = [[0.1, -0.2], [0.9, 1.1], [6.2, 5.9], [11.9, 12.3]]
cca = CCA(n_components=1)
cca.fit(X, Y)
X_c, Y_c = cca.transform(X, Y)

کود:

X_c

الاخراج:

array([[-1.3373174 , -0.0417049 ],
       [-1.10847164,  0.09815406],
       [ 0.40763151, -0.10308366],
       [ 2.03815753,  0.0466345 ]])

کود:

Y_c

الاخراج:

array([[-0.85511537, -0.0249032 ],
       [-0.70878547,  0.05861063],
       [ 0.26065014, -0.06155424],
       [ 1.3032507 ,  0.02784681]])

منشور ذات صلة
المصنف بایز الساذج 4 Minutes

المصنف بایز الساذج

حسن خنفري

يعتمد المصنف بايز الساذج (Naive Bayes classifier) على نظرية بايز مع افتراضات الاستقلال بين المتنبئين. […]

تقنيات التقیيم 9 Minutes

التلخيص التلقائي للنصوص 7- تقنيات التقييم وجمع نقاط الجمل البارزة

آيات عامر

يساعد تقييم الملخص إلى جانب تحسين تطوير الموارد والبنية التحتية القابلة لإعادة الاستخدام في مقارنة النتائج وتكرارها، وبالتالي، يضيف منافسة إلى تحسين النتائج. ومع ذلك، فمن المستحيل عمليًا تقييم مستندات متعددة يدويًا للحصول على عرض غير متحيز.

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

السلة