التنقيب في البيانات من الألف إلى الياء

التنقيب في البيانات

سنناقش في هذا المقال مواضيع التنقيب في البيانات أو تعدين البيانات (Data mining) من الألف إلى الياء. مع التقدم السريع لـ”تكنولوجيا المعلومات” (Information Technology)، لقد شاهد البشر نموا متفجرا في إنتاج “البيانات” وتجميع وتخزينها في مجالات مختلفة. في عالم الأعمال، هناك قواعد بيانات ضخمة جدا للمعاملات التجارية، أُنتجت بواسطة تجار التجزئة أو في “التجارة الإلكترونية” (E-commerce) ومن جانب آخر، هناك إنتاج ضخم للبيانات العلمية في المجالات المختلفة بشكل يومي.

جدول المحتويات

  • ما هو التنقيب في البيانات؟
  • تاريخ تنقيب البيانات
  • لماذا التنقيب في البيانات؟
    • التنبؤ الآلي للاتجاهات والسلوكيات
    • الكشف الآلي للأنماط غير المعروفة سابقا
  • أنواع مصادر البيانات
    • المعاملات التجارية
    • البيانات العلمية
    • البيانات الشخصية والطبية
    • صور ومقاطع المراقبة
    • المنافسات الرياضية
    • الوسائط الرقمية
    • العوالم الافتراضية
    • البيئة الافتراضية
    • التقارير والمستندات النصية
  • عملية التنقيب في البيانات
    • تنظيف البيانات
    • إلغاء تجزئة البيانات
    • اختيار البيانات
    • تحويل البيانات
    • التنقيب في البيانات
    • تقويم الأنماط
    • تقديم المعرفة
  • مشاكل التنقيب في البيانات المنهجية
    • مشاكل مصادر البيانات
    • مشاكل التنقيب في البيانات المنهجية
    • مشاكل الكفاءة
  • مصطلحات فنية
    • العلامات
    • طبيعة مجموعة البيانات
    • التعلم غير الخاضع للإشراف
  • التعلم الخاضع للإشراف
    • الأساليب الإحصائية
    • خطأ التدريب مقابل خطأ الاختبار
    • التحيز مقابل التباين
    • التجهيز مقابل فرط التجهيز
    • نطاق التعلم
  • طبيعة قضية التنقيب في البيانات
    • كيف تجد الدالة F؟
  • مزايا وعيوب التنقيب في البيانات
    • مزايا التنقيب في البيانات
    • عيوب التنقيب في البيانات
    • الآثار السلبية:
  • تطبيقات التنقيب في البيانات
    • الأعمال
    • أبحاث الجينوم البشري
    • استرداد المعلومات
    • أنظمة الاتصالات

ومن البيانات العلمية تجدر الإشارة إلى مشروع “الجينوم البشري” (Human Genome) الذي جمع عدة جيجابايت من البيانات من الشفرة الوراثية أو الكود الجيني. فتعد “شبكة الويب العالمية” (World Wide Web) مثالا آخر من المصادر البيانات التي تتضمن الميليارات من الصفحات ذات المعلومات النصية والوسائط المتعددة. ويزور هذه الصفحات الملايين من المستخدمين. ففي مثل هذه الحالة، تعتبر تحليل مجموعة البيانات العملاقة بطريقة مفهومة وعملية، قضية مثيرة للتحدي.

ويحل التنقيب في البيانات هذه القضية من خلال توفير تقنيات وتطبيقات لأتمتة التحاليل وفحص مجموعة البيانات العملاقة والمعقّدة. تُتبع الأبحاث في مجال التنقيب في البيانات أو تعدين البيانات على نطاق واسع في مجالات شتى مثل الإحصاء وعلم الحاسوب و “التعلم الآلي” (Machine Learning)، “إدارة قواعد البيانات” (Database Management) و “تصور البيانات (Data Visualization)”. وتم تطوير تقنيات التنقيب في البيانات والتعلم حتى في مجالات أخرى غير الإحصائيات وتجدر الإشارة منها إلى التعلم الآلي و “معالجة الإشارة” (Signal processing).

ما هو التنقيب في البيانات؟

يطلق التنقيب في البيانات أو تعدين البيانات على مجموعة من التقنيات القابلة للتنفيذ على قواعد البيانات العملاقة والمعقّدة بهدف البحث عن الأنماط المخفية والمثيرة للانتباه المخبأة بين البيانات. وتقنيات التنقيب في البيانات تكاد تكون مكلفة على الدوام. إن علم التنقيب في البيانات متعدد التخصصات يدرس الأدوات والمنهجيات والنظريات التي تستخدم لكشف الأنماط الموجودة في البيانات وتعد خطوة أساسية نحو اكتشاف العلم. هناك أسباب عديدة حول ماهية تحول التنقيب في البيانات إلى مجال دراسي ذات أهمية. سنذكر فيما يلي بعض هذه الأسباب.

التنقيب في البيانات

1. النمو المتفجر للبيانات على نطاق واسع من مجالات الصناعة والجامعة المدعوم من قبل العناصر الآتية:

  • أجهزة التخزين الأرخص عن الماضي وذات سعة غير محدودة
  • تواصلات أسرع باتصالات أسرع
  • أنظمة إدارة قواعد البيانات ودعم أفضل للبرامج

2. قوة المعالجة الحاسوبية التي تتزايد بسرعة

بهذا الحجم الضخم والمتنوع من البيانات الموجودة، ستساعد تقنيات التنقيب في البيانات على تعدين البيانات.

يقول جياوي هان عالم البيانات ومؤلف كتاب “التنقيب في البيانات، المفاهيم والتقنيات” (Data mining: Concepts and Techniques) في هذا الصدد:

“… نتيجة لذلك، تحولت البيانات المتجمّعة في مستودعات البيانات إلى مقابر للبيانات؛ … ، يتطلب الثقب المتزايد بين البيانات والمعلومات، التطوير المنهجي لأدوات التنقيب في البيانات التي تتمكن من تحويل مقابر البيانات إلى سبائك ذهبية”.

تُتاح العديد من تقنيات التنقيب في البيانات المتنوعة. وتتضمن تحليل الانحدار وصولا إلى التقنيات المعقدة للتعرف على الأنماط والباهضة الثمن المتجذرة في علوم الحاسوب. إن الهدف الرئيسي من تقنيات تعلم التنقيب في البيانات هو تنفيذ التنبّؤ، إلا أنه ليس الهدف الوحيد من التنقيب في البيانات.

تاريخ التنقيب في البيانات

منذ عام 1960، استخدم خبراء الإحصاء مصطلحات “صيد البيانات” (Data Fishing) و “تجريف البيانات” (Data Dredging) للإشارة إلى أنشطة “تحليل البيانات” (Data Analytics). واستُخدم مصطلح “التنقيب في البيانات” حوالي عام 1990 في مجتمع قواعد البيانات واكتسب شعبية مثيرة للانتباه. وإن “اكتشاف المعرفة من البيانات” (Knowledge Discovery From Data) هو العنوان الأكثر ملاءمة لعملية التنقيب في البيانات.

التعلم الإحصائي و “تحليل البيانات” و “علم البيانات” (Data Science) تعدّ من المصطلحات الأخرى التي تستخدم بنفس معنى التنقيب في البيانات، إلا أن هناك اختلافات طفيفة بين هذه المصطلحات في بعض الأحيان. للتعرف على هذه المصطلحات، نوصي بقراءة “علم البيانات، تحليل البيانات، التنقيب في البيانات، و التعلم الآلي-الفروق والتشابهات”. وكذلك، للدراسة المفصلة حول تاريخ التنقيب في البيانات، نقترح المقالة “أساسيات التنقيب في البيانات”.

البحث وتطوير المنتج الطويلة هي عملية يستخدم فيها التنقيب في البيانات. لذلك، بدأ إكمال عملية التنقيب في البيانات أيضا منذ استيداع بيانات الأعمال على الكومبيوتر. فيتيح التنقيب في البيانات إمكانية للمستخدمين الحركة ما بين البيانات في الوقت الحقيقي. ويستخدم التنقيب في البيانات في مجتمع الأعمال لأنه يستخدم ثلاث تكنولوجيات ناضجة وهي:

  • تجميع البيانات العملاقة
  • حواسيب قوية متعددة المعالجات
  • خوارزميات التنقيب في البيانات

لماذا التنقيب في البيانات؟

مع نمو تزايد الاهتمام بالتنقيب في البيانات، السؤال “لماذا التنقيب في البيانات؟” يظل يطرح نفسه. ردّاً على هذا السؤال، يجب القول بإن هناك تطبيقات عديدة للتنقيب في البيانات. وبالتالي فإنه مجال واعد بالنسبة للجيل الحالي، إذ اجتذب اهتماما كثيرا لصناعات ومجتمع المعلومات.

على الرغم من النطاق الواسع للبيانات، إلا أن هنالك حاجة ماسة إلى تحويل مثل هذه البيانات إلى معلومات ومعرفة.

وبالتالي، يستفيد البشر من المعلومات والمعرفة لنطاق واسع من التطبيقات، من معرفة الأمراض وكشف الاحتيال، وصولا إلى تحليل الأسواق وتنبؤ سعر الأسهم. وأخيرا ينبغي القول بأن “الحاجة أم الاختراع”. وندرس فيما يلي بعض استخدامات التنقيب في البيانات.

التنبؤ الآلي للاتجاهات والسلوكيات

يستخدمون التنقيب في البيانات لأتمتة العمليات وتنفيذ التنبؤ في قواعد البيانات العملاقة. فأصبح الرد على الأسئلة التي تحتاج إلى تحاليل واسعة، ممكناً باستخدام تحليل البيانات. إن التسويق المستهدف مثال من التسويق التنبئي. وكذلك، ويتم استخدام التنقيب في البيانات لإرسال رسائل البريد الإلكتروني الترويجية المستهدفة والمحسّنة. وفي الواقع، تستخدم في رسائل البريد الإلكتروني الترويجية بهدف تعظيم العائد على الاستثمار (Return On Investment). ومن قضايا التنبؤ الأخرى تجدر الإشارة إلى التنبؤ بالإفلاس. وكذلك تحديد أقسام المجتمع التي من المحتمل أنها تظهر ردود فعل مماثلة لحدث ما، يعد ضمن قابليات التنقيب في البيانات.

التنقيب في البيانات

الكشف الآلي للأنماط غير المعروفة سابقا

يتم استخدام أدوات التنقيب في البيانات لدراسة قواعد البيانات وكذلك لكشف الأنماط غير المعروفة سابقا. إن تحليل بيانات البيع مبيعات التجزئة، مثالا جيدا على كشف الأنماط. إذ يتم ذلك بهدف تحديد المنتجات غير المرتبطة التي عادة تشترى معا. أيضا، هنالك قضايا أخرى في كشف الأنماط، منها تحديد المعاملات الاحتيالية في البطاقات الائتمان. في مثل هذه الحالات، يمكن لنمط البيانات غير المعروفة والجديدة الإبلاغ عن سرقة معلومات بطاقة الائتمان وأنواع الاحتيالات الأخرى.

أنواع مصادر البيانات

سندرس في هذا القسم، أنواع مصادر البيانات التي تنتج وتستودع حجما كبيرا من البيانات بشكل يومي. في هذا الصدد، نوصي المهتمين بقراءة “مجموعة البيانات المجانية والقابلة للتحميل لعلم البيانات والتعلم الآلي“.

المعاملات التجارية

في الأعمال التجارية الحالية، تُحتفظ معظم المعاملات إلى الأبد. وتتضمن العديد من هذه المعاملات الوقت والمعاملات الداخلية مثل مشتريات والمعاملات المصرفية والأسهم وما إلى ذلك.

البيانات العلمية

المجتمعات المتنوعة في كافة أنحاء العالم، يقومون بجمع كميات هائلة من البيانات العلمية. فتحتاج هذه البيانات إلى التحليل. في حين أن هنالك حاجة إلى حفظ بيانات أحدث وبسرعة أكثر. يساعد التنقيب في البيانات في المجالات العلمية المختلفة على تحليل البيانات واكتشاف المعرفة منها.

البيانات الشخصية والطبية

يمكن نجميع وتحليل البيانات الخاصة أو العامة، والشخصية أو الحكومية بأهداف مختلفة. ويحتاجها الأفراد والمجموعات المختلفة وعندما يتم جمعها، فإن اكتشاف المعلومات منها ممكن أن يكشف عن قضايا مهمة وتجدر الإشارة إلى معلومات المعاملات المصرفية للشخص أو المستندات الطبية ضمن البيانات الشخصية. يلعب التنقيب في البيانات الطبية دورا مهما في الوقاية من الأمراض واكتشافها وحتى علاجها.

صور ومقاطع المراقبة

مع انخفاص سعر الكاميرات ووجود الكاميرات في الهواتف الذكية، يتم إنتاج كمية كبيرة من بيانات الوسائط المتعددة في كل لحظة. ومن جانب آخر، يتم جمع كمية كبيرة من الصور والمقاطع عبر كاميرات المراقبة. ويتم استخدام هذه البيانات لأنواع تحليل البيانات.

التنقيب في البيانات

المنافسات الرياضية

هناك كمية كبيرة من البيانات والإحصاءات الخاصة بالمنافسات الرياضية وتعتبر قابلة للجمع والتحليل، منها معلومات الألعاب واللاعبين.

الوسائط الرقمية

من الأسباب عديدة أدت إلى تفجير مستودعات البيانات الرقمية، هي الماسحات الضوئية رخيصة الثمن، كاميرات الفيديو سطح المكتب والكاميرات الرقمية. ومن جانب آخر، بدأت الشركات الكبيرة مثل NHL و NBA عملية تحويل مجموعاتها إلى بيانات رقمية، وتبرز كهذا أعمال ضرورة تحليل كمية كبيرة من البيانات.

العوالم الافتراضية

هنالك أنظمة “التصميم بواسطة الحاسب” (Computer Aided Design) عديدة للمهندسين المعماريين. تستخدم هذه الأنظمة لإنتاج كمية كبيرة من البيانات. علاوة على ذلك، يمكن استخدام بيانات “هندسة البرمجيات” (Software Engineering) كمصدر للبيانات إلى جانب العديد من الأكواد لمهام مختلفة.

البيئة الافتراضية

اليوم، هنالك تطبيقات عديدة تستخدم بيئات ثلاثية الأبعاد افتراضية. أيضا، يجب وصف البيئات والأشياء التي تتضمنها،  بلغة خاصة مثل “لغة نمذجة الواقع الافتراضي” (Virtual Reality Modeling Language | VRML).

التقارير والمستندات النصية

العلاقات المبنية على التقارير والمستندات تأخذ إطارا نصيا في كثير من الشركات. فإنها قابلة للحفظ لتنفيذ التحاليل المستقبلية. ومن جانب آخر، هناك كميات كبيرة من البيانات المتاحة على الويب على شكل بيانات نصية غير منظمة والتي تزداد حجمها يوميا.

عملية التنقيب في البيانات

إن التنقيب في البيانات الذي يُعرف أيضا بـ “اكتشاف المعرفة من البيانات” (Knowledge Discovery From Data | KDD)، هو عملية استخلاص المعلومات والمعرفة من البيانات المتاحة في قاعدة البيانات أو مستودع البيانات.

التنقيب في البيانات

تتكون عملية التنقيب في البيانات من عدة خطوات. تبدأ هذه العملية من البيانات الأولية وتستمر حتى تكوين معرفة جديدة. تتكون العملية التراجعية للتنقيب في البيانات من الخطوات الآتية:

  • تنظيف البيانات (Data Cleaning)
  • دمج البيانات (Data Integration)
  • اختيار البيانات (Data Selection)
  • تحويل البيانات (Data Transformation)
  • التنقيب في البيانات (Data Mining)
  • تقويم الأنماط (Pattern Evaluation)
  • تقديم المعرفة (Knowledge Representation)

تنظيف البيانات

في هذه المرحلة تحذف الضوضاء من المجموعة ويتم اتخاذ إجراءات لـ “القيم المفقودة” (Missing Values). لقراءة المزيد، نقترح “تنظيف البيانات (Data Cleaning) في البايثون بواسطة NumPy و Pandas- الدليل الشامل”.

دمج البيانات

في معظم أمور التنقيب في البيانات، يتعين تحليل البيانات من مصادر البيانات المختلفة دفعة واحدة. قواعد بيانات الفروع المختلفة لسلسلة متاجر في المدن والدول في أنحاء العالم، خير مثال على ذلك. لتحليل هذه البيانات يجب جمعها بشكل متكامل في “مستودع للبيانات” (Date Warehouse). ويتم تنفيذه في مرحلة دمج البيانات.

اختيار البيانات

في مرحلة اختيار البيانات، يجب استرداد البيانات ذات الصلة بتحليل الاختيار من مجموعة البيانات، لإجراء التحاليل. لقد ناقشنا هذا الموضوع بالتفصيل في مقالة “اختيار الميزة” (Feature Selection) في البيانات عالية الأبعاد- الدراسة الذاتية البسيطة. وكذلك، نقترح عليك قراءة “خوارزمية تخفيض الأبعاد t-SNE بأمثلة من بايثون _ تعليم تطبيقي”.

تحويل البيانات

تحويل البيانات يعد تقنية لتثبيت البيانات أيضا. في هذه المرحلة تتحول البيانات المختارة إلى نموذج آخر، مما يساعد في تبسيط وتحسين سلامة ودقة التنقيب. لقد ناقشنا بعض التقنيات الشائعة والمتداولة في تقييس البيانات في مقالة “تقنيات تقييس البيانات”.

ونوصي بقراءة المقالات ذات الصلة:

  • البايثون وتعدين وتحويل وتحميل البيانات (ETL)- الدليل الكامل
  • استخلاص (Extraction) وتحويل (Transformation) البيانات في البايثون-الدليل الشامل
  • تحويل البيانات غير المنظمة إلى المنظمة باستخدام البايثون و API خرائط جوجل – الدليل الكامل

التنقيب في البيانات

في هذه المرحلة من التقنيات الذكية لاستخلاص الأنماط المهمة والمثيرة للانتباه من بين البيانات. لقد شرحنا بعض هذه التقنيات في المقالات الآتية:

  • نهج ذكاء السرب باستخدام مجتمع النحل الاصطناعي لحل مشاكل التحسين
  • الدعم، الثقة، التعزيز والرأي- المفاهيم التطبيقية في استكشاف القواعد النقابية
  • خوارزمية أبريوري (Apriori) مع كودات التنفيذ في البايثون-استكشاف القواعد النقابية في عملية التنقيب في البيانات
  • خوارزمية أبريوري (Apriori) واستكشاف الأنماط المتكررة في التنقيب في البيانات- مع كودات التنفيذ في R
  • خوارزمية أبريوري (Apriori) – دليل بسيط وسريع

تقويم الأنماط

في هذه العملية يتم تقويم الأنماط التي المستحصلة من الخطوة السابقة من عدة جوانب مثل الدقة والسلامة وقابلية التعميم وما إلى ذلك.

تقديم المعرفة

تعد تقديم المعرفة، المرحلة النهائية لعملية التنقيب في البيانات. ويتم فيها تقديم المعرفة المستكشفة بطريقة مفهومة للمستخدم. ففي هذه الخطوة الحاسمة والمهمة جدا، تستخدم تقنيات التصوير، مما يساعد المستخدمين في فهم وتفسير نتائج التنقيب في البيانات.

مشاكل التنقيب في البيانات

هنا، سنشرح من دليل التنقيب في البيانات بعض الأمور الشاملة التي نواجهها في التنقيب في البيانات.

مشاكل التنقيب في البيانات المنهجية

تتعلق هذه المشكلة بتقنيات المتاحة للتنقيب في البيانات وقيودها مثل التكيف. في الواقع، تقديم التقنيات الأقل تعقيدا والقابلة للتعميم وفي نفس الوقت تتمكن من العمل بكمية كبيرة من البيانات، احد القضايا المتعلقة بموضوع المنهجية في التنقيب في البيانات.

مشاكل الكفاءة

توجد تقنيات الذكاء الاصطناعي والإحصائية المتعددة المستخدمة في التنقيب في البيانات والتي لم تصمَّم معظمها لمجموعة من البيانات العملاقة. فهذه مشكلة يواجهها التنقيب في البيانات هذه الأيام. لأن حجم البيانات تجاوزت التيرابايت والبيتابايت وإكسابايت. ويمكن القول أن هذا الأمر يؤدي إلى زيادة عدد القضايا المتعلقة بقابلية التوسع وكفاءة تقنيات التنقيب في البيانات ويخلق الحاجة إلى التقنيات التي يمكنها معالجة البيانات الضخمة بشكل ملحوظ.

في مثل هذه الظروف وعلى الرغم من إظهار بعض الأمور مثل الاكتمال وطريقة اختيار العينات، يمكن الاعتيان (أخذ العينات) بدلا من مجموعة البيانات بأكملها. إن التحديث التدريجي والبرمجة المتوازية الأمر الآخر في قضية الكفاءة. يستخدم التوازي لحل مشكلة الحجم، حيث إذا تقسمت مجموعة البيانات إلى مجموعات فرعية، يمكن دمج النتائج لاحقا. التحديث المستمر من أجل دمج النتائج عبر “التنقيب المتوازي” (Parallel Mining) أمرا مهم جدا. تتاح البيانات الجديدة دون الحاجة إلى إعادة تحليل مجموعة البيانات بأكملها.

مشاكل مصادر البيانات

هناك العديد من القضايا المتعلقة بمصادر البيانات المطلوبة/ المستخدمة للتنقيب في البيانات. بعض هذه القضايا التطبيقية مثل تنوع البيانات والجزء الآخر هو القضايا الأكثر فلسفية مثل تراكم البيانات. واضح أن حاليا هناك حجما كبيرا من البيانات أكثر مما يمكن إدارته. ومن جانب آخر لا يزال البشر منشغلا في تجميع البيانات حتى بمعدل أعلى. لقد كان التوسع في أنظمة إدارة قواعد البيانات أحد العوامل التي ساهمت بشكل ملحوظ في نمو تجميع البيانات.

يمكن أن تحتاج البيانات ومصادر البيانات المتنوعة لخوارزميات ومنهجيات مختلفة. في الوقت الحاضر، يتم التركيز على قواعد البيانات العلائقية ومستودعات البيانات. وتتضمن أدوات التنقيب في البيانات نطاقا واسعا لأنواع البيانات. علاوة على ذلك، إن مصادر البيانات في المستوى الهيكلي والدلالي، تجلب تحديات ذات أهمية. ولا يتعلق ذلك بمجتمع قواعد البيانات فقط، بل يتعلق بمجتمع التنقيب في البيانات أيضا.

مصطلحات فنية للـ التنقيب في البيانات

سنشرح فيما يلي بعض المفاهيم والمصطلحات الشائعة.

الترقيم

المدخلات X: غالبا ما يكون X متعدد الأبعاد. ويتم تحديد كل بعد من أبعاد X بشكل Xj والذي يشير إلى ميزة أو متغير (متنبئ) مستقل أو متغير (اعتمادا على المجال الدراسي الذي ينتمي إليه الباحث). والناتج Y يسمى متغير الاستجابة أو المتغير التابع. الجواب متاح فقط عندما يكون التعلم تحت الإشراف.

طبيعة مجموعة البيانات

الخصائص الموجودة في مجموعة البيانات من أنواع مختلفة. وتُصنف هذه الخصائص على النحو الآتي:

  1. البيانات الكمية (Quantitative): إن القياسات أو الأعداد المخزنة كقيم رقمية هي البيانات الكمية وتجدر الإشارة إلى درجة حرارة وطول الأفراد ضمن هذه الأشياء.
  2. البيانات النوعية (Qualitative): إن المجموعات أو الفئات مثل فئة الدرجات العلمية (الديبلم، البكالوريوس، الماجستير والدكتوراه) أو مجموعة الألوان (الأصفر، الأحمر والأزرق) تتصنف في هذا النوع.
  3. البيانات الرتبية (Ordinal): لهذا النوع من البيانات ترتيب طبيعي ومقاسات القميص (S،M،L،XL،XXL) والدرجات الدراسة (الإبتدائية، الثانوية الاولى، الثانوية الثانية، البكالوريوس، الماجستير والدكتوراه) تعد ضمن البيانات الرتبية.
  4. البيانات الاسمية (Nominal): تعد أسماء الفئات مثل الحالة الزوجية، الجندر والألوان من البيانات الاسمية.
  5. البيانات الرقمية (Numeric): تنقسم البيانات الرقمية إلى فئتين: القياس الفتري والقياس النسبي. تقاس بيانات القياس الفتري بناء على قياس الوحدات متساوية الحجم. ترتَّب كمية الخصائص الرقمية ويمكن أن تكون موجبة أو صفرية أو سالبة. البيانات النسبية ذات خصيصة رقمية بصفر مطلق. إذا كانت الكميات نسبية، فيمكن أن نتحدث عن نسبة القيم ببعضها البعض. إضافة إلى ذلك، إن هذه الكميات قابلة للإفراز ويمكن حساب الفرق بينها وبين الوسيط والوسط الحسابي والمنوال.

للقراءة بدقة أكثر حول ماهية الخصيصة، وأنواع الخصائص نوصي قراءة مقالة “أنواع الخصائص ومفهوم ناقل الميزة في التنقيب في البيانات”.

التعلم الخاضع للإشراف مقارنة بالتعلم غير الخاضع للإشراف

التنقيب في البيانات

في حالة وجود Y في بيانات التدريب، تقنية التعلم تكون “التعلم الخاضع للإشراف” وفي حالة عدم وجود Y (أو عند غض النظر عنه)، تقنية التعلم تكون “التعلم غير الخاضع للإشراف”. التعلم الخاضع للإشراف نوعان:
الانحدار: إجابة Y كمية.
التصنيف: نوع متغير الإجابة كيفي أو اسمي.

الانحدار:
هل Y كمي أو نوعي؟
إذا كان Y كميا أو اسميا، فهو مجرد علامة. يمكن تعريف مجموعة العلامات على النحو الآتي:
G ∈ G = {1, 2, … , K}
عندما يكون Y كميا، فخوارزمية التعلم هي مشكلة الانحدار. وإذا كان Y نوعيا، فخوارزمية التعلم تكون مشكلة التصنيف.
من الناحية المثالية، تتمتع خوارزمية التعلم على المواصفات الآتية:

  • توفر الخوارزمية التجهيز (Fit) جيدة للبيانات. نظرًا لأن طُوّر النموذج باستخدام بيانات التدريب، فمن المتوقع أن يجهز بيانات التدريب جيداً.
  • الخوارزمية قوية (Robust) قدر الإمكان ونظرا لأنها تتمتع بقدرة تنبؤية عالية فمن المتوقع أن تقدم أداءً جيدًا لبيانات الاختبار.

تم تطوير نموذج تنبؤ جيد باستخدام بيانات التدريب وينبغي أن يقدم أداء جيدا في بيانات الاختبار. قد يبدو أنه صحيح افتراضيا، لكنه ليس صحيحا! عند ملاءمة بيانات التدريب، لا ينبغي أن يكون النموذج قريلا جدا من البيانات، لأنه في المستقبل وعند ملاحظة بيانات جديدة، ليس هناك ضمان بأنها ستكون نسخة طبق الأصل من بيانات التدريب. ولذلك، هناك حاجة إلى أن يكون النموذج قويا. لذلك، قد يكون نموذج أبسط، أكثر قوة مقارنة بنموذج معقد. أي أنها ذات قوة تنبؤية أعلى. وقد يتبع نموذج معقد عن كثب النموذج الموجود في البيانات، مما يؤدي إلى تقديم أداء ضعيف جدا في بيانات الاختبار. ومن ناحية أخرى، لا يلائم النموذج البسيط بيانات التدريب بعدوانية. فلذلك، دائما ما هنالك “مفاضلة” (trade-off) تظهر من خلال المفاهيم المعبر عنها في قسم “خطأ التدريب مقابل خطأ الاختبار”. لقد خصصنا المقالات أدناه لدراسة أكثر دقة وتفصيلا في مجال تقنيات التعلم.

التعلم غير الخاضع للإشراف

  • آلة ناقلات الداعم – بلغة بسيطة
  • آلة ناقلات الدعم – بواسطة كتابة الكود في البايثون و R
  • خوارزمية K – أقرب جار باستخدام كودات بايثون
  • استنتاج القوانين الأساسية في التنقيب في البيانات – تقنية One Rule باستخدام شبه الكود
  • أفضل خوارزميات التنبؤ في التعلم الآلي (Machine Learning)
  • مصفوفة التشابه (Similarity) والمسافة (Distance) باستخدام الأكواد الحسابية في R – دليل تفصيلي
  • إنتاج الشبكة العصبية (Neural Network) في البايثون – بلغة بسيطة
  • التعلم الخاضع للإشراف (Supervised Learning) باستخدام البايثون – الدليل الشامل

التعلم الخاضع للإشراف

  • العنقدة وتفسير نتائجه
  • حل مسائل العنقدة باستخدام خوارزمية مجتمع النحل الاصطناعي
  • مصطلحات العنقدة التطبيقية – بلغة بسيطة
  • عنقدة K المتوسط (k-means Clustering) – ضمن أكواد R
  • العنقدة الهرمية (Hierarchical Clustering) – ضمن أكواد R
  • التعلم غير الخاضع للإشراف (Unsupervised Learning) باستخدام البايثون – الدليل الشامل والتطبيقي

الأساليب الإحصائية

خطأ التدريب مقابل خطأ الاختبار

خطأ التدريب يعكس ما إذا تم تلاؤم البيانات أم لا. وخطأ الاختبار يظهر ما إذا يعمل المتنبئ في العمل على البيانات أم لا. فلا يوفر النموذج بأدنى خطأ التدريب بالضرورة أدنى خطأ في الاختبار.

التحيز مقابل التباين

إن “التحيز” (Bias) مقياس لمدى قرب النموذج من الواقع. عندما يُقدم نموذجا خطيا، وتكون العلاقة الحقيقية بين X و Y تربيعية، فإن النموذج المقدم يكون متحيزا. وإذا طُبّقت خوارزمية مشابهة للتعلم على عدد من البيانات التدريبية المستقلة، فستُحصل تقديرات تنبؤية مختلفة. وإذا اعتُبر متوسط هذه المتنبئين مشابها القيمة الحقيقية للإحصاء، فسيكون التنبؤ غير متحيز. وعندما يحتوي النموذج على عدد أكبر من المعاملات والعلاقات المعقدة، فسيميل التحيز إلى التقليل.

تحتوي النماذج المعقدة مقابض ضبط لتضبطها جيدا، لكن العثور على الموضع الصحيح لمزيد من المقابض يكون أكثر صعوبة. إن التحيز هو الجزء المنهجي للاختلاف بين النموذج والواقع. ومن ناحية أخرى، إن التباين هو مقياس للكميته التي يخمنها متنبئ الفروق عندما تُستخدم بيانات التدريب المختلفة. إن إيجاد توازن بين التحيز والتباين هو الهدف من تطوير نموذج متنبئ مثالي، لأن سلامة النموذج تتأثر بكليهما.

التجهيز مقابل فرط التجهيز

نموذج “فرط التجهيز” (Overfitting) يتبع بيانات التدريب عن كثب. قد يكون لهذا النموذج بعض التحيز، لكنه سيكون مرتفع التباين، مما يدل على أن المتنبئ يعمل جيدا على بيانات التدريب، ولكنه يعمل سيئا على بيانات الاختبار. من أجل فهم أفضل حول هذا الموضوع المهم جدا في مجال التنقيب في البيانات، نوصي بقراءة مقالة “فرط التجهيز (Overfitting)، قلة التجهيز (Underfitting) والتجهيز المناسب – المفهوم والتعريف”.

المخاطرة التجريبية مقابل تعقيد النموذج

إن “المخاطرة التجريبية” (Empirical Risk) هي معدل الخطأ بناء على بيانات التدريب. وإذا كان النموذج أكثر تعقيدا، فإنه يميل إلى أن يكون لديه خطأ تجريبيا أقل، ولكنه أقل قوة في نفس الوقت، أي أن له تباين أكثر. إن بعض أساليب التصنيف مثل “آلة ناقلات الدعم” (Support Vector Machine) توازن بين المخاطرة التجريبية وتعقيد النموذج.

ملاحظة: من المهم أن نلاحظ أن تلخص كل المفاهيم المذكورة أعلاه في مفهوم واحد وهو: “إن خوارزمية التعلم يجب أن تحقق توازنا جيدا بين التعقيد والقوة لتعمل على بيانات التدريب ونماذج الاختبار على أفضل نحو”.

سنقدم فيما يلي صورة مثيرة عن “عناصر التعلم الإحصائي” والتي تحاول شرح الفكرة المذكورة أعلاه. تجدر الإشارة إلى أن الرسم البياني الثابت يحاول من أجل التقاط شيئ ديناميكي للغاية.

التنقيب في البيانات

تقع “الحقيقة” (Truth) في مركز الدائرة الزرقاء وتحاول عملية التنقيب في البيانات الوصول إليها. إن ما يقدم للمتنبئ عبارة عن مجموعة من بيانات النموذج التي لها “توزيع تجريبي” (Empirical Ristribution) ومن المحتمل أن تقع في أي نقطة من الدائرة. يقارَن النموذج الكبير (الأكثر تعقيدا) بالنموذج الأصغر (الأكثر محدودية). وتشير الدائرتان الصفراوان إلى نطاق النماذج المقدرة والمكتسبة تحت بيئتين النموذج. ففي بيئة النموذج الأكبر يظهر نموذج المتوسط المستحصل بمركز الدائرة الصفراء الكبيرة.

الفرق بين هذا المركز والحقيقة، هو أن التحيز أكبر بالنسبة لمساحة النموذج. وبالمثل، أن الفرق بين الحقيقة ومركز الدائرة الصفراء الصغيرة، هو أن التحيز أصغر بالنسبة لمساحة النموذج. إن مساحة النموذج الأصغر لها تحيز أكبر. ومن جانب آخر، أن النموذج الناتج من المساحة الأصغر عن المساحة الأكبر، لا يختلف كثيرا وبالتالي يكون التباين أصغر. على الرغم من أن مساحة النموذج الأكبر أفضل في المتوسط (التحيز الأصغر)، لكنه من المرجح أن يكون ضعيفا في نموذج معين، لأن التباين أعلى من المتوسط.

نطاق التعلم

من منظور تاريخي، هنالك طرفان لنطاق التعلم. طرف يقع في النماذج البسيطة المحددة للغاية وطرف آخر يقع في النماذج المعقدة للغاية، يمكن أن تكون في غاية المرونة. في مر السنين قامت الأنشطة البحثية في مجال التنقيب في البيانات بتحسين التوازن بين التعقيد والمرونة. فمن ناحية أُضيفت إلى النماذج المعقدة من خلال وضع القواعد، ومن ناحية أخرى، صُمّمت إضافة (plugin) النموذج للنماذج البسيطة.

التنقيب في البيانات

طبيعة قضية التنقيب في البيانات

التقنيات الكمبيوتريةمنحت قوة غير مسبوقة للتنقيب في البيانات، لكنها في نفس الوقت، زادت من فرصة استخدام بعض التقنيات دون التفكير في تطبيقها على الأمور. لا تأتي النظرة التحليلية مع أي برنامج تطبيقي، فالبرنامج التطبيقي يعزز النظرة التحليلية. واستخدام الأعمى من برنامج تطبيقي لكمية كبيرة من السجلات بالضرورة لا يوفر نظرة على البيانات. وبدلا من ذلك، من الممكن أن تُفقد بعض الحقائق أيضا.

ستقدم فيما يلي، لمحة عن تقنيات التنقيب في البيانات الخاضعة للإشراف التي ترتكز على إجراء التنبؤات. قضية التنبؤ ليست القضية الوحيدة التي يمكن أن يحلها التنقيب في البيانات. فيعتبر التنقيب في البيانات علما متعدد الفروع ويتضمن أساليبا تُطبّق من خلال توسيع نطاق البيانات في البيانات عالية الأبعاد وتظفقات البيانات عالية المستوى والتنقيب في البيانات الموزع والتنقيب في إعدادات الشبكة والعديد من المجالات الأخرى.

يوضح الرسم البياني أدناه أربعة جوانب مهمة لنموذج التعلم الآلي. في قضية التعلم (التنبؤ)، توجد مجموعة من الخصائص X ,والاستجابة Y. عادة ما X يكون ناقلا. وفي التعلم الخاضع للإشراف عادة ما Y يكون عددا حقيقيا يمكن أن يكون متغيرا كميا أو نوعيا للمتغيرات الفئوية. ويعتبر “المتنبئ” (Predictor) تابع F الرياضي الذي يعين X على Y.

التنقيب في البيانات

كيف تجد التابع F؟

هنالك مناهج مختلفة لحل هذه المسألة  فعلى سبيل المثال، ينفذ الباحثون في مجال الطب تنبؤاتهم بناء على الخبرة الفردية ومعرفة المجال. بمعنى آخر، يسأل الأطباء مرضاهم عن علامات الأمراضهم، ثم يشخصوا الأمراض بناء على خبراتهم. النوع الآخر للمناهج تماما “يعتمد على البيانات” (data-driven). وفي هذا الصدد، تنتج خوارزميات التعلم تنبؤات ما.

إن المنهج المدروس في التنقيب في البيانات “يعتمد على البيانات” تماما. تتمثل الخطوة الأولى في كل عملية بناء على إنشاء نموذج فهم البيانات الذي يُجرى بيانيا أو تحليليا. إذا كانت البيانات معقدة، فإن دمج العمليات المرئية والتحليلية تتأتي بنتيجة أفضل. وعادة ما تسمى هذه الخطوة “تحليل البيانات الاستكشافي” (Exploratory Data Analysis | EDA). إن الخطوة الثانية هي إنشاء وتقويم نموذج (مجموعة من النماذج المرشحة) على البيانات.

الجزء الذي يستخدم لإنشاء النموذج يسمى نموذج التدريب (مجموعة التدريب أو بيانات التدريب) والجزء الآخر يسمى نموذج الاختبار (مجموعة الاختبار أو بيانات الاختبار). يستخدم نموذج الاختبار لتطوير العلاقة بين X و Y والنموذج وتقدّر المعلمات بناء على هذه البيانات. تستخدم نموذج الاختبار فقط عند الانتهاء من نموذج ما، بين عدد من النماذج المرشحة القوية. استخدام نموذج الاختبار في عملية إنشاء النموذج ينفي دوره في التقويم النهائي للنموذج.

تستكشف خوارزميات التعلم مجموعة البيانات وتكشف العلاقة بين X و Y. إن ناتج خوارزميات التعلم، دالة تعين X على Y. يطلق على مثل هذا المنهج “التعلم الخاضع للإشراف” (Supervised Learning). وفي خوارزميات “التعلم غير الخاضع للإشراف” (Unsupervised Learning) استجابة Y غير معروفة ولا تؤخذ في الاعتبار عند تطوير الخوارزمية. فيما يبدو أن إنشاء النموذج أمرا بسيطا. بمجرد توفر البيانات، تُطبّق عدة أساليب على بيانات التدريب بمساعدة البرنامج ويحدد النموذج النهائي بعد التحقق من الأداء في بيانات الاختبار. ومع ذلك، من أجل إنشاء نموذج موثوق وآمن، من الضروري فهم خصائص البيانات وأهداف النمذجة. في الواقع، إن الواقع معقد في الأغلب وقد تكون صياغة مسألة عملية باعتبارها مسألة التنقيب في البيانات تحديا أساسيا.

في بعض الأحيان، هنالك البيانات الأولية للتحليل. وفي الحالات الأخرى، يتمتع الباحثون بحرية في تتجميع البيانات. إن تتجميع البيانات ذات الصلة يعد أمرا مكلفا ويتطلب معرفة المجال. بين البيانات الأولية وإنشاء النموذج، هناك خطوة لتبسيط البيانات تسمى “تقليل الأبعاد” (Dimensionality Reduction). في معظم الأحيان، لم تدار البيانات الأولية وهنالك سطوح من المعلومات المخبأة التي ينبغي الكشف عنها قبل الإرسال إلى خوارزمية التعلم.

مزایا وعيوب التنقيب في البيانات

هناك مزايا وعيوب متعددة للتنقيب في البيانات ونشير إلى بعضها فيما يلي.

مزايا التنقيب في البيانات

  • التنقيب في البيانات يُستخدم للبحث عن الاحتيالات المحتملة في البنوك والمؤسسات المالية ويتم ذلك بناء على المعاملات وسلوكيات المستهلكين وأنماط البيانات.
  • يساعد المعلنين على وضع الإعلانات المناسبة على الإنترنت، إذ يتم ذلك في صفحات الويب بناء على خوارزميات التعلم الآلي. هكذا ينفع التنقيب في البيانات العملاء وبائعي المنتجات والخدمات.
  • متاجر التجزئة والمواد الغذائية تستخدم التنقيب في البيانات لترتيب رفوف المتاجر وتحليل سلات شراء الزبائن، مما يساعد في زيادة دخلهم.
  • التنقيب في البيانات يستخدم في مجالات متنوعة منها المعلوماتية الحيوية (bio-informatic) والطب وعلم الوراثة بأهداف مختلفة مثل الوقاية وتشخيص وعلاج الأمراض.
  • تستخدم المنظمات القانونية التنقيب في البيانات لتحديد المشتبه بهم جنائيا

عيوب التنقيب في البيانات

  • تقنيات التنقيب في البيانات ليست سليمة بنسبة 100%. فقد تأتي أحيانا بعواقب خطيرة جدا.
  • يعد العمل مع بعض المنظمات وتقنيات التنقيب في البيانات أمرا صعبا و يتطلب معرفة كبيرة.
  • تؤثر بعض مشاكل التنقيب في البيانات على خصوصية وأمن المستخدمين.

بشكل عام، تجدر الإشارة إلى الآثار الإيجابية والسلبية الآتية للتنقيب في البيانات:

الآثار الإيجابية

  • التنبؤ بالاتجاهات المستقبلية
  • المساعدة في اتخاذ القرارات
  • تحسين دخل المنظمات وخفض تكاليفها
  • تحليل سلة الشراء
  • الكشف عن الاحتيال

الآثار السلبية

  • الخصوصية/ أمان المستخدمين
  • حجم البيانات المفاجئ
  • التكاليف الطائلة في خطوة التنفيذ
  • استخدام المعلومات المحتمل
  • عدم سلامة البيانات المحتمل
  • تطبيقات التنقيب في البيانات

استخدامات التنقيب في البيانات

نظرا لأن البيانات غالبا ما تكون رخيصة جدا وتقنيات تجميع البيانات مؤتمتة بالكامل تقريبا، في العديد من المجالات مثل الأعمال، يعتمد النجاح على الاستخدام الفعال والذكي للبيانات المجمعة. في هذا الصدد، يجب القول أنه يتم بذل الجهود في مجال التنقيب في البيانات في شتى المجالات. الأمثلة التالية لم تظهر إلا بعض مجالات التطبيق المثيرة للاهتمام للتنقيب في البيانات.

كلما زادت العلاقات ما بين الفروع المتنوعة، تطور نطاق التطبيقات وظهرت تطبيقات جديدة. سنقدم فيما يلي بعض تطبيقات التنقيب في البيانات ونشرح بعضها:

  • التجارة الإلكترونية
  • السيارات ذاتية القيادة
  • مخاطر العلاجات الحديثة
  • أبحاث الفضاء
  • الكشف عن الاحتيال
  • تحليل سوق الأسهم
  • تنبؤ الأعمال
  • شبكات التواصل الاجتماعي
  • تحليل العملاء

الأعمال

تجار التجزئة مثل “والمارت” (Walmart) يستخدمون المعلومات للحملات الإعلانية، والتنبؤ بالمناخ والتنبؤ بالبيع ومن ثمّ التنبؤ بارتفاع الأسهم. وتستخدم شركات بطاقات الائتمان سجلات المعاملات لكشف التحايل في استخدام هذه البطاقات بناء على نماذج شراء المستهلكين وحتى لو تغيرت هذه النماذج بشكل جذري، يمكنهم منع الوصول المستهلك إلى البطاقة (يتم ذلك من أجل الحفاظ على أمان المستخدم وإذا تم التأكد من أن نموذج الشراء مرتبط بحامل البطاقة، فسيتم حل مشكلة عدم الوصول إلى البطاقة).

أبحاث الجينوم البشري

  • أثار مشروع الجينوم البشري شعلة علم البيانات وأوظف البيانات لخدمة البشر ومن أجل تطوير الأدوية الجديدة والقضاء على الأمراض. لذلك، هناك الحاجة إلى تحديد الأنماط في البيانات والتي يتم في مجال علم المعلوماتية الحيوية (bioinformatic).
  • يستخدم العلماء البيانات المصفوفة الدقيقة (Microarray) من أجل دراسة الجينات ويُوظف التقنيات المعقّدة لتحليل البيانات لحساب الضوضاء الخلفي وتطبيع البيانات

استرداد المعلومات

  • لقد تراكمت تيرابايتات من البيانات في الإنترنت، ومن هذه البيانات يمكن الإشارة إلى البيانات المنتجة على “الفيس بوك” (Facebook) و “التويتر” (Twitter) و “الإنستغرام” (Instagram) وشبكات التواصل الاجتماعي الأخرى. ويمكن تنقيب هذا المستودع العملاق لأغراض مختلفة، من تغيير الرأي العام والتحكم فيه للتصويت لمرشح معين في الانتخابات (استراتيجية الانتخابات) وصولا إلى تقييم فعالية المنتج (استراتيجية التسويق والمبيعات).
  • الجانب الآخر من وسائل التواصل الاجتماعي هو وجود معلومات الوسائط المتعددة بما في ذلك البيانات المرئية وكذاك البيانات الصوتية وأنواع أخرى من البيانات. وتجدر الإشارة إلى أن التنقيب في البيانات غير العددية والأبجدية ليس بالمهمة السهلة.

أنظمة الاتصالات

يعتبر “تمييز الكلام” (Speech Recognition) أحد المجالات التي تم فيها تطوير التقنيات المهمة لـ “تمييز الأنماط” (Pattern Recognition) وتم نقلها إلى مجالات التطبيق الأخرى. ويعد تحليل الصور مجالا مهما آخر لتطبيقات التنقيب في البيانات وتعتبر تقنيات “تمييز الوجه” (Facial Recognition) نوعا من التدابير الأمنية.

منشور ذات صلة
إنترنت الأشياء (IoT) 8 Minutes

ما هو إنترنت الأشياء (IoT)؟

جاسم ناظري

يتضمن IoT توسيع اتصال الإنترنت إلى الأجهزة التي تتجاوز الأجهزة المعتادة، مثل أجهزة الكمبيوتر المكتبية، وأجهزة الكمبيوتر المحمولة، والهواتف الذكية. يمكن للأجهزة التي تستخدم هذه التقنية الاتصال والتفاعل مع بعضها البعض عبر الإنترنت؛ يمكن أيضًا مراقبتها والتحكم فيها عن بُعد.

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

السلة