إن التنقيب في البيانات عبارة عن مجال علمي سريع النمو والذي يعرف أيضا بـ “اكتشاف المعرفة من البيانات” (Knowledge Discovery From Data | KDD). سنناقش في هذه المقالة أسباب استخدام التنقيب في البيانات وتعريفاته (وفقا لعملية التنقيب في البيانات). إن الغرض من هذه المقالة، هو تقديم نظرة شاملة على التنقيب في البيانات للجمهور.
جدول المحتويات
- لماذا التنقيب في البيانات
- التقدم في عصر المعلومات
- التنقيب في البيانات، نتيجة لتطور تكنولوجيا المعلومات
- ما هو التنقيب في البيانات؟
لماذا التنقيب في البيانات؟
يعيش البشر في عالم تنتج فيه كميات هائلة من المعلومات يوميا. فيعد تحليل البيانات العملاقة حاجة مهمة. فيما يلي سيناقش موضوع كيف يمكن للتنقيب في البيانات أن يوفر الأدوات الضرورية لاكتشاف المعرفة من البيانات. وبعد قراءة هذه المقالة يمكنك بسهولة، فهم أن التنقيب في البيانات هو نتيجة لتطور تكنولوجيا المعلومات.
التقدم في عصر المعلومات
إن القول بأن “البشر يعيش في عصر المعلومات” هو قول مأثور. ولكن الواقع هو أن البشر يعيش في عصر البيانات. كل يوم تتدفق وتُخزّن عدة تيرابايت أو بيتابايت من البيانات في الشبكات الكمبيوترية وأجهزة التخزين المتنوعة والأعمال وعلم الاجتماع العلوم والهندسة والرعاية الصحية والجوانب الأخرى لحياة البشر.

هذا النمو المتفجر في كمية البيانات الموجودة، ناتج عن حوسبة المجتمعات والتطوير السريع لأدوات تخزين وجمع البيانات القوية. وتنشئ الشركات في جميع أنحاء العالم مجموعة بيانات عملاقة تتضمن معاملات المبيعات، بيانات التسويق، أوصاف المنتجات، الإعلانات، السجلات، تقارير الشركات وتعليقات العملاء.
على سبيل المثال، تدير المتاجر الكبيرة مثل وال مارت (Walmart) مئات الملايين من المعاملات في آلاف الفروع حول العالم. وأيضا توفر الأنشطة العلمية والهندسية كمية كبيرة من البيانات بشكل مستمر، باستخدام أجهزة الاستشعار بعيدة المدى وقياس العمليات والتجارب العلمية وأداء الأنظمة والملاحظات الهندسية والمراقبة البيئية. إن الشبكات التي تعمل كعمود فقري للاتصالات العالمية، تحمل يوميا عشرات البيتابايات من حركة البيانات. وفي مجال الرعاية الصحية، تنتج كمية كبيرة من البيانات من المستندات والبيانات المستحصلة من مراقبة المرضى والتصوير الطبي.
تعالج الملايين من عمليات البحث على الويب التي تدعمها محركات البحث، عشرات البيتابايتات من البيانات. أصبحت المجتمعات ووسائل التواصل الاجتماعي، مصادر بيانات فائقة الأهمية تتضمن التصوير الطبي ومقاطع الفيديو والمدونات واتصالات الويب وأنواع الشبكات الاجتماعية الأخرى. ولا حصر لقائمة المصادر التي تنتج كمية كبيرة من البيانات.
إن النمو المتفجر والإتاحة وهيكل البيانات العملاقة، حقا تحول العالم الحالي إلى عصر البيانات. وهناك حاجة ماسة إلى الأدوات القوية ومتعددة الاستخدامات للكشف عن المعلومات الثمينة المكتومة في كم هائل من البيانات ولتحويل مثل هذه البيانات إلى معرفة منظمة. هذه الحاجة أدي إلى ولادة التنقيب في البيانات وهو مجال جديد وديناميكي وواعد. يوفر التنقيب في البيانات فرصة مثالية من أجل رحلة البشر من عصر البيانات الحالي إلى عصر المعلومات التي تحدث.
المثال 1: يحول التنقيب في البيانات كميات هائلة من البيانات إلى المعرفة. ويتلقى محرك البحث (مثل google)، مئات الملايين من الاستعلامات بشكل يومي. يمكن اعتبار كل استعلام على أنه معاملة يصف فيها المستخدم احتياجاته من المعلومات. ما هي المعرفة الفعالة والجديدة التي يكتسبها محرك البحث من مثل هذه المجموعات العملاقة من الاستعلامات المجمعة من المستخدمين بمرور الوقت؟ من المثير للدهشة، أن بعض الأنماط المكتشفة في استعلامات بحث المستخدمين، يمكن أن تكشف عن معرفة قيّمة لا تُكتسب بمجرد دراسة البيانات الشخصية فحسب. على سبيل المثال، تستخدم خدمة “جوجل فلو ترندز” (Google Flu Trends)، مصطلحات بحث معينة لتحديد مدى انتشار الإنفلونزا. عثر هذا النظام على علاقة وثيقة بين عدد الأشخاص الذين تظهر عليهم أعراض الإنفلونزا بالفعل. يظهر النمط عندما تُجمع جميع الاستعلامات المتعلقة بالإنفلونزا. باستخدام بيانات بحث الجوجل، يمكن اكتشاف اتجاهات الإنفلونزا أسرع من أي نظام تقليدي آخر، بأسبوعين. يظهر هذا المثال أنه يمكن تحويل مجموعة ضخمة من البيانات إلى معرفة تحل مشكلة عالمية ما.

التنقيب في البيانات، نتيجة لتطور تكنولوجيا المعلومات
يمكن أن ننظر إلى التنقيب في البيانات على أنه نتيجة للتطور العادي لتكنولوجيا المعلومات. فكما هو واضح في الرسم أدناه، تطورت صناعة قواعد البيانات وإدارة البيانات أثناء تطوير بعض الوظائف الحاسمة، منها جمع البيانات وبناء قاعدة البيانات وإدارة البيانات (بما في ذلك تخزين واسترداد البيانات ومعالجة معاملات قاعدة البيانات) وتحليل البيانات المتقدم (بما في ذلك مستودع البيانات والتنقيب في البيانات). يعد التطور الأولي لآليات جمع البيانات وبناء قاعدة البيانات شرطا أساسيا للتطويرالمستقبلي للآليات الفعالة لتخزين واسترداد البيانات ومعالجة الاستعلامات والمعاملات. اليوم، توفر العديد من أنظمة قواعد البيانات، معالجة الاستعلامات والمعاملات كميزة روتينية. إن التحاليل المتقدمة للبيانات بطبيعة الحال تعد الخطوة التالية.

منذ عام 1980، تطورت تكنولوجيا المعلومات وقواعد البيانات بشكل منهجي، من أنظمة معالجة الملفات البدائية إلى أنظمة قواعد بيانات معقدة وقوية. إن عملية بحث وتطوير أنظمة قواعد البيانات ابتداء من عام 1970، بدأت من أنظمة قواعد البيانات الشبكية والهرمية الأولية إلى أنظمة قواعد البيانات العلائقية، أدوات نمذجة البيانات وأساليب الفهرسة والاستحواذ (التي تُخزّن فيها البيانات في هيكل الجداول العلائقية). إضافة إلى ذلك، في الوقت الحاضر، مُنح المستخدمين وصولا مريحا ومرنا إلى لبيانات، باستخدام لغة الاستعلام وواجهات المستخدم وتحسين الاستعلام وإدارة المعاملات.
الحلول الفعالة لمعالجة المعاملات عبر الإنترنت (Online Transaction Processing | OLTP) والتي يتم فيها التعامل مع الاستعلام على أنه معاملة للقراءة فقط، ساهمت بشكل ملحوظ في تطور واعتماد التكنولوجيا العلائقية على نطاق واسع كوسيلة رئيسية للتخزين والاسترداد والإدارة الفعالة للبيانات العملاقة.
بعد ظهور أنظمة إدارة قواعد البيانات انتقلت تقنية قواعد البيانات نحو تطوير أنظمة قواعد البيانات المتقدمة وتخزين البيانات والتنقيب في البيانات، بغرض التحليل المتقدم لبيانات قواعد بيانات الويب. فإن أنظمة قواعد البيانات المتقدمة، هي نتيجة التقدم في أبحاث قواعد البيانات من منتصف عام 1980م فصاعدا.
مزجت هذه الأنظمة نماذج بيانات جديدة وقوية مثل النماذج العلائقية المطورة، النماذج الموجهة للكائنات، النماذج العلائقية الكائنية، والنماذج الاستنتاجية. لقد ازدهرت “أنظمة قواعد البيانات الموجهة للتطبيق” (Application-oriented database systems) التي تتضمن أنواع قواعد البيانات منها البيئية، والفترية، ومتعددة الوسائط، والفاعلة، والتيارات والاستشعارات، والعلوم والهندسة، وقواعد المعرفة، وقواعد المعلومات المكتبية.
ونمت التحاليل المتقدمة للبيانات منذ عام 1980. والتقدم المستدام والمدهش لتقنيات الأجهزة أدى في العقود الثلاثة الماضية، إلى ظهور أجهزة الكمبيوتر وأجهزة جمع البيانات ووسائط التخزين القوية وميسورة التكلفة. لقد وفرت هذه التقنية، نموا ملحوظا لصناعة المعلومات وقواعد البيانات وكذلك وفرت عددا كبيرا من مستودعات المعلومات وقواعد البيانات من أجل إدارة المعاملات واسترداد المعلومات وتحليل البيانات.

إن بنية مستودع البيانات الناشئة هي “مستودع البيانات” (data warehouse). يتكون هذا المستودع من عدة مصادر بيانات غير متجانسة ومنظمة ضمن مخطط واحد، من أجل تسهيل إدارة اتخاذ القرار. وتتضمن تقنيات قواعد البيانات، تنظيف البيانات وإلغاء التجزئة للبيانات ومعالجة التحليل عبر الإنترنت (OLAP) التي تتضمن أساليب التحليل مع تطبيقات مثل التلخيص والتعزيز والجمع والقدرة على عرض المعلومات من زوايا متعددة.
على الرغم من أن أدوات OLAP تدعم التحليل متعدد الأبعاد واتخاذ القرار، إلا أننا بحاجة إلى أدوات إضافية لتحليل البيانات من أجل التحاليل العميقة مثل أدوات التنقيب في البيانات – التي توفر خدمة التصنيف والعنقدة وتحديد التباعد والفوضى – وتوصيف تغييرات البيانات بمرور الوقت.
لقد تجمعت البيانات العملاقة في أنظمة قواعد البيانات ومستودعات البيانات. وخلال عام 1990، بدأت شبكة الويب العالمية وقواعد البيانات بالظهور. وظهرت قواعد المعلومات العالمية القائمة على الويب مثل WWW وغيرها من أنواع قواعد البيانات غير المتجانسة المتصلة ولعبت دورا مهما في صناعة المعلومات. إن التحاليل ذات الكفاءة والفعالة لأنواع البيانات المختلفة مع تقنيات إلغاء التجزئة واسترداد المعلومات والتنقيب في البيانات وتقنيات تحليل الشبكة المعلوماتية، مهمة مثيرة للتحدي.

باختصار، إن وفرة البيانات إلى جانب الحاجة إلى أدوات قوية لتحليل البيانات، أدت إلى خلق حالة غنية بالبيانات تفتقر إلى المعلومات. والنمو السريع للكميات الهائلة من البيانات المخزنة في مستودع البيانات العملاقة والمتعددة، تفوق قدرة البشر لفهمها من دون أدوات قوية. ونتيجة لذلك، أصبحت البيانات المجمعة في المستودعات الكبيرة، مقابر وأرشيفات للبيانات تُزار في بعض الأحيان. وبالتالي، غالبا ما تُتّخذ القرارات المهمة ليس بناء على البيانات الغنية من المعلومات المخزنة في مستودعات البيانات فحسب، ولكن بناء على رؤى صانعي القرار، لأن لا يملك صانعو القرار أدوات لتعدين المعرفة القيمة الموجودة في البيانات العملاقة.
إن الجهود المبذولة لتطوير الأنظمة الخبيرة والتقنيات القائمة على المعرفة، عادة ما تعتمد على خبراء النطاق أو العملاء الذين يقومون بإدخال المعرفة في قاعدة المعرفة يدويا. ولسوء الحظ، تشتمل إجراءات إدخال المعرفة اليدوية على التحيز والخطأ وفي نفس الوقت تكون باهظة الثمن وتستغرق وقتا كثيرا. إن الفجوة الهائلة بين البيانات والمعلومات أدت إلى دعوة عالمية للتطور المنهجي لأدوات التنقيب في البيانات التي كانت تحول مقابر البيانات إلى سبائك ذهبية.
ما هو التنقيب في البيانات؟
ليس غريبا أنه يمكن تقديم التعريفات العديدة للتنقيب في البيانات كموضوع متعدد الفروع. حتى مصطلح التنقيب في البيانات لا يُظهر حقا جميع المكونات الموجودة في الصورة. إن عملية تنقيب الذهب عن الصخور تسمى تعدين الذهب، لا تعدين الصخور! ولكن يطلق التنقيب في البيانات على عملية تعدين المعرفة عن البيانات. يبدو أن هنالك حاجة إلى عنوان أكثر ملاءمة لهذه العملية. يشير مصطلح “تنقيب المعرفة عن البيانات” بشكل مناسب إلى ما يحدث خلال عملية التنقيب في البيانات، لكنه للأسف طويل جدا. هناك مصطلح أقصر يُستخدم أحيانا بنفس المعنى وهو “التنقيب في المعرفة” والذي قد لا ينقل مفهوم التنقيب في البيانات العملاقة جيدا.

ومع ذلك، فإن “التنقيب” هو مصطلح واضح، ينقل مفهوم عملية اكتشاف مجموعة صغيرة من التفاصيل الدقيقة من بين كميات هائلة من المواد. لذلك، أصبح عنوان التنقيب في البيانات غير المناسب والذي يحتوي مفردتان “البيانات” و “التنقيب”، الخيار المفضل والشائع للناشطين في هذا المجال. وإضافة إلى ذلك، هنالك العديد من المصطلحات الأخرى التي تحمل نفس معنى التنقيب في البيانات، مثل “تنقيب المعرفة عن البيانات” (Knowledge mining from data)، “تعدين المعرفة” (knowledge extraction)، “تحليل البيانات/ الأنماط” (data/pattern analysis)، “علم آثار البيانات” (data archaeology) و “تجريف البيانات” (data dredging).
يستخدم معظم الأشخاص التنقيب في البيانات كمكافئ لاكتشاف المعرفة من البيانات (KDD)، بينما يرى آخرون التنقيب في البيانات كخطوة أساسية في عملية اكتشاف المعرفة من البيانات. يحتوي التنقيب في البيانات، عملية من سبع خطوات، والتي ذُكرت فيما يلي.
- تنظيف البيانات (إزالة الضوضاء والبيانات غير المتسقة)
- إلغاء التجزئة للبيانات (دمج البيانات متعددة المصادر)
- اختيار البيانات (استرداد البيانات المرتبطة بالتحليل من قاعدة البيانات)
- تعيين البيانات (تحويل وتوحيد البيانات في شكل مناسب من أجل التنقيب، عن طريق التلخيص أو عمليات الجمع)
- التنقيب في البيانات (عمليا حاسمة تُطبّق فيها أساليب ذكية لتعدين أنماط البيانات)
- تقويم الأنماط (لتحديد أنماط الموجهة للمعرفة المثيرة حقا، باستخدام مقاييس الإثارة)
- تقديم المعرفة (يستخدم فيها أساليب تقديم وتصوير المعرفة من أجل تقديم المعرفة المنقَّبة)

يطلق على الخطوات الأربع الأولى من هذه العملية، المعالجة المسبقة للبيانات والتي خلالها تُحضّر البيانات للتنقيب. تُنفّذ خطوة التنقيب في البيانات في التفاعل مع المستخدم أو قاعدة المعرفة، إذ تُعرض خلالها الأنماط المثيرة على المستخدم وقد تُخزّن كمعرفة جديدة في قاعدة المعرفة.
تظهر وجهة النظر المعلنة، التنقيب في البيانات كخطوة حاسمة في العملية الكاملة لاكتشاف المعرفة من البيانات، إذ إنها تكشف عن الأنماط المكتومة الموجودة في البيانات. وعلى الرغم من أن في الصناعة والإعلام وبيئات البحث، غالبا ما تُستخدم مصططلحات التنقيب في البيانات للإشارة إلى جميع مصطلحات اكتشاف المعرفة من البيانات. ولذلك، أخيرا ومع هذه المواصفات، يُعرف التنقيب في البيانات كعملية لاكتشاف الأنماط المثيرة والمعرفة من البيانات العملاقة. قد تشمل قواعد البيانات، مستودعات البيانات والويب ومخازن البيانات الأخرى أو تيارات البيانات الديناميكية.
This article is useful for me
1+ 4 People like this post