بنية مستودع البيانات (Data Warehouse Architecture)

بنية مستودع البيانات

مفاهيم مستودع البيانات

يتمثل المفهوم الأساسي لمخزن البيانات في تسهيل إصدار واحد من الحقيقة لشركة ما لاتخاذ القرار والتنبؤ. مستودع البيانات هو نظام معلومات يحتوي على بيانات تاريخية وتبادلية من مصادر فردية أو متعددة. مفاهيم بنية مستودع البيانات تبسيط عملية إعداد التقارير والتحليل للمنظمات.

خصائص مستودع البيانات

مفاهيم مستودع البيانات لها الخصائص التالية:

  • موجه نحو الموضوع (Subject-Oriented)
  • مدمج (Integrated)
  • تغير الوقت (Time-variant)
  • غير متطاير (Non-volatile)

موجه نحو الموضوع (Subject-Oriented)

مستودع البيانات موجه نحو الموضوع لأنه يقدم معلومات تتعلق بموضوع ما بدلاً من عمليات الشركات المستمرة. يمكن أن تكون هذه الموضوعات المبيعات والتسويق والتوزيع وما إلى ذلك.

لا يركز مستودع البيانات أبدًا على العمليات الجارية. بدلاً من ذلك یركز على نمذجة وتحليل البيانات لاتخاذ القرار. كما أنه يوفر نظرة بسيطة وموجزة حول موضوع معين من خلال استبعاد البيانات التي لا تساعد في دعم عملية اتخاذ القرار.

مدمج (Integrated)

في مستودع البيانات يعني التكامل إنشاء وحدة قياس مشتركة لجميع البيانات المتشابهة من قاعدة البيانات غير المتشابهة. يجب أيضًا تخزين البيانات في مستودع البيانات بطريقة مشتركة ومقبولة عالميًا.

يتم تطوير مستودع البيانات من خلال دمج البيانات من مصادر متنوعة مثل الحاسوب المركزي وقواعد البيانات العلائقية والملفات المسطحة وما إلى ذلك. علاوة على ذلك يجب أن يحافظ على اصطلاحات التسمية المتسقة والتنسيق والترميز. يساعد هذا التكامل في التحليل الفعال للبيانات. يجب ضمان الاتساق في اصطلاحات التسمية ومقاييس الخواص وبنية التشفير وما إلى ذلك. خذ بعين الاعتبار المثال التالي:

بنية مستودع البيانات

في المثال أعلاه هناك ثلاثة تطبيقات مختلفة تسمى A و B و C. المعلومات المخزنة في هذه التطبيقات هي Gender و Date و Balance. ومع ذلك يتم تخزين بيانات كل تطبيق بطريقة مختلفة.

في التطبيق A يقوم حقل الجنس بتخزين القيم المنطقية مثل M أو F.

و في التطبيق B حقل Gender هو قيمة عددية

في تطبيق C يتم تخزين حقل Gender في شكل قيمة شخصية.

هذا هو الحال مع Date و balance

ومع ذلك بعد عملية التحويل والتنظيف يتم تخزين كل هذه البيانات بتنسيق مشترك في مستودع البيانات.

تغير الوقت (Time-Variant)

يعد الأفق الزمني لمستودع البيانات واسعًا جدًا مقارنة بأنظمة التشغيل. يتم التعرف على البيانات التي يتم جمعها في مستودع البيانات مع فترة معينة وتقدم معلومات من وجهة نظر تاريخية. أنه يحتوي على عنصر من عناصر الوقت صراحة أو ضمنا.

أحد هذه الأماكن حيث يوجد فرق وقت عرض بيانات مستودع البيانات في بنية مفتاح record. يجب أن يحتوي كل مفتاح أساسي يحتوي عليه DW إما بشكل ضمني أو صريح على عنصر زمني. مثل اليوم وشهر الأسبوع وما إلى ذلك.

جانب آخر من تباين الوقت هو أنه بمجرد إدخال البيانات في المستودع لا يمكن تحديثها أو تغييرها.

غير متطاير (Non-volatile)

مستودع البيانات أيضًا غير متطاير مما يعني أنه لا يتم مسح البيانات السابقة عند إدخال بيانات جديدة فيه.

البيانات للقراءة فقط ويتم تحديثها بشكل دوري. يساعد هذا أيضًا في تحليل البيانات التاريخية وفهم ما حدث ومتى حدث. لا يتطلب عملية المعاملات والاسترداد وآليات التحكم في التزامن.

يتم حذف الأنشطة التي يتم إجراؤها في بيئة التطبيق التشغيلية مثل الحذف والتحديث والإدراج في بيئة مستودع البيانات. هناك نوعان فقط من عمليات البيانات التي يتم إجراؤها في تخزين البيانات.

  1. تحميل البيانات (Data loading)
  2. الدخول الى البيانات (Data access)

فيما يلي بعض الاختلافات الرئيسية بين Application و Data Warehouse:

التطبيق التشغيلي:

  • يجب ترميز البرنامج المعقد للتأكد من أن عمليات ترقية البيانات تحافظ على سلامة المنتج النهائي.
  • يتم وضع البيانات في شكل موحد لضمان الحد الأدنى من التكرار.
  • التكنولوجيا اللازمة لدعم قضايا المعاملات واستعادة البيانات والتراجع والحل لأن deadlock معقد للغاية.

مستودع البيانات:

  • لا يحدث هذا النوع من المشكلات لأنه لا يتم تحديث البيانات.
  • لا يتم تخزين البيانات في شكل طبيعي.
  • إنه يوفر بساطة نسبية في التكنولوجيا.

هندسة مستودع البيانات

تعتبر بنية مستودع البيانات معقدة لأنها نظام معلومات يحتوي على بيانات تاريخية وتبادلية من مصادر متعددة. هناك 3 طرق لإنشاء طبقات مستودع البيانات: طبقة واحدة وطبقتين وثلاث طبقات. يتم شرح بنية الطبقات الثلاث لمخزن البيانات على النحو التالي.

هندسة أحادية الطبقة (Single-tier architecture)

الهدف من طبقة واحدة هو تقليل كمية البيانات المخزنة. هذا الهدف هو إزالة البيانات التكرار. لا يتم استخدام هذه العمارة بشكل متكرر في الممارسة.

البنية ذات الطبقتين (Two-tier architecture)

البنية ذات الطبقتين هي إحدى طبقات مستودع البيانات التي تفصل بين المصادر المتاحة ماديًا ومستودع البيانات. هذه البنية غير قابلة للتوسيع ولا تدعم أيضًا عددًا كبيرًا من المستخدمين النهائيين. كما أن لديها مشاكل في الاتصال بسبب قيود الشبكة.

بنية مستودع البيانات ثلاثية المستويات (Three-Tier Data Warehouse Architecture)

هذه هي الهندسة المعمارية الأكثر استخدامًا لمخازن البيانات.

يتكون من الطبقة العليا والمتوسطة والسفلى.

  1. الطبقة السفلية (Bottom Tier): قاعدة بيانات خوادم مستودع البيانات مثل الطبقة السفلية. عادة ما يكون نظام قاعدة بيانات علائقية. يتم تنظيف البيانات وتحويلها وتحميلها في هذه الطبقة باستخدام أدوات back-end.
  2. الطبقة الوسطى (Middle Tier): الطبقة الوسطى في مستودع البيانات هي خادم OLAP يتم تنفيذه باستخدام نموذج ROLAP أو MOLAP. بالنسبة للمستخدم تقدم طبقة التطبيق هذه عرضًا موجزًا ​​لقاعدة البيانات. تعمل هذه الطبقة أيضًا كوسيط بين المستخدم النهائي وقاعدة البيانات.
  3. Top-Tier: الطبقة العليا هي طبقة العميل الأمامية. المستوى العلوي هو الأدوات وواجهة برمجة التطبيقات (API) التي تتصل بها وتحصل على البيانات من مستودع البيانات. يمكن أن تكون أدوات الاستعلام وأدوات التقارير وأدوات الاستعلام المدارة وأدوات التحليل وأدوات التنقيب عن البيانات.

مكونات مستودع البيانات

سنتعرف على مكونات Datawarehouse وهندسة مستودع البيانات مع رسم تخطيطي كما هو موضح أدناه:

يستند مستودع البيانات إلى خادم RDBMS وهو مستودع معلومات مركزي محاط ببعض مكونات تخزين البيانات الرئيسية لجعل البيئة بأكملها تعمل ويمكن إدارتها ويمكن الوصول إليها.

هناك خمسة مكونات أساسية لمستودع البيانات:

قاعدة بيانات مستودع البيانات

قاعدة البيانات المركزية هي أساس بيئة تخزين البيانات. يتم تطبيق قاعدة البيانات هذه على تقنية RDBMS. على الرغم من أن هذا النوع من التنفيذ مقيد بحقيقة أن نظام RDBMS التقليدي تم تحسينه لمعالجة قاعدة بيانات المعاملات وليس لتخزين البيانات. على سبيل المثال يعتبر الاستعلام المخصص والصلات متعددة الجداول والتجميعات كثيفة الاستخدام للموارد وتبطئ الأداء.

ومن ثم يتم استخدام طرق بديلة لقاعدة البيانات كما هو موضح أدناه-

  • في مستودع البيانات يتم نشر قواعد البيانات العلائقية بالتوازي للسماح بقابلية التوسع. تسمح قواعد البيانات العلائقية المتوازية أيضًا بذاكرة مشتركة أو لا يوجد نموذج مشترك على تكوينات متعددة المعالجات أو معالجات متوازية على نطاق واسع.
  • تُستخدم هياكل الفهرس الجديدة لتجاوز مسح الجدول العلائقي وتحسين السرعة.
  • استخدام قاعدة البيانات متعددة الأبعاد (MDDBs) للتغلب على أي قيود يتم وضعها بسبب نماذج مستودع البيانات العلائقية. مثال: Essbase من Oracle.

أدوات مصادر البيانات والاكتساب والتنظيف والتحول (ETL)

تُستخدم أدوات مصادر البيانات والتحويل والترحيل لإجراء جميع التحويلات والتلخيصات وجميع التغييرات اللازمة لتحويل البيانات إلى تنسيق موحد في مستودع البيانات. وتسمى أيضًا أدوات Extract و Transform و Load (ETL).

تشمل وظائفهم ما يلي:

  • إخفاء هوية البيانات وفقًا للشروط التنظيمية.
  • القضاء على البيانات غير المرغوب فيها في قواعد البيانات التشغيلية من التحميل إلى مستودع البيانات.
  • ابحث واستبدل الأسماء والتعريفات الشائعة للبيانات الواردة من مصادر مختلفة.
  • حساب الملخصات والبيانات المشتقة
  • في حالة فقدان البيانات یقوم بتعبئتها بالافتراضيات.
  • یتم إلغاء تكرار البيانات الواردة من مصادر بيانات متعددة.

قد تؤدي أدوات الاستخراج والتحويل والتحميل هذه إلى إنشاء وظائف cron ووظائف الخلفية وبرامج Cobol ونصوص shell وما إلى ذلك والتي تعمل على تحديث البيانات بانتظام في مستودع البيانات. هذه الأدوات مفيدة أيضًا في الحفاظ على البيانات الوصفية.

يجب أن تتعامل أدوات ETL هذه مع تحديات عدم تجانس قاعدة البيانات والبيانات.

البيانات الوصفية (Meta Data)

يشير اسم Meta Data إلى بعض مفاهيم تخزين البيانات التكنولوجية عالية المستوى. ومع ذلك فهو بسيط للغاية. البيانات الوصفية هي بيانات حول البيانات التي تحدد مستودع البيانات. يتم استخدامه لبناء مستودع البيانات وصيانته وإدارته.

في بنية مستودع البيانات تلعب البيانات الوصفية دورًا مهمًا لأنها تحدد المصدر والاستخدام والقيم والميزات لبيانات مستودع البيانات. كما تحدد كيف يمكن تغيير البيانات ومعالجتها. يرتبط ارتباطًا وثيقًا بمستودع البيانات.

على سبيل المثال قد يحتوي السطر في قاعدة بيانات المبيعات على:

4030 KJ732 299.90

هذه بيانات لا معنى لها حتى نستشير ميتا التي تخبرنا أنها كانت كذلك:

Model number: 4030
Sales Agent ID: KJ732

إجمالي مبلغ المبيعات 299.90 دولار

لذلك تعد البيانات الوصفية مكونات أساسية في تحويل البيانات إلى معرفة.

تساعد البيانات الوصفية في الإجابة على الأسئلة التالية:

  • ما هي الجداول والسمات والمفاتيح التي يحتوي عليها مستودع البيانات؟
  • من أين جاءت البيانات؟
  • كم مرة يتم إعادة تحميل البيانات؟
  • ما هي التحولات التي تم تطبيقها مع التطهير؟

يمكن تصنيف البيانات الوصفية إلى الفئات التالية:

  • بيانات التعريف الفنية: يحتوي هذا النوع من البيانات الوصفية على معلومات حول المستودع يستخدمها مصممو ومسؤولو مستودعات البيانات.
  • بيانات تعريف الأعمال: يحتوي هذا النوع من البيانات الوصفية على تفاصيل تمنح المستخدمين النهائيين طريقة سهلة لفهم المعلومات المخزنة في مستودع البيانات.

أدوات الاستعلام (Query Tools)

أحد الأهداف الأساسية لتخزين البيانات هو توفير المعلومات للشركات لاتخاذ قرارات استراتيجية. تسمح أدوات الاستعلام للمستخدمين بالتفاعل مع نظام مستودع البيانات.

تنقسم هذه الأدوات إلى أربع فئات مختلفة:

  1. أدوات الاستعلام والتقرير
  2. أدوات تطوير التطبيقات
  3. و أدوات التنقيب عن البيانات

أدوات OLAP

1. أدوات الاستعلام وإعداد التقارير

يمكن تقسيم أدوات الاستعلام وإعداد التقارير إلى:

  • أدوات التقارير
  • أدوات الاستعلام المُدارة

أدوات التقارير:

يمكن تقسيم أدوات إعداد التقارير إلى أدوات إعداد تقارير الإنتاج وكاتب تقارير سطح المكتب.

مؤلفو التقارير: هذا النوع من أدوات إعداد التقارير عبارة عن أدوات مصممة للمستخدمين النهائيين لتحليلهم.

تقارير الإنتاج: يسمح هذا النوع من الأدوات للمؤسسات بإنشاء تقارير تشغيلية منتظمة. كما أنه يدعم وظائف الدُفعات كبيرة الحجم مثل الطباعة والحساب. بعض أدوات إعداد التقارير الشائعة هي Brio و Business Objects و Oracle و PowerSoft و SAS Institute.

أدوات الاستعلام المُدارة:

يساعد هذا النوع من أدوات الوصول المستخدمين النهائيين على حل العقبات في قاعدة البيانات و SQL وهيكل قاعدة البيانات عن طريق إدراج طبقة التعريف بين المستخدمين وقاعدة البيانات.

2. وسائل تطوير التطبيقات

في بعض الأحيان لا تلبي الأدوات الرسومية والتحليلية المضمنة الاحتياجات التحليلية للمؤسسة. في مثل هذه الحالات يتم تطوير التقارير المخصصة باستخدام أدوات تطوير التطبيقات.

3. أدوات التنقيب عن البيانات

التنقيب في البيانات هو عملية لاكتشاف correlation جديد و pattens و trends عن طريق التنقيب عن بيانات كمية كبيرة. يتم استخدام أدوات التنقيب عن البيانات لجعل هذه العملية تلقائية.

4. أدوات OLAP

تستند هذه الأدوات إلى مفاهيم قاعدة بيانات متعددة الأبعاد. يسمح للمستخدمين بتحليل البيانات باستخدام طرق عرض معقدة ومتعددة الأبعاد.

هندسة ناقل مستودع البيانات

يحدد ناقل مستودع البيانات تدفق البيانات في المستودع الخاص بك. يمكن تصنيف تدفق البيانات في مستودع البيانات على أنه تدفق داخلي وتدفق علوي وتدفق سفلي وتدفق خارجي و Meta flow.

أثناء تصميم ناقل البيانات يحتاج المرء إلى مراعاة الأبعاد والحقائق المشتركة عبر مجموعات البيانات.

سوق البيانات (Data Marts)

سوق البيانات هو طبقة وصول تُستخدم لإخراج البيانات إلى المستخدمين. يتم تقديمه كخيار لمستودع بيانات كبير الحجم حيث يستغرق إنشاؤه وقتًا ومالًا أقل. ومع ذلك لا يوجد تعريف موحد لسوق البيانات يختلف من شخص لآخر.

بكلمة بسيطة تعد Data mart شركة تابعة لمستودع البيانات. يتم استخدام سوق البيانات لتقسيم البيانات التي تم إنشاؤها لمجموعة محددة من المستخدمين.

يمكن إنشاء مجموعات البيانات في نفس قاعدة البيانات مثل مستودع البيانات أو قاعدة بيانات منفصلة ماديًا.

أفضل ممارسات هندسة مستودعات البيانات

لتصميم بنية مستودع البيانات عليك اتباع أفضل الممارسات المحددة أدناه:

  • استخدم نماذج مستودع البيانات المُحسَّنة لاسترجاع المعلومات والتي يمكن أن تكون نمط الأبعاد أو النهج غير الطبيعي أو المختلط.
  • اختر نهج التصميم المناسب كنهج من أعلى إلى أسفل ومن أسفل إلى أعلى في مستودع البيانات
  • تحتاج إلى التأكد من معالجة البيانات بسرعة وبدقة. في الوقت نفسه يجب عليك اتباع نهج يدمج البيانات في نسخة واحدة من الحقيقة.
  • صمم بعناية عملية الحصول على البيانات وتنظيفها لمستودع البيانات.
  • تصميم بنية MetaData التي تسمح بمشاركة البيانات الوصفية بين مكونات مستودع البيانات
  • ضع في اعتبارك تنفيذ نموذج المواد المستنفدة للأوزون عندما تكون الحاجة إلى استرجاع المعلومات قريبة من قاع هرم استخراج البيانات أو عندما تكون هناك مصادر تشغيلية متعددة مطلوب الوصول إليها.
  • يجب على المرء التأكد من أن نموذج البيانات متكامل وليس فقط مدمج. في هذه الحالة يجب أن تفكر في نموذج بيانات 3NF. كما أنه مثالي للحصول على أدوات تنقية البيانات و ETL.

الملخص

مستودع البيانات هو نظام معلومات يحتوي على بيانات تاريخية وتبادلية من مصادر فردية أو متعددة. يمكن أن تكون هذه المصادر عبارة عن مستودع بيانات تقليدي أو مستودع بيانات سحابي أو مستودع بيانات افتراضي.

مستودع البيانات موجه نحو الموضوع لأنه يقدم معلومات تتعلق بالموضوع بدلاً من العمليات الجارية للمؤسسة.

في مستودع البيانات يعني التكامل إنشاء وحدة قياس مشتركة لجميع البيانات المتشابهة من قواعد البيانات المختلفة

مستودع البيانات أيضًا غير متطاير مما يعني أنه لا يتم مسح البيانات السابقة عند إدخال بيانات جديدة فيه.

يعتبر مستودع البيانات متغيرًا زمنيًا لأن البيانات الموجودة في DW لها مدة صلاحية عالية.

هناك 5 مكونات أساسية لهندسة مستودع البيانات:

  1. قاعدة البيانات
  2. أدوات
  3. ETL البيانات الوصفية
  4. أدوات الاستعلام
  5. DataMarts

هذه هي أربع فئات رئيسية من أدوات الاستعلام

  1. الاستعلام والتقارير، الأدوات
  2.  تطوير التطبيقات
  3. استخراج البيانات
  4. OLAP

يتم استخدام أدوات مصادر البيانات والتحويل والترحيل لإجراء جميع التحويلات والتلخيصات.

في بنية مستودع البيانات تلعب البيانات الوصفية دورًا مهمًا لأنها تحدد المصدر والاستخدام والقيم والميزات لبيانات مستودع البيانات.

المصدر

منشور ذات صلة
تطوير API 20 Minutes

تطوير API في go بإستخدام Goa

جاسم ناظري

تتيح لك Goa التفكير في واجهات برمجة التطبيقات الخاصة بك بشكل مستقل عن أي مخاوف تتعلق بالتنفيذ ثم مراجعة هذا التصميم مع جميع أصحاب المصلحة قبل كتابة التنفيذ. هذا يعني أن كل عنصر من عناصر واجهة برمجة التطبيقات يتم تعريفه أولاً قبل إنشاء رمز التطبيق.

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

السلة