ما هي بحيرة البيانات تم تقديم مصطلح “بحيرة البيانات” بواسطة James Dixon، كبير موظفي التكنولوجيا في Pentaho Business Intelligence Software. إن وصف هذا النوع من المستودعات على أنه بحيرة أمر منطقي لأنه يخزن مجموعة بيانات في حالتها الطبيعية، كجسم مائي لم يتم تصفيته أو ملؤه. تتدفق المعلومات من مصادر متعددة إلى البحيرة ويتم تخزينها بتنسيقها الأصلي.

ما هي بحيرة البيانات

بحيرة البيانات هي نوع من مستودعات البيانات، التي تخزن مجموعات كبيرة ومتنوعة من البيانات الأولية بتنسيقها الأصلي. كما يسمح أيضًا بالحفاظ على عرض غير متكرر للبيانات. في الواقع، أصبحت استراتيجية إدارة البيانات شائعة بشكل متزايد لدى المؤسسات التي تريد مستودعًا كبيرًا وكاملاً لبياناتها

  • بالنظر إلى أن البيانات الأولية هي تلك التي لم تتم معالجتها بعد لغرض معين. لا يتم تعريف أولئك الموجودين في بحيرة البيانات حتى يتم الاستعلام عنها.
  • يمكن للعلماء أيضًا الوصول إلى البيانات الأولية عندما يحتاجون إليها باستخدام أدوات تحليلات أكثر تقدمًا أو نماذج تنبؤية.
  • بينما يتم الاحتفاظ بجميع البيانات عند استخدام بحيرة البيانات ؛ لا تتم إزالة أي منها أو تصفيتها قبل التخزين. يمكن استخدامها للتحليل قريبًا أو في المستقبل أو لا تستخدم على الإطلاق.
  • يمكن أيضًا استخدام البيانات عدة مرات لأغراض مختلفة، على عكس عند تها لغرض معين. مما يجعل من الصعب إعادة استخدام البيانات بطريقة مختلفة.
  • لا يتم تحويل البيانات الموجودة في البحيرة حتى تكون مطلوبة للتحليل، ثم يتم تطبيق المخطط بحيث يمكن إجراء التحليل. وهذا ما يسمى “مخطط للقراءة” لأنه يتم حفظ البيانات الأولية حتى تصبح جاهزة للاستخدام.
  • تسمح البحيرات الرسومية للمستخدمين أيضًا بالوصول إليها واستكشافها بطريقتهم الخاصة، دون الحاجة إلى نقلها إلى نظام آخر.
  • غالبًا ما يتم إنتاج المعلومات والتقارير في بحيرة البيانات على أساس مخصص، بدلاً من سحب تقرير تحليلي دوريًا من منصة أخرى أو نوع من مستودع البيانات. ومع ذلك، يمكن للمستخدمين تطبيق المخطط والأتمتة للسماح بتكرار التقارير إذا لزم الأمر.
  • حيث أنه يحتاج إلى حوكمة ويتطلب صيانة مستمرة حتى تكون البيانات قابلة للاستخدام ويمكن الوصول إليها.
  • بدون هذه الصيانة، فإنك تخاطر بأن تصبح بياناتك غير مهمة، ولا يمكن الوصول إليها، وغير عملية، ومكلفة، وغير مجدية.
  • البحيرات التي يتعذر على مستخدميها الوصول إليها تسمى “مستنقعات البيانات”.

بحيرة البيانات مقابل مستودع البيانات

على نفس المنوال، على الرغم من الخلط بين بحيرة البيانات ومستودع البيانات، إلا أنهما ليسا متشابهين ويخدمان أغراضًا مختلفة. في الواقع، تعد البحيرة ومخزن البيانات مستودعات لتخزين البيانات الضخمة، ولكن هنا تنتهي أوجه التشابه. فيما يلي بعض الاختلافات بينهما على النحو التالي

  • ستستخدم العديد من المؤسسات بحيرة البيانات والمخزن لتلبية احتياجاتها وأهدافها المحددة.
  • يوفر مستودع البيانات نموذجًا منظمًا ومصممًا لإعداد التقارير. هذا هو الفرق الرئيسي بين البحيرة ومستودع البيانات.
  • تخزن ليكس البيانات الخام وغير المهيكلة بدون غرض محدد. قبل أن يتم وضع البيانات في مستودع بيانات، يجب معالجتها.
  • يتم اتخاذ القرارات بشأن البيانات التي يجب تضمينها أو عدم تضمينها في المستودع، والمعروف باسم “مخطط الكتابة”.
  • يمكن أن تستغرق إزالة البيانات قبل تخزينها في المستودع وقتًا طويلاً وصعبة. في بعض الأحيان قد يستغرق الأمر شهورًا أو حتى سنوات، مما يمنعك أيضًا من جمع البيانات على الفور.
  • باستخدامه، يمكنك البدء في جمع البيانات على الفور ومعرفة ما يجب فعله بها في المستقبل.
  • نظرًا لهيكلها، غالبًا ما يتم استخدام مستودعات البيانات من قبل محللي الأعمال ومستخدمي الأعمال الآخرين الذين يعرفون بالفعل البيانات التي يحتاجونها لإعداد التقارير المنتظمة.
  • يستخدمها العلماء ومحللو البيانات غالبًا لأنهم يحققون باستخدام البيانات. تحتاج البيانات إلى مزيد من الفلاتر والتحليلات المتقدمة المطبقة عليها قبل أن تكون مفيدة.
  • غالبًا ما تستخدم بحيرات البيانات ومستودعات البيانات أجهزة مختلفة للتخزين.
  • يمكن أن تكون مستودعات البيانات باهظة الثمن أيضًا، بينما يمكن أن تظل بحيرة البيانات غير مكلفة على الرغم من حجمها الكبير ؛ لأنهم غالبًا ما يستخدمون الأجهزة الأساسية.

هندسة البحيرات الجرافيكية

تحتوي بحيرة البيانات على هيكل مسطح لأنه يمكن أن يكون غير منظم أو شبه منظم أو منظم. يتم جمعها من مصادر مختلفة في جميع أنحاء المنظمة، مقارنة بالمستودعات التي تخزن البيانات في ملفات أو مجلدات. نظرًا لهيكلها، فإنها توفر قابلية توسعة واسعة تصل إلى مقياس x بايت. هذا مهم لأنه عندما تقوم بإنشائه، فأنت لا تعرف مسبقًا مقدار البيانات التي ستحتاج إلى تخزينها. لا يمكن لأنظمة تخزين البيانات التقليدية التوسع بهذه الطريقة. كما أنه يفيد العلماء الذين يمكنهم استخراج البيانات واستكشافها من جميع أنحاء المؤسسة ومشاركة البيانات وال التبادلية، بما في ذلك البيانات غير المتجانسة من مختلف المجالات، لطرح الأسئلة والعثور على رؤى جديدة. يمكنهم أيضًا الاستفادة من تحليلات البيانات الضخمة والتعلم الآلي للتحليلات. على الرغم من أن البيانات لا تحتوي على مخطط ثابت قبل التخزين، إلا أن إدارة البيانات لا تزال مهمة لتجنب مستنقع البيانات. يجب أن تكون البيانات وصفية عند وضعها في البحيرة لضمان إمكانية الوصول إليها لاحقًا.