مدونة الدكتور طلال ناظم الزهيري
مدونة شخصية لنشر البحوث والدراسات في مجال تكنولوجيا المعلومات
مصطلحات ومفاهيم في علم المعلومات: الويب الخفي

الويب الخفي Invisible web

لفهم مصطلح الويب الخفي[1] علينا أولا أن نفهم آلية عمل محركات البحث بوصفها الأدوات المستخدمة من قبل مستخدمي شبكة الانترنت، للبحث عن المعلومات واستدعائها حسب المطالب البحثية للمستفيدين وعرضها للانتقاء منها. وعلى الرغم من أن آلية عمل محركات البحث قد أصبحت مفهومه خاصة بالنسبة للمتخصصين في مجال المعلومات، إلا إني أجد من الضروري هنا أن أتطرق باختصار لهذه الآلية حتى ندرك تماما معنى الويب الخفي، إذ يتكون محرك البحث من ثلاث برامج رئيسية، هي ما يعرف بالعناكب Spiders أو الزواحف Crawlers . والتي تكون مسئولة عن الزحف ومسح محتويات المواقع والصفحات الموجودة على الويب والتقاط الكلمات المفتاحية منها ومن ثم تحويلها إلى برنامج الفهرس Index، وهو المسئول عن تنظيم هذه الكلمات والعبارات وخزنها في قاعدة البيانات مع تحقيق الرابط مع مكان وجودها. وأخيرا برنامج محرك البحثSearch Engine  الذي يعمل على تحقيق التطابق بين العبارات والمصطلحات التي يكتبها المستخدم في مربع النص مع تلك الموجودة في قاعدة بيانات الفهرس. ليتم استرجاعها. والسؤال هنا. هل نتمكن عادة من الوصول إلى المعلومات التي نبحث عنها بشكل كامل بمجرد إدراج الكلمات المفتاحية المطلوبة.؟ الجواب لا!. إننا نحصل فقط على المعلومات التي تطابقت مع المصطلحات البحثية والتي كان لها وجود مادي في قاعدة بيانات الفهرس الخاصة بمحرك البحث الذي نستخدمه. وهنا نطرح سؤال أخر.   هل يعني أن هناك معلومات على الويب لا يوجد لها وجود في فهارس محركات البحث.؟ ولماذا.؟ الجواب على الشق الأول نعم هناك الكثير من المعلومات التي يكون موجودة على الويب لكنها غير موجودة في الفهارس. والسبب يقربنا من فهم مصطلح الويب الخفي قليلا. افترض انك نشرت على مدونتك الشخصية مقال حول المكتبات العامة في العراق على سبيل المثال. وجئت في اليوم الثاني لتبحث عن هذا الموضوع من خلال محرك البحث، عندها قد تجد مقالات كثيرة عن هذا الموضوع ... لكنك لن تجد المقال الذي كتبته. بالتأكيد ستذهب إلى المدونة بشكل مباشر للتأكد أن المقال منشور فيها. أطمئنك إلى  انك ستجد المقال موجود في مدونتك الشخصية. لكنه مع هذا لم يسترجع من خلال محرك البحث. الآن اقتربنا أكثر من المفهوم. فإذا كان هناك وجود مادي حقيقي لمقال على المدونة لكنه لا يظهر لنا من خلال البحث في محركات البحث، فهذا يعني أن المقال مخفي. حسننا جرب البحث بعد مرور عشرة أيام أكثر أو اقل، ستلاحظ أن المقال بدأ يظهر عند البحث عن الموضوع. السؤال هنا لماذا لم تتمكن من الوصول المباشر إلى المقال في الأيام الأولى لنشره، ثم أصبح بالإمكان الوصول إليه لاحقا.؟ الجواب ببساطة هو أن محتوى المقال لم يتشرف بزيارة العناكب ولم يتم تحويل كلماته إلى الفهرس وبالتالي لم يتمكن برنامج المحرك من تحقيق التطابق مع رابط المدونة لاسترجاعه. هذا يعني إننا لا نستطيع الوصول إلى كافة المعلومات الموجودة على شبكة الانترنت ما لم يتم تحويلها إلى فهارس محركات البحث بواسطة العناكب. على هذا الأساس يمكن تصنيف الويب إلى قسمين الأول الويب المرئي والثاني خفي. وقد تستنج من المثال الذي قدمته إليك بالقول، لا مشكلة إذ كان الفارق بين الويب المرئي والويب الخفي هو عامل الوقت. طالما أن الخفي سيصبح بعد مرور مدة قليلة مرئيا. هذا ما أتمناه أنا أيضا. إلا أن هذا النوع من الإخفاء لم يكن مقصودا، بل ناتج على صعوبة تقنية قد تختلف من محرك بحث إلى أخر أو من موقع إلى أخر. حسب الوقت الذي تحتاجه العناكب للمرور على الصفحات وتكشيف محتواها. عليه لا تفسر ما قلته سابقا على انه الويب الخفي. لا نني قلت من البداية أن المثال الهدف منه توضيح مفهوم الخفي ليس إلا.  مع هذا لن نبتعد كثيرا إذا ما قلنا أن الويب الخفي قد يكون له وجود بسبب تدخل بشري أو تقني. لنبدأ بالتقني على سبيل المثال، حتى عام 2000 لم يكن بالإمكان الوصول إلى الصفحات الموجودة على الانترنت ما لم تكن بصيغة html ، وهذا يعني أن الصفحات المكتوبة بصيغ PDF, Word, Excel, PowerPoint  لم يكن بالإمكان الوصول إلى محتواها، حتى طورت محركات البحث تقنية التحويل من هذه الصيغ وغيرها إلى html. تصور حجم المعلومات التي أصبحت متاحة بسبب ظهور هذه التقنية، من جانب أخر تصور حجم المعلومات التي كان يمكن أن تكون مخفية لولا ظهور هذه التقنية. أما التدخل البشري فهو أن تعمل الجهة المسؤولة عن الموقع أو الصفحات على حجب المعلومات أما لأسباب أمنية أو لأسباب مادية، على سبيل المثال قد تحتوي بعض المواقع على قواعد بيانات ضخمة بمقالات الدوريات أو الكتب أو الرسائل الجامعية، وبالنصوص الكاملة لكنها تمنع العناكب من الوصول المباشر إلى محتوى هذه المصادر وتسمح فقط بالوصول إلى عناوين أو ملخصاتها. ما لم يتم دفع مبالغ مالية من قبل المستخدم للحصول على المعلومات كاملة. وإذا ما تصورنا حجم المعلومات في هذه القواعد آخذين بنظر الاعتبار أن هناك الآلاف من هذه القواعد سنستنتج حجم المعلومات المخفية والتي لا يمكن الوصول المباشر لها من خلال محركات البحث العامة. مع العلم أن محركات البحث الخاصة بقواعد البيانات تمكننا من الوصول إلى معلومات المصادر دون نصوصها الكاملة. على هذا الأساس طور محرك البحث Google  (الباحث العلمي) وهو محرك فرعي يهدف إلى تحقيق وصول إلى محتوى قواعد البيانات دون أن يتم التجاوز على حقوق الملكية بعرض النصوص الكاملة. أي أن التسهيل هنا هو أن تعرف بوجود الشيء وعليك أن تفكر لا حقا كيف تحصل عليه... نختم بالقول ان الويب الخفي يمثل كل المواقع والصفحات والمعلومات التي لا يمكن الوصول اليها بشكل مباشر من خلال محركات البحث بالرغم من وجودها على الانترنت.

   

 

 



[1] . المقابل باللغة الانكليزية هو invisible ,Deep, Hidden, web



أضف تعليقا

اضيف في 04 نوفمبر, 2009 10:06 ص , من قبل صالح
من أستراليا said:

شكراً يادكتور ناظم على المعلومات الثمينة

تقبلني زائر دائم لهذه المدونة


طالب تقنية معلومات

اضيف في 06 نوفمبر, 2009 07:12 ص , من قبل الفقيه
من المملكة العربية السعودية said:

1- كيف تتم برمجة هذه الزواحف
2- ذكرت في المقال محركات بحث خاصة وهي لها القدرة للوصول الى عناوين لتلك البيانات( عرض جزء منها فقط ) لا يقوم بها قوقل والشبيه له بسبب الملكية التي جعلت منه محرك بحث فرعيه ما هي تلك المحركات .
3-هل هناك نوع من الزواحف المخصصة للبحث في الحواسيب الشخصية ولا تقوم برامج الحماية بالإنذار .

اضيف في 07 نوفمبر, 2009 09:07 م , من قبل azuhairi
من الأردن said:

الاخ الفقيه
١. برمجة الزواحف من اسرار المبرمجين المحترفين في كوكل خاصة.
٢. محركات البحث الخاصة هي تلك التي ترتبط بذات قاعدة البيانات وهي جزء من مكوناتها.
٣. محركات كوكل الفرعية مثل الباحث العلمي والباحث في المدونات وغيرها وهي موجه للبحث في مواقع خاصة مثل المقالات الاكاديمية ومحتوى المدونات وهكذا...
4. بالنسبة لبرامج استكشاف الحواسيب الشخصية موجودة وحاولت شركت كوكل اطلاقها قبل مدة بخدمة كوكل ديسكتوب الا انها واجهة معارضة من قوانين حماية الحرية الشخصية



أضف تعليقا

<<الصفحة الرئيسية
حقوق التاليف محفوظة للدكتور طلال ناظم الزهيري 2007