|
مستخلصات الرسائل
الجامعية
سيــد
ربيـع سيــد إبراهيــم . محركات بحث المادة المصورة على الإنترنت : دراسة
تحليلية لوضع مواصفات محرك بحث صور ثابتة يدعم خصائص اللغة العربية ، إشراف
هانـئ محيي الديـن عطيــة محمد .- بني سويف: س. ر ، 2005 (أطروحة ماجستير، قسم
المكتبات والوثائق، جامعة بني سويف)
تمثل الصورة
المرئية الثابتة والمتحركة مصدرا هاما من مصادر المعلومات الأولية بجوار المادة
النصية والمادة الصوتية. ويعد وسيط معلومات الصور ذات أهمية كبرى سواء للأغراض
التعليمية أو البحثية ، كما تخدم الصور الصحفيين في التعبير عن الأحداث. وهي
بذلك تحمل تأثيرا كبيرا في داخل المتلقي للمعلومات.إلى جانب كونها الوسيط
الرئيسي في بعض مصادر المعلومات التقليدية ويتبعها النص .
وتعد الصور
أكثر أشكال أوعية المعلومات ندرة في مؤسسات المعلومات.
واتبع هذه الندرة قلة الاهتمام بطرح مواصفات اختزان واسترجاع ووصف الصور ، بما
يتناسب مع خواص الصورة كوسيط له أهميته في عرض المعلومات المرئية .مثل اختفائها
داخل قواعد الفهرسة الانجلو أمريكية ، التي اهتمت فقط بالأشكال الأخرى من مصادر
المعلومات .
وتختلف
الصورة عن النص في الشكل الورقي أو الآلي من حيث أساليب التنظيم عن النص في
مناهج التكشيف واستخدام الواصفات ، حيث يتم تحليل الصورة وفق موضوعها أو السياق
الذي وردت فيه. ويتحدد في ذلك مستويات التكشيف المختلفة سواء العناصر الأساسية
البارزة في الصورة أو الخلفية أو الصورة الذهنية التي تتشكل في ذهن المشاهد
خارج إطار العناصر الموضوعية لها. وهي كلها مشكلات تمثل عائقا كبيرا في استرجاع
الصور بخلاف النص الذي تحدده الكلمات.بجانب اعتماد الاستدعاء الآلي على آليات
تلائم أكثر ما تلائم المواد النصية.
ويعتمد
الاسترجاع الآلي للنص على الموضوع فقط وهو ما تعكسه مفردات اللغة المستخدمة،
أما في الصور فإن
الاسترجاع يتم وفق الخصائص المادية المصاحبة للصورة أيضا ، التي تتمثل في اللون
والشكل والتركيب، وهو ما يتطلب تحليل الصور بناء على الخصائص المادية لها
بالإضافة إلى الموضوعية، وصياغة تسجيلة معيارية تجمع بين واصفات التحليل
الموضوعي وواصفات التحليل المادي للصورة. هذا إلى جانب احتياج الصورة الرقمية
خاصة إلى آليات للتنظيم و البحث تختلف عن تلك المستخدمة مع وسيط النص ، ناهيك
عن استخدام اللغة العربية كلغة للمحتوى مع ما تتطلبه من آليات تنظيم وبحث خاصة.
ولذلك
فقد اكتسبت الدراسة أهميتها من النقاط التالية:-
-
الاتجاه
القوي داخل المكتبات مرافق المعلومات نحو التعامل مع البيئة الإلكترونية
وأوعية المعلومات الإلكترونية. ويتزايد هذا الاتجاه مع الأوعية الأكثر عرضة
للتلف مع كثرة تداولها مثل الصور والخرائط والمخطوطات والكتب النادرة.
-
تزايد
أهمية الصور في كافة الميادين البحثية والتعليمية والإعلامية
مع تقدم
التقنيات المصاحبة لها؛ حيث أصبحت هناك صورا ميكروسكوبية، وصور أشعة، وصور
بالأقمار الصناعية مع تعدد أشكال كل منها، بالإضافة إلى تراجع النص أمام
الصور بسبب التضخم الهائل في الإنتاج الفكري وقلة وقت الباحث والقارئ.
-
تصاعد
أهمية محركات البحث
في
ظل التزايد المطرد لاستخدام الإنترنت وتزايد المادة المتاحة من خلالها، وتعدد
وتباين الدراسات التقييمية لمحركات البحث من منظور كفاءة لاسترجاع النص، دون
التطرق لكفاءة استرجاع المادة المصورة أو الصوتية.
-
ندرة
الدراسات التي اتجهت نحو التقعيد والتوصيف للمعالجة الموضوعية للصور وخاصة
الصور الرقمية، حيث اتجهت معظم الدراسات إلى التركيز على
الاسترجاع
على أساس المعالجة المادية، وانحصرت المعالجة الموضوعية في دراسة أنماط أسئلة
وطلبات المستفيدين.
-
عدم وجود
مواصفات معيارية تخدم تكشيف الصور لأغراض البحث باللغة العربية
على
كلا المستويين الورقي والرقمي. كما أن محركات البحث العربية لا تدعم البحث في
الصور أصلا، أما المحركات غير العربية فإنها تتعامل
مع
استرجاع الصور بالنص العربي من خلال آليات تعريب تفتقر إلى الدقة والكفاءة
والمعيارية.
وقد عملت
الدراسة على تحقيق مجموعة من الأهداف منها :
-
التعرف على خصائص الصورة وطبيعتها كوعاء معلومات مرئي مقارنة بالنص.
-
التعرف على
خصائص الصورة الرقمية مقارنة مع خصائص الصورة الورقية.
-
تحديد
معايير واصفات تكشيف واسترجاع الصور الرقمية الثابتة.
-
قياس مدى
كفاءة محركات بحث الصور ذات مرشحات الويب أو بدونها على نتائج البحث.
-
دراسة
خصائص اللغة العربية في تكشيف الصور الثابتة واسترجاعها.
6.
قياس مدى كفاءة محركات الصور الثابتة المعربة للتعامل مع خصائص اللغة العربية.
7.
وضع مواصفات محركات بحث الصور الثابتة التي تدعم اللغة العربية.
وقد
انتهجت الدراسة مناهج متعددة بحسب مرحلة البحث هي :
-
المنهج
الوصفي
الذي يعتمد على تتبع الإنتاج الفكري وتحليل نتائج الدراسات الخاصة في مجال
تكشيف الصور.
-
المنهج
التجريبي
في استخدام نماذج مختلفة من الواصفات مع محركات الصور وجمع نتائج الاسترجاع
وتحليلها، ثم قياس مدى فاعلية هذه النتائج مع أساليب الاسترجاع الآلي
المطروحة للصور الرقمية الثابتة، وخصائص اللغة العربية ووضع معايير ومواصفات
لمحركات بحث تدعم اللغة العربية.
-
المنهج
المقارن
الذي يعتمد
على المقارنة بين كفاءة محركات البحث في الاستدعاء والاسترجاع.
وقامت
الدراسة معتمدة على الأدوات البحثية التالية :
أداة
البحث الوثائقي
لجمع الجانب النظري الخاص بمحركات البحث و ملفات الصور الرقمية.
أداة
المعايشة مع الإنترنت
من خلال مشاهدة ومراقبة أساليب البحث والاسترجاع.
عينة
الدراسة
اعتمدت
الدراسة على عينة قصدية من محركات البحث التي تبحث في الصور الثابتة سواء تلك
المتخصصة في حفظ واسترجاع الصور الرقمية أو التي تجعل من بحث الصور اختيارا
إضافيا في بحث مصادر الويب. وتم اختيار العينة بالاستعانة بالدراسات الإحصائية
المتاحة على الإنترنت لقياس كفاءة محركات البحث، وتم اختيار محركات البحث التي
تحقق نسبة أعلى من 50% في درجات التقييم
ــ.
وقد انقسمت
أنواع محركات البحث في عينة الدراسة إلى نوعين هما:-
محركات بحث الويب
ويختص هذا
النوع بالتركيز على بحث الصور الرقمية الثابتة دون غيرها من مصادر الويب.
|
اسم
محرك البحث |
مسار محرك البحث |
|
Alltheweb”Fast” |
http://multimedia.alltheweb.com |
|
Altavista |
http://www.altavista.com/image/default?qbmode= |
|
Ditto |
http://www.ditto.com |
|
Google |
http://images.google.com |
|
Picsearch |
http://www.picsearch.com |
|
Visoo |
http://www.visoo.com/ |
محركات بحث محددة
ويختص هذا
النوع بالمحركات التي تمثل قواعد معلومات صور ثابتة.
|
اسم
محرك البحث |
مسار محرك البحث |
|
Corbis |
http://www.corbis.com |
|
Freefoto |
http://www.freefoto.com |
وتألف محتوى الدراسة من الفصول التالية:
تتكون
الدراسة من خمسة فصول بجانب عرض المقدمة وملحق الرسالة، وكان تتابع الفصول
كالتالي:-
الفصل
الأول
تعرض
لأنواع
الأدوات الأساسية لبحث الويب من محركات وأدلة بحث بجانب قواعد بيانات الويب،
إلى جانب تقسيم مقترح لأنواع محركات البحث على الويب وصولا إلى محركات بحث
المادة المصورة والحديث بتركيز
أكثر
على نظم استرجاع الصور الرقمية.
الفصل
الثاني
تناول
الحديث عن أوعية المعلومات المرئية وتبنى هذا الفصل شكلا محددا لتقسيم أوعية
المعلومات المرئية على الويب والحديث عن هذه الأنواع انتهاءا بالصور الرقمية
الثابتة بموضوعاتها العلمية والإعلامية والعامة.
الفصل
الثالث
تناول
معالجة الصور
الرقمية وذلك في قسمين تناول
في القسم
الأول منه المعالجة الفنية للصور الثابتة، ومحاولة التطرق إلى بعض المعايير
التي تتبنى تحليل ووصف الصور الرقمية مع التركيز على معيار
دبلن كور
بعناصره المختلفة، وتناول القسم
الثاني الحديث عن المعالجة الآلية لخصائص اللغة العربية وأثرها على تشكيل آليات
الاستدعاء والبحث على الويب.
الفصل
الرابع
قام بدراسة
تجريبية
وذلك
بالتطبيق على
عينة غرضية من محركات بحث الصور الثابتة، واختبار مجمعة من خصائص هذا النوع
التي تدور في مجملها حول تنظيم واستدعاء الصور الثابتة، بالإضافة إلى اختبار
بعض آليات بحث اللغة العربية التي اقتصرت في اختبارها على محرك بحث
Google.
الفصل
الخامس
اقتصر
على عرض المواصفات المقترحة لبناء محرك بحث صور ثابتة يدعم خصائص اللغة
العربية، وذلك ابتداءا من عمليات اختيار ملفات الصور الرقمية مرورا بتنظيمها ثم
آليات البحث والاستدعاء للصور باللغة العربية يمكن من خلالها تحقيق افضل درجة
تحقيق لنتائج البحث أمام المستفيدين.
وأهم
نتائجها:-
1.
نظرا لأن محركات بحث الصور تعمل بطريقة تفاعلية غير ثابتة )ديناميكية(، فإنه لا
يصلح تطبيق أساليب قياس الكفاءة في نظم استرجاع الثابتة على محركات البحث . ومن
ثم فإن نظام لانكستر المخصص لأساليب
قياس الكفاءة في
النظم
الثابتة
لا يصلح مع النظم غير الثابتة أو بمعنى محركات الويب.
2.
أوضحت دراسة استرجاع الصور الرقمية العزلة التامة في العمل بين استرجاع الصور
المبني على النص واسترجاع الصور المبني على المحتوى.ويتبع الاسترجاع بالمحتوى
تقنيات تحليل الصورة باستخدام البنية والشكل واللون، خلاف ما يعمل به الاسترجاع
بالنص في الاعتماد على التكشيف والبحث للكلمات المفتاحية. وأن الجمع بين
النوعين في نظام واحد يفيد باحثي الصور في استرجاع صور ذات بنية أو شكل أو لون
محدد بنفس الحاجة الموضوعية للباحث.
3.
تتواجد نظم استرجاع الصور في مستويين مختلفين؛ الأول: نظم إدارة الصور الرقمية
وهي نظم تعمل على المعالجة الفنية الكاملة لملفات الصور من تنظيم ومعالجة ثم
توفير أساليب البحث الملائمة لاسترجاع ملفات الصور.الثاني: نظم بحث وتصفح الصور
ومنها محركات بحث الصور وهي نظم تعمل على بحث تصفح الصور من خلال النصوص
المحيطة بها دون تحليل ملفات الصور.
4.
إن بناء قواعد بيانات الصور الرقمية داخل العديد من المؤسسات مثل المتاحف
وهيئات الأبحاث الفضائية بل والأرشيفات الصحفية لن يتم بشكل صحيح إلا بالاعتماد
على عاملين هما ؛ تبني معيار لوصف الصور الرقمية مثل دبلن كور مع إجراء
التعديلات اللازمة عليه، إلى جانب استخدام تقنيات بناء ملفات الصور الرقمية
التي تضم النص إلى جانب المحتوى المرئي في ملف واحد لا ينفصل به النص عن
الصورة.
|