الخميس، 18 سبتمبر، 2008

دور التقنيات الحديثة لقواعد المعلومات في بناء مجتمع المعلومات العربي


د. محمود رمال

ملخص: مما لا شك فيه أن انتشار قواعد المعلومات على اختلاف أنواعها( الببليوغرافي والنص الكامل) أدى إلى تضخم المعلومات وتنوع المستخدم من الإنسان العادي إلى المتخصص وهذا الانتشار والتنوع لم يبدل الهدف الأساسي من البحث والاسترجاع ألا وهو الوصول إلى المعلومة المطلوبة بدقة وسهولة مما يتطلب في أغلب الأحيان طريقة بحث تعتمد على اللغة المشتركة بين جميع المستخدمين ألا وهي اللغة العربية إلا أن فهم اللغة الطبيعية بشكل أوتوماتيكي هدف بعيد المنال بسبب تعقد وصعوبة تمثيل اللغة ولذلك اقتصرت طريقة البحث على استخدام اللغات الشبه طبيعية . إن التقنيات الحديثة المستخدمة في بنوك المعلومات مثل Data Mining-Data Web-Data Media وغيرها تتطلب تضافر جهود المعنيين من المعلوماتيين واللغويين والاختصاصيين وحتى المستخدمين بهدف تصميم ونشر بنوك المعلومات وإيجاد أدوات التوثيق والبحث والترجمة مثل المكانز العامة والمتخصصة وتحضير وتوثيق وهيكلة المعلومات وكيفية إيجاد واجهات سهلة للاستعمال. إن بناء مجتمع المعلومات يتطلب السماح للمستخدم العربي الوصول إلى المعلومات العربية والغير عربية من خلال استخدام اللغة العربية وهذا يتطلب جهداً إضافياً في إيجاد وسائل بحث متعددة اللغات . انطلاقاً مما تقدم سنتطرق في البحث عن التقنيات الحديثة في إنشاء قواعد المعلومات والأدوار المطلوبة من العاملين في حقل المعلومات لتعميم استخدام اللغة العربية وتقنيات الاسترجاع . مقدمة : من سمات الانتشار الواسع لتكنولوجيا المعلومات تضخم حجم المعلومات بصورة كبيرة بحيث أصبح عنصراً هاماً ومؤثراً في جوانب عديدة من المجتمع وإن معالجة هذه المعلومات والاستفادة منها ومع الانتشار الواسع لشبكة الانترنيت التي أصبحت الوسيلة الأساسية للاتصال ولنشر وتبادل المعلومات يتطلب توثيق المعلومات بطريقة آلية آخذة في الاعتبار البحث في محتوى النصوص والبيانات مع ما يستلزم ذلك من أدوات معلوماتية لغوية فعالة . ولقد شهدت تقنية قواعد البيانات تطوراً كبيراً منذ بدايتها ، ففي السبعينات استخدمت قواعد البيانات التسلسلية Hierarchique وبعد ذلك في الثمانينات استخدمت قواعد البيانات العلاقية Relationnelle أما في التسعينات فبالإضافة إلى قواعد البيانات العلاقية تم إضافة قواعد البيانات الهدفية Oriented Object . ومن جهة أخرى برز تحدي جديد في كيفية تحويل قواعد البيانات من قواعد تخزين وبحث عن المعلومة إلى مخازن للمعلومات تستنتج المعرفة وتساعد في اتخاذ القرار . لذلك أصبح من الضروري وجود أنظمة معلوماتية جديدة تتعامل مع هذه البيانات من حيث التخزين والاسترجاع والعرض بهدف المساعدة في اتخاذ القرار والتخطيط والرؤية المستقبلية . وتعتبر تقنيات استخراج المعلومات Data Mining وما يتفرع عنها من استخراج المعلومات من النصوص Text Mining مع استخدام مخازن المعلومات Data Warehousing والأمل في استخدام هذه التقنيات على شبكة الانترنيت فيما يسمى Web Mining من التقنيات الحديثة المستخدمة في أنظمة المعلومات والتي بدأت تجد في أكثر الأنشطة ميلاً إلى استعمالها وخاصة في الشركات الكبرى وحتى أن منتجي البرمجيات على اختلافها وخاصة قواعد البيانات أضافوا إلى أنظمتهم إمكانية استعمال هذه التقنيات أما في محيطنا العربي فالمطلوب بإلحاح تعلم هذه التقنيات وافحاطة بها واستخدامها وتطوير الوسائل اللغوية الضرورية المساعدة على استخدام وتخزين والبحث عن المعلومة العربية . مخازن البيانات Data Warehousing مخازن البيانات أنظمة تستعمل تقنيات جديدة في تخزين كميات كبيرة من المعلومات الغير متشابهة Heterogene بهدف استعمالها في سرعة اتخاذ القرار لذلك تسمى أنظمة تقريرية Informatique Decisionnelle في مقابل الأنظمة الإنتاجية Informatique de production والتي منها قواعد البيانات ، حتى أن الهيكلياتArchitecture المستخدمة صممت على استخراج المعرفة للمساعدة في اتخاذ القرار. برزت الحاجة الملحة إلى مخازن البيانات في الشركات الكبرى حيث أن كل قسم من هذه الشركات يدير قواعد بيانات مستقلة خاصة به (تسويق، مالي، ...) والتي تتضمن كثيراً من البيانات المشتركة وتتطلب حاجة الشركة إيجاد كامل البيانات المتعلقة بموضوع محدد كالزبائن مثلاً من خلال بحث في قاعدة واحدة بدلاً من البحث في القواعد المختلفة . لذا برزت الحاجة إلى تجميع البيانات في قاعدة واحدة تسمى مخزن البيانات مع الاحتفاظ بالقواعد الخاصة على أن يصار إلى تغذية المخازن دورياً في حال حصل تعديل أو تبديل في القواعد وتصنف البيانات بحسب الموضوع وذلك باستخدام برامج خاصة تسمى Middleware تستعمل بيانات دمج خاصة في كل موضوع تسمى Schema d integration تحدد فيها شكل وكيفية نقل البيانات . أما طريقة معالجة البيانات فتختلف بين قواعد البيانات ومخازن البيانات ففي قواعد البيانات تستعمل On Line Processing Transaction (OLTP) حيث أنه يمكن تعديل ، زيادة أو بحث عن بيانات بسرعة مع الاحتفاظ بتكامل قاعدة البيانات Database Integrity أما في مخازن البيانات فتستخدم طريقة تحليل البيانات On Line Analysis processing (OLAP) من خلال معالجة كميات ضخمة وتحليلها وإخراجها بشكل معرفة تسمح باستنتاجات وتحديد اتجاهات جديدة بدون أية إمكانية لتعديل البيانات ويمكن استخدام أسئلة غير متوقعة وتأخذ أحياناً وقتأ طويلاً لإصدار النتائج . إن تخزين البيانات تتم بطريقة متعددة الاتجاهات Multidimensionnelle أو ما يعرف مكعب البيانات Data Cub تسمح بالتحليل حسب اتجاهات محددة وإذا استعمل قواعد البيانات العلاقية في مخازن البيانات وطريقة التحليل OLAP تسمى في هذه الحالة (Relational OLAP) ROLAP أو باستعمال قواعد بيانات متعددة الاتجاهات فتسمى في هذه الحالة (Multidimensional OLAP) MOLAP . صناعة مخازن البيانات : أما كيفية صناعة مخازن البيانات فتتم عبر : - توحيد البيانات الواردة من مصادر متنوعة وغير متشابهة (قواعد البيانات) - توزيع البيانات بحسب المواضيع والاهتمام (أقسام الشركة مثلاً) . - الاهتمام بالبعد الزمني(التاريخ) - حفظ كامل البيانات من الأقدم حتى الأحدث Historique . عرض النتائج : أما في عرض نتائج البحث فتستخدم طريقتين لتحليل البيانات ، فالطريقة الحسابية تستعمل تحليل البيانات Analyse de donnees من أجل إظهار النتيجة بطريقة حسابية إحصائية (الجمع، المعدل،...) أو استخراج البيانات Data Mining وإظهار البيانات بشكل Diagram تحوي كل واحدة منها معلومات في مجال محدد (شؤون الموظفين، التسويق،..) تستعمل في تحديد نطاق البحث واستعمال أنظمة التحليل على هذه المخازن لاتخاذ القرار في نطاق محدود . استخراج البيانات : Data Mining يمكن تعريف تقنيات استخراج البيانات بأنها عملية الاستحصال على المعرفة المهمة والجديدة والمفيدة من خلال كميات كبيرة من البيانات حسب نماذج حسابية أو إحصائية أو منطقية ، فاستخراج البيانات منهجية جديدة تجمع بين نتائج الأبحاث في الذكاء الاصطناعي ، الفهم الآلي ، التعرف على الأشكال ، قواعد المعلومات، الرياضيات الإحصائية، واجهات الاستعمال واللغة . وبحسب مراكز الأبحاث يمكن الفصل بين نوعين من استخراج المعلومات فتسمية Knowledge Discovery in Datsbases (KDD) تستعمل عند الباحثين في الذكاء الاصطناعي والفهم الآلي وتسمية Data Mining تستعمل عند الباحثين في الرياضيات الإحصائية أو خبراء المعلومات . تستعمل تقنيات استخراج البيانات قواعد المعرفة كما في الأنظمة الخبيرة إلا أن تغذية بنوك المعرفة تتم من خلال المعرفة المستخرجة مباشرة وآلياً من مخازن البيانات . إن Data Mining تستعمل لاستخراج المعلومات من قواعد أو مخازن المعلومات حيث أن المعلومات في هذه الحالة منتظمة ضمن جداول وملفات Structured Data . أما أهم الخطوات المتبعة لاستخراج المعرفة فهي: - تحديد واستخراج البيانات حسب الأهداف المنتظرة . - معالجة البيانات وتنظيفها Data Cleaning كإلغاء المعلومات المتكررة ، التصحيح الشكلي ، معالجة البيانات الناقصة ... - تعديل المعلومات بشكل يتلاءم مع هدف استخراجها فمثلاً لمعرفة حجم المبيعات في الشركة يمكن الاحتفاظ بالمحافظة أو المدينة بدل التفصيل كالحي والشارع أو كتابة العمر بدل تاريخ الولادة . - اختيار كيفية استخراج المعلومات ، أما من أجل دراسة الخصائص العامة للمعومات المستخرجة وإما من خلال دراسة تطوير المعلومات في المستقبل Prediction . - التصنيف: إيجاد مجموعات من المعلومات بناءً على خصائص مشتركة كتصنيف المناطق بناء على الإنتاج الزراعي أو تصنيف السيارات بناء على الوقود المستعمل ، تستعمل في هذه الحالة الطرق المستخدمة في الرياضيات الإحصائية أو الذكاء الاصطناعي مثل شجرة القرار Arbre de decision أو الشبكات العصبية Reseau de Neurones ، القواعد البايزية Regles de Bayes . - الربط والتسلسل Association & Sequencing استخراج العلاقة السببية بين البيانات كشراء طابعة يعني في نفس الوقت شراء ورق للطباعة ، أو العلاقة التسلسلية ففي حال شراء كمبيوتر فهنالك احتمال كبير لشراء طابعة في المستقبل مع إمكانية إعطاء نسبة مئوية للاحتمالات بناء على البيانات المتراكمة في المخازن . - التأكد من المعلومات المستخرجة Validation . - عرض النتائج بطريقة سهلة تساعد على تحليلها diagramme . بدأت تشهد المعلوماتية التقريرية ازدياداً كبيراً في الأنشطة الاقتصادية في الشركات الكبرى وبدأت مفاهيم جديدة بالظهر معتمدة على هذه التقنيات فمثلاً Web Mining الذي يجمع بين مخازن المعلومات وشبكة الانترنيت والغاية منه إنشاء بنك معلومات عالمي متعدد اللغات مختلف المواقع ويمتاز بسهولة استعماله و Text Mining ونعني بها استخراج المعرفة المفيدة والغير ظاهرة في كميات كبيرة من النصوص الغير منتظمة Non Structured وبتعبير آخر تحويل النص الحر إلى نص يمكن تحليله آلياً ويعتبر Text Mining من المجالات الجديدة في البحث وخاصة مع انتشار الانترنيت بحيث يحاول إيجاد حلول للوصول إلى المعرفة في الكم الهائل من النصوص الموجودة على شبكة الانترنيت باستخدام تقنيات الفهم الآلي ، البحث عن معلومات ، الفهم الآلي للغات الطبيعية . تتم هذه العملية من خلال معالجة أولية للنص وذلك باستخراج الكلمات والمفاهيم وبعد ذلك من خلال إيجاد العلاقات بين المفاهيم وتمثيل النص في قواعد ربط وتصنيفه وإمكانية عرضه للمستخدم بطريقة سهلة الفهم . كذلك هناك مفهوم بنوك المعلومات المتعدد الوسائط Data Media والذي يضم إضافة إلى النص الصورة والصوت والخرائط بأنواعها وإمكانية الاسترجاع في محتوى أي من الوسائط المخزنة فيه وتستعمل فيه تقنيات معقدة في التوثيق والبحث وتستخدم أدوات الذكاء الاصطناعي والتعرف على الأشكال . تحديات مجتمع المعلومات العربي : إن الهدف من تخزين المعلومات بكل أشكالها ليس فقط حفظها من الضياع بل الاستفادة منها في البحث والتحليل وهذا يتطلب إمكانية الاتصال بين المستخدم والآلة باستخدام لغة المستخدم مع ما يتطلب ذلك من تملك للآلة لبعض الذكاء والمعرفة اللغوية وميدان العمل Context ودوافع المستخدم . إن تنوع المستخدمين وحاجاتهم المتجددة تفرض ضرورة معرفتهم وإلمامهم بقواعد البيانات وكيفية تمثيل المعلومات وتصنيفها وتحليلها من أجل مساعدتهم في كيفية البحث وتوجيههم في طرح أسئلتهم،لذا لم يعد كافياً في أغلب الأحيان مطابقة بعض كلمات المفاتيح بين النصوص والسؤال بل يتطلب أيضاً تمثيل المعنى مع الأخذ في الاعتبار الجوانب اللغوية والسيمائية للوصول إلى تمثيل المفاهيم وإمكانية استخراج ليس فقط نصوص منفصلة عن يعضها البعض بل ملف كامل في موضوع محدد أو ملخص عنه . إن طريقة تخزين المعلومات بأي شكل هو من الأمور المهمة إلا أن الأكثر أهمية هو كيفية تطوير واجهات استخدام سهلة الاستعمال وهذه الأخيرة تتعلق في أغلب الأحيان بخيار المستخدم فمنهم من يفضل استخدام قوائم المفردات Menu أو أوامر الاستعمال Command أو اللغة الطبيعية مع ضرورة الأخذ في الاعتبار مساندة المستخدم من خلال معرفة ما يريده ومساندته في تركيب أسئلته . لقد آن الأوان لتطوير واجهات استعمال باللغة العربية وليس المطلوب معالجة اللغة العربية وفهمها بشكل آلي فالتجارب على اللغات الأخرى أظهرت الفشل واللغة العربية بكل تعقيداتها لن تكون بأفضل حال .إلا أن حصر المعالجة بنطاق محدد واستعمال تقنيات الذكاء الاصطناعي على لغات متخصصة (الطب، الحقوق، الأعمال...) وخلق روابط بين الكلمات أو المفاهيم ومكانز متخصصة وتقنيات هيكلة النصوص (كاستعمال لغة XML ) وتطوير أساليب لاستخراج المعلومات فهذه الأمور لا تتطلب تقنيات وأجهزة متطورة من الصعب الحصول عليها بل جل ما تطلبه تضافر الجهود من ميادين مختلفة من المعلوماتية واللغوية واختصاصيي المعلومات كما تتطلب بعض الموارد وكثيراً من الحماس والاندفاع. فمما لا شك فيه أن العالم العربي قادر على الإلمام بالتقنيات الحديثة إما من خلال التعليم أو التدريب فشركات البرمجيات العالمية شركات تجارية مستعدة لنقل كيفية استعمال تقنياتها من أجل الربح المادي ولا شك أن في جامعاتنا الكفاءات الكثيرة القادرة على مواكبة تطور التقنيات وبالتالي فإن دخول هذه التقنيات إلى علمنا العربي أمر حتمي إلا أن الخوف هو بكيفية استعمالها والاستفادة منها فمعلوماتنا بمعظمها باللغة العربية وإن نقص البرمجيات التي تعالج وتتعامل مع اللغة العربية هي المشكلة ومن غير المنطقي الاعتماد على الغير من أجل تطوير مثل هذه البرمجيات ، إن قلة الموارد للبحث في أدوات لاستعمال اللغة العربية لدليل على النقص الكبير الذي نواجهه من أجل تكوين مجتمع المعلومات العربي الذي أساسه المعلومة العربية وطريقة الوصول إليها، فالشركات التجارية العربية المنتجة لبرامج اللغة العربية لا تتعدى أصابع اليد الواحدة وتأتي في مقدمتها شركة صخر حتى أن المواقع العربية على الانترنيت معظمها لتصفح الصفحات وقليل منها يستعمل البحث مع ما تستدعي عملية البحث من برامج توثيق وفهرسة ووجود لوائح أو مكانز للكلمات والمفاهيم وهذه غير متوفرة بالشكل والنوعية المطلوبة . ونقطة أخرى نعرضها للمناقشة وهي أن الغرب بدأ البحث على أدوات معالجة اللغة من حوالي خمسين سنة وأنفق من أجل ذلك اعتمادات مالية ضخمة تحت إشراف الجامعات ومراكز الأبحاث والحكومات وتم نشر كثير من الأساليب والتقنيات المستخدمة في معالجة اللغة بالتعاون بين علماء في اللغة والاجتماع وعلماء النفس والمعلوماتيين وخبراء المعلومات والتربويين واستنتجوا نظريات في طريقة فهم اللغة واكتسابها وتمثيلها في العقل وتعلمها وطريقة التفكير والاستنتاج وغيرها ، هذه النظريات تنطبق على الإنسان الغربي وعلى طريقة فهمه واكتسابه للمعرفة ولكن هل هذه النظريات تنطبق على اللغة العربية والإنسان العربي ؟؟سؤال بحاجة إلى بحث ومناقشة والإجابة عليه . خاتمة : لقد بدأت شركات المعلوماتية تعرض برامج تملك إمكانية استعمال التقنيات الجديدة (IBM, Server, MS SQL, Oracle, BD2,…) وبدأت قطاعات البيع والاتصالات والبنوك باستعمالها ويتوقع تعميمها على معظم القطاعات ، فكما انتشرت قواعد المعلومات والمعلوماتية الإنتاجية حتى الآن فإن المعلوماتية التقريرية سوف تلعب الدور الأهم في المستقبل القريب ومن جهة أخرى وللوصول إلى Web Mining يلعب WWW consortium (W3C) دوراً كبيراً في توحيد نصوص الانترنيت لمعالجتها آلياً باستخدام لغة XML والتي يتوقع أن تكون لغة الانترنيت في المستقبل ويبقى التحدي الكبير أمام العالم العربي ودور اللغة العربية وإمكانية استعمالها في الميادين العلمية والتقنية ومواكبة التطور في ميادين تكنولوجيا المعلومات في كافة أنشطة المجتمع كمثال على ذلك الحكومة الإلكترونية والتعليم عن بعد وغيره من النشاطات التي تتعامل باللغة العربية وتطوير أدوات للتوثيق والبحث لاستعمالها في ميادين محددة أو تعميمها للاستعمال عل شبكة الانترنيت ، ونلفت النظر إلى أن مواقع الترجمة الآلية تستعمل الترجمة بين العديد من اللغات الأقل أهمية وانتشاراً من اللغة العربية بينما لا نجد إمكانية الترجمة من وإلى لغتنا ، لماذا ومن المسؤول؟؟
المراجع : " الأشقر جبور : تكنولوجيا المعلومات : لتفعيل البحث والوصول إلى المعلومة ، معالجة المعلومات القانونية في القرن الحادي والعشرين وتحدياتها ـ تقنيات الاتصال الحديثة والوصول إلى المعلومة ، بيروت 2001 . " رمال محمود : تمثيل المعلومات القانونية ـ عقبات وحلول ـ معالجة المعلومات القانونية في القرن والواحد والعشرين وتحدياتها ـ تقنيات الاتصال الحديثة والوصول إلى المعلومة ، بيروت 2001 " نبيل علي : العرب وعصر المعلومات ـ عالم المعرفة 1994 . " محي الدين حسانة : اقتصاد المعرفة في مجتمع المعلومات ـ معالجة المعلومات القانونية في القرن الواحد والعشرين وتحدياتها ـ تقنيات الاتصال الحديثة والوصل إلى المعلومة بيروت 2001 .
نقلا عن

ليست هناك تعليقات: