السبت، نوفمبر 19، 2011

التدقيق الإملائي في معالجات النصوص العربية

التدقيق الإملائي في معالجات النصوص العربية
لا يخفى على أحد أهمية المدققات الإملائية الإلكترونية في تحرير النصوص باستخدام الحاسوب، والذي أصبح جزءاً من حياتنا اليومية؛ ولا شك أن تلك المدققات جاءت نتيجة جهود جبارة بذلها الباحثون والمختصون في هذا المجال، فلعلنا نسلط الضوء على هذا الموضوع.
لقد كانت محاولة شركة إنفو آرب أولى المحاولات لبناء مدقق إملائي عام 1990م، حيث قامت هذه الشركة بإنشاء مدقق (أبجد هوز) ومدقق سيبويه النحوي. وبالطبع لم تصل تلك المبادرات المبكرة للكفاءة المطلوبة. وعلى الرغم من كون الشركة رائدة في هذا المجال، إلا أنها تخلت عن تطوير هذه التطبيقات واتجهت إلى تطوير قواميس إلكترونية.
في الثمانينيات قادت الدكتورة تغريد عنبر فريقاً يعمل في مجال بحوث معالجة اللغات الطبيعية (NLP) لتأسيس نظرية جديدة حول معالجة اللغة العربية. في عام 1992 م أنتجت شركة كولتك المدقق الإملائي الأكثر استخداماً في العالم، وقامت ببيعه على مايكروسوفت وذلك لإلحاقه بمعالج النصوص وورد 6.0، واستمرت الشركة في تطوير هذا المدقق حتى تم بيع نسخة محدثة منه لشركة مايكروسوفت في عام 2006م بقيمة مليون ونصف المليون جنيه مصري.
ومما يثير الاستغراب توجه شركة آي بي إم IBM لتطوير التقنيات العربية حيث لم تكن مهتمة حقيقةً بهذا المجال، حيث كانت بدأت أبحاثها في هذا المجال في عام 1980م، و بدأت نتائجها بالظهور عام 1990م، وذلك من خلال برنامجي الأديب ووآي بي ووركس المندثرين ولا زالت شركة آي بي إم تصدر مثل هذه التطبيقات ولعل آخرها نوتس لوتس الذي يدعم اللغة العربية.
في حدود العام 2006 م ظهرت عدة تطبيقات للمدققات الإملائية ذات المصادر المفتوحة، ولعل من أبرزها دؤلي وبغداد والمقدمة من شركة عربايز.
ولعل ما يرتكز عليه المدقق الإملائي هو تعرفه على بعض خصائص اللغة العربية ولعلنا نطرح لكم بعض هذه الخصائص وبشكل موجز:
1- الطبيعة الاشتقاقية للغة العربية، وهذا يعني أن هناك مادة لغوية معينة مثل (كتب) يمكن تشكيلها على هيئات مختلفة، كل هيئة منها لها وزن خاص ولها وظيفة خاصة كأن نقول كاتب، مكتوب، مكتب، كتب، كتيب …الخ.
2- الطبيعة الالتصاقية للغة العربية، حيث يمكن تشكيل عدد من الصيغ من مادة لغوية واحدة وذلك من خلال لصق زوائد في أول الكلمة أو في آخرها. و باعتبار السوابق واللواحق المعمول بها في اللغة العربية، يمكن للكاتب التعبير بالكلمة نفسها عن التذكير والتأنيث، الإفراد والتثنية والجمع، الاستفهام والنداء … الخ. كلمة «أسيعطيكموها» تلخص بصفة جيدة هذه الميزة.
3- قلة عدد الحروف المتحركة (Vowels) في العربية (ا، و، ي) مقارنة باللغة الإنجليزية (a،e،i،o،u،y،w) أو باللغة الفرنسية (,é،è،à،ù،û،ê،â،a،e،i،o،u،y،w)، والاعتماد الأساسي على التشكيل (الكسر، الفتح، الضم، و التنوين) لضبط المعنى وتفادي الالتباس وهو ما يهمله عادة المستخدم العربي في كتاباته.
4- تعوُّد الكاتب العربي في بعض الأقطار مثل مصر على الخلط بين الألف والياء المتطرفة وتفشي عادة استعمال الأحرف مركبة لام-ألف التي لا محل لها من الإعراب في عصر الحاسوب والتي يعود أصلها إلى إلزامات وإكراهات تقنية مرتبطة بالآلة الكاتبة في بداية القرن الماضي ومن الصعب التخلص من هذه الرواسب التاريخية نظراً لاستمرار العمل بلوحة المفاتيح الموروثة عن الآلة الكاتبة.
وهناك صعوبات كثيرة يمكن أن تواجه عند مراعاة هذه الخصائص تحد من قدرة المدقق الإملائي من اكتشاف وتصحيح الأخطاء اللغوية، واقتراح البدائل المناسبة. وسنتطرق في الحلقة الثانية من هذا المقال لأهم المعوقات التي تواجه المدقق الإملائي العربي وشرح آلية عمل المدقق الإملائي في اقتراح البدائل

ليست هناك تعليقات: