مشكلة اللغة العربية في عصر الذكاء الاصطناعي.. الفرص والتحديات

 

سعيد بن محمد الكلباني

 

يشهد العالم تطورًا متسارعًا في مجال التكنولوجيا، ويبرز في خضمه الذكاء الاصطناعي كعنصر محوري مؤثر ودافع للتحولات في مجالات عدة، وبخاصة مجال معالجة اللغات. ومثل ما هو معلوم فإن النماذج اللغوية التوليدية قائمة على الحوار أو التحادث باللغات البشرية الطبيعية، إلا أن ذلك ليس بالأمر الإيجابي دائما بما يخدم اللغات؛ نتيجة لتمايز النماذج في دقتها مع لغة مقابل لغة أخرى، ولتفاوت المستخدمين في درجة تمكنهم من اللغة التي يتحدثونها واللغات الأخرى المستخدمة، وعامل اللهجات.

من هنا تبرز اللغة العربية بكل ثرائها وتعقيدها كحقل خصب للفرص والتحديات في مضمار الذكاء الاصطناعي، فلغة الضاد -بكل ما تحمله من تاريخ وعمق لغوي وغزارة كلمات ومضامين- تقف اليوم أمام أفق واسع من التحديات المتشكلة من قِبل المستخدمين لها، والبرمجيات المستخدمة فيها، قد يؤدي هذا في الأحوال الحسنة إلى تحويل الجيد إلى الأجود، وربما ينتقل الجيد إلى سيئ والسيئ إلى الأسوأ في أسوأ الأحوال، وتتخلف القافلة بذلك عن الركب.

تتجسد مشكلة اللغة العربية في عصر الذكاء الاصطناعي التوليدي في عملية جمع البيانات من المصادر الرقمية التي يمكن أن تصل لها أدوات الجمع، وما كتب فيما تم جمعه من تلك المصادر، إذ يشوب تلك العملية مجموعة من التحديات التي بشكل أو بآخر تحوّل فرص الاستفادة من الذكاء الاصطناعي في تطوير اللغة ونشر المحتوى بها حسب أصولها وقيمها ومبادئها إلى عقبات تتسبب في تأخيرها عن مقارعة اللغة الإنجليزية بغزارة المحتوى المنشور بها.

تتجلى تحديات اللغة العربية في ميدان الذكاء الاصطناعي التوليدي في تعقيد اللغة نفسها، فالعربية الكلاسيكية لغة إسماعيل بن إبراهيم عليهما السلام بإعرابها وتصريفها وتنوع معانيها، والعربية القياسية الحديثة، واللهجات العامية، جميعها تقدم لوحة فسيفسائية من التحديات أمام النماذج اللغوية الاصطناعية، حيث إن الفروق الدقيقة في استخدام الكلمات والتراكيب المنشورة على شبكة الإنترنت تحتاج إلى أدوات كشط دقيقة في جمعها من المصادر الرقمية، وعمليات متعددة مبنية في تركيبها ووظيفتها على فهم دقيق لخصائص اللغة ومكامنها،  وتصنيفها. وفي سياق التعقيد ذاته، نجد أن المنشور بشكل عام عبر شبكات الإنترنت و-بخاصة في الصفحات الإخبارية التي اعتُمد عليها كثيرًا في تدريب نماذج الذكاء الاصطناعي- يتّجه نحو البساطة في الطرح اللغوي، ويتجنب كلمات اللغة القديمة، وبالتالي لن تظهر اللغة العربية بقوتها وتاريخها في النماذج، هذا يعني أن هذه التقنيات سوف تساهم في غروب شمس اللغة من خلال كلمات عريقة أصيلة لم تصل إليها، وبالتالي لن تقدمها للمستخدمين بأي حال من الأحوال.

تتلاحق التحديات كحلقات سلسلة يأزر بعضها البعض، فالحضور الضعيف للمحتوى العربي على شبكة الإنترنت الذي لا يتجاوز 3% حسب التقرير الصادر عن الاتحاد الدولي للاتصالات، والذي سلطت عليه الضوء شبكة بي بي سي الإعلامية في 9 يونيو 2023 يمكن أن يظهر تحديًا يتشكل في نقص البيانات المتاحة باللغة العربية كمًا، وجودةً، وهذا النقص يحد من قدرة الذكاء الاصطناعي على التعلم والتطور بالشكل المثالي، كما أن عامل تدريب نماذج الذكاء الاصطناعي المعتمد على اللغة الإنجليزية بشكل أساسي والتي بلغت نسبة 92.3% من مجموع النسبة العامة للمحتوى في تدريب نموذج GPT-3.5 المطور من شركة Open AI مقابل 7.7% موزعة على المحتوى لباقي اللغات، ومع نقص المحتوى العربي تتفاقم مشكلة نقص البيانات التي تتضمنها نماذج الذكاء الاصطناعي من المحتوى العربي.

تشكل اللهجات تحديًا آخر، حيث تشير عدد من التقارير إلى أن 550 مليون نسمة حول العالم يتحدثون باللسان العربي، وينقسمون إلى 300 مليون منهم تمثل اللغة العربية لغتهم الأم، وما تبقى يتخذونها لغة ثانية. إن هذا العدد والتفاوت فيه مؤشر على تنوع اللهجات والتي هي في الأساس تفرعات وتحويرات في اللغة العربية، نشأت وتأصلت حسب الأقطار والقبائل، والطوائف، والأنشطة، وغيرها.

وبالنظر إلى عدد المتحدثين باللسان العربي، وتنوع لهجاتهم التي تحمل كل منها خصوصيتها وتركيبتها اللغوية، المختلفة بدرجة كبيرة عن الفصحى وعن اللهجات الأخرى، يمكننا استقراء تنوع المحتوى المنشور والمتشرب بالكلمات غير الفصيحة، وكذلك استقراء مضمون الكلمات في نشاط التحادث بين المستخدم العربي ونماذج الذكاء الاصطناعي التوليدية، إذ أن المحتوى والتحادث سوف يحملان الكثير من الكلمات المنحازة في المعنى لقطاع جغرافي أو فئة معينة، والتي بذلك تكون مقطوعة من اللغة العربية، وتبقى مجهولة المعنى لقلة انتشارها. كما أن هناك عاملًا آخر يساهم في خلق التحدي، وهو أن اختلاف معنى الكلمة بين فئة وأخرى، وتأثير ذلك كتحدٍ يكون بعدم ظهور هذه الكلمات في نماذج الذكاء الاصطناعي، أو ظهورها الذي ينحصر فهمه للفئة التي تعرفها. إن ذلك الترادف أو التنوع يشبه التعامل مع النصوص ثنائية اللغة، وهو أيضًا أمر آخر لا يقل عن كونه تحديًا يتطلب من النماذج اللغوية القدرة على فهم ومعالجة هذا التنوع اللغوي بالتصنيف والضبط.

كقاعدة ترتبط بما سبق من تحديات، ينشأ تحدٍ مستقبلي يتمثل في سعي مطوري نماذج الذكاء الاصطناعي إلى تدريب تلك النماذج على المحادثات التي دارت بين المستخدمين العرب بلهجاتهم وأخطاءهم في الكتابة، والتعلم الآلي غير المشرف عليه من المحتوى عبر الشبكة أو أرشيف المحادثات، كل ذلك سوف يؤدي إلا طمس الكثير من الكلمات الأصيلة في اللغة العربية، وبروز كلمات من لهجات مختلفة، وأخطاء لغوية وغيرها، مما يعني أن المستخدم غير المتمكن من اللغة وغير المراعي لخصوصيتها واستخدام اللغة الفصيحة، سوف يساهم نفسه في تحويل الجيد إلى سيء والسيء إلى أسوأ.

إنَّ تحديات اللغة العربية في عصر الذكاء الاصطناعي لا تقتصر على اللغة نفسها ومستخدميها، ولكن تمتد إلى بناء النماذج اللغوية الاصطناعية. فمسألة التحيز والأخلاقيات في تدريب النماذج اللغوية قد تؤدي إلى نتائج مشوهة أو غير دقيقة، مما يشكل تحديًا يضاف إلى السلسلة التي تحوّل فرص اكتساب اللغة العربية من القوة والامتياز إلى تحديات.

يتوجب علينا اليوم كأفراد مواجهة لامبالاة البعض في نشر المحتوى عبر شبكة الإنترنت ووسائل التواصل بلهجات دارجة وبأخطاء لغوية، واستخدام اللهجات الدارجة مع نماذج الذكاء الاصطناعي، كما أن عدم التوازن في التواصل مع الشركات المطورة لنماذج الذكاء الاصطناعي التي تظهر بها أخطاء لغوية أو كلمات عربية غير مفهومة يمكن أن يكون حلًا ناجعًا يحافظ على فرص اللغة العربية في الاستفادة من الذكاء الاصطناعي.

أما على الصعيد المتقدم، فإنه على المؤسسات الكبرى والأكاديمية بناء نماذج ذكاء اصطناعي مخصصة للغة العربية، أو توفير محتوى عربي يمتاز بالجودة والشمول وتقديمه للمؤسسات غير العربية التي تبني النماذج، ويمكن النظر بإيجابية، والحذو بتجربة شركة Core42 إحدى شركات مجموعة G42 التكنولوجية الرائدة في الإمارات التي أطلقت نموذج Jais 30B الأكثر كفاءة في برامج اللغة العربية التي يمكنها تشغيل تطبيقات الذكاء الاصطناعي التوليدية، والذي تم تدريبه على مجموعة بيانات تتكون من 126 مليار رمز عربي، و251 مليار رمز باللغة الإنجليزية. مما يعطي دعمًا قويًا للمستخدم لإثراء المحتوى العربي وتجويده.

كما إنه يمكن جعل اللغة العربية تستغل فرصها من الذكاء الاصطناعي في تطويرها وجودتها وجودة مستخدميها في التعامل بها، من خلال استغلال مصدر الخوف أو المشكلة وجعلها مصدر قوة، فعلى سبيل المثال يمكن إنشاء برمجيات أو خوارزميات لتتبع الأخطاء ضمن نماذج الذكاء الاصطناعي سواء عند إدخالها من قبل المستخدم أو التي يحتمل أن يقدمها النموذج نفسه. وفي ذات سياق الأفكار المعتقد بأنها تدفع نحو الجودة في اللغة يمكن ضبط النماذج عند الاستجابة لمطالبات أو أوامر المستخدم على تقديم مجموعة من الكلمات عن المرادفة أو حتى التعرف على الكلمات في اللهجات والإشارة لها وحتى تقديم كلمات عربية فصيحة بدلًا من تلك الكلمات.

ختامًا.. اللغة العربية تتطلب اليوم حرصًا من الأفراد والمؤسسات للمحافظة عليها والسمو بها بين اللغات الأخرى، في ظل طوفان الذكاء الاصطناعي الذي يقوم جله على اللغة الإنجليزية، وفي ظل التوجهات المؤسسية لجعل اللغة الإنجليزية متطلبًا إلزاميًا للتوظيف والتواصل مع المحيط العالمي، الذي أصبح متقارب الأركان بفعل التكنولوجيا.

تعليق عبر الفيس بوك