حين تتكلم الآلة بغير العربية.. هل نخسر المعركة قبل أن نبدأ؟

 

 

 

مؤيد الزعبي

عزيزي القارئ نحن نتحدث كثيرًا عن الثورة الرقمية والذكاء الاصطناعي ونماذجها اللغوية الكبيرة، لكننا نغفل سؤالًا خطيرًا؛ بأي لغة تُبنى هذه الثورة وهذه النماذج؟ والإجابة هي الإنجليزية في الغالب، فماذا يعني ذلك للغة العربية، ولمجتمعات تعتمد عليها كوعاء للمعرفة والهوية؟ وماذا سيكون مصير لغتنا ومصير تفوقنا في عقول وخوارزميات آلات لغتنا لا تدخل في تدريبها إلا بجزء صغير، وهنا نتحدث عن عصر الذكاء الاصطناعي أي أن اللغة ليست مجرد أداة تواصل، بل هي "عملة قوة" ومن لا يملك لغة حاضرة في عقول الآلات، قد يجد نفسه خارج التأثير وخارج القرار، وربما خارج المستقبل ذاته وهذا ما أخافه حقيقة.

النماذج اللغوية الكبيرة (LLMs) مثل GPT-4 أو Gemini لا تفهم المعاني، بل تعالج احتمالات إحصائية للكلمات، وهنا تكمن المشكلة؛ فاللغة الإنجليزية تهيمن على أكثر من 90% من بيانات التدريب العالمية، مما يجعلها "اللغة الأم" للذكاء الاصطناعي، وهذا التفوق ليس تقنيًا فقط، بل هو تفوق في "المنطق"؛ فالآلة التي تتعلم بالإنجليزية تتبنى قيمها وأمثالها الشعبية وطريقة تحليلها للأمور، ثم تقوم بترجمة ذلك آليًا إلى العربية، فنحصل على مخرجات بلسان عربي مبين، لكن بقلب ومنطق غربي خالص، وهنا نفقد روح لغتنا.

تقنيًا معالجة الأمر أمر معقد فعلًا، وهناك عدة أسباب أهمها عدم وجود مواد خام عربية ندرب بها الذكاء الاصطناعي، فرغم أن العرب يمثلون نسبة كبيرة من مستخدمي الإنترنت، إلا أن المحتوى العربي عالي الجودة لا يتجاوز 1% إلى 3% من الشبكة، ومعظمه محتوى مكرر أو ضعيف لغويًا، وثانيًا اللغة العربية لغة اشتقاقية معقدة، وكلمة واحدة قد تعادل جملة كاملة بالإنجليزية بالإضافة لتعقيد اللغة العربية نفسها من حيث الصرف والنحو، وهو ما يربك عمليات "الترميز" (Tokenization) في النماذج العالمية، مما يجعل معالجة العربية أغلى ثمنًا وأقل دقة.

المشكلة لا تتوقف عند مشاكل اللغة فقط، بل تمتد إلى قلة الاستثمار في نماذج الذكاء الاصطناعي العربية، وهناك فجوة حيث أن الشركات العالمية تستثمر مليارات الدولارات في تطوير نماذج لغوية تعتمد أساسًا على الإنجليزية، مما يعزز تفوقها ويجعل اللحاق بها أكثر صعوبة، صحيح أن هناك مبادرات عربية تحاول سد هذه الفجوة، كما برزت شركات مثل G42 في الإمارات ونموذج "جيس" Jais، التي تعمل على تطوير نماذج ذكاء اصطناعي تدعم اللغة العربية، إضافة إلى مبادرات بحثية في جامعات عربية تهدف إلى بناء قواعد بيانات لغوية وتحسين معالجة النصوص العربية، هذه الجهود مهمة، لكنها ما تزال محدودة مقارنة بحجم التحدي وحجم الفجوة، والمخيف ليس الفجوة بحد ذاتها إنما باتساعها مع مرور الوقت.

الحلول ليست مستحيلة، لكنها تحتاج إلى رؤية واضحة واستثمار طويل الأمد، أولًا يجب زيادة إنتاج المحتوى العربي عالي الجودة على الإنترنت، لأن البيانات هي الوقود الحقيقي للذكاء الاصطناعي، ثانيًا دعم الأبحاث في مجال معالجة اللغة العربية، وبناء شراكات بين الجامعات والشركات التقنية وهذه نقطة مهمة يجب أن نأخذها على محمل الجد، وثالثًا تشجيع الحكومات على تبني سياسات تدعم الابتكار باللغة العربية، بما في ذلك تمويل المشاريع الناشئة وتوفير بنية تحتية رقمية قوية، وأخيرًا علينا كأفراد أن نعيد النظر في علاقتنا بلغتنا، فلا نكون مجرد مستهلكين للمعرفة بلغات أخرى، بل منتجين لها بلغتنا.

إذا نظرنا إلى المستقبل دون اتخاذ خطوات جدية، قد نجد أنفسنا في عالم تتحدث فيه الآلات بلغة لا تعكس ثقافتنا ولا تنقل أفكارنا بدقة، وتخيل جيلًا كاملًا يعتمد على أدوات ذكاء اصطناعي لا تفهم خصوصيات لغته، أو تترجمها بشكل سطحي، أو حتى تعيد تشكيلها وفق منطق لغوي  وفكري أجنبي، وهنا لا نتحدث فقط عن فقدان دقة، بل عن تآكل تدريجي للهوية الثقافية والمعرفية، في هذا السيناريو قد تصبح العربية لغة “ثانوية” في الفضاء الرقمي، رغم أنها من أكثر اللغات انتشارًا في العالم وعلينا أن نعترف أن لغتنا لا ينقصها ما يهددها فالتهديدات كثيرة وعميقة.

وفي النهاية.. يجب أن نتساءل هل سنبقى مستهلكين لتقنيات تُبنى بلغات أخرى، أم سنكون شركاء في صناعتها بلغتنا؟ هل نملك الإرادة للاستثمار في لغتنا كما نستثمر في البنية التحتية والاقتصاد؟ وهل يمكن أن نصل إلى لحظة يصبح فيها الذكاء الاصطناعي قادرًا على التفكير بالعربية، لا مجرد ترجمتها؟ أم أننا سنستيقظ يومًا لنجد أن لغتنا، رغم تاريخها العريق، لم تجد لنفسها مكانًا في مستقبل تصنعه الآلات؟، إجابة هذه الأسئلة بدقة وبدون تجميل هي ما ستحدد لنا أين ستكون عليه لغتنا في عقول الآلات والخوارزميات مستقبلًا.

الأكثر قراءة

z