جرب التحدث إلى أداة الذكاء الاصطناعي المفضلة لديك باللغة العربية واطلب منها التحدث بلهجتك، وستتفاجأ بمدى أصالتها. فإذا أردت التحدث عن طلباتك وتفاعلاتك اليومية مثلا، فإن البرامج الكبرى مثل "تشات جي بي تي" وجيميناي مجهزة لإجراء محادثات بلهجتك ولغتك التي تختارها، بما في ذلك اللغة العربية، بل ويمكنها مسايرتك في الحديث ببراعة.
إذن فما دامت نماذج الذكاء الاصطناعي الغربية العامة رائعة إلى هذا الحد، كيف ولماذا ينافسها مطورو برامج الذكاء الاصطناعي المحليون؟ الإجابة المختصرة هي أن تبني الذكاء الاصطناعي في استخدامات الشركات والحكومات أمر مختلف تماما. فالمهام التي تحتاجها الشركات والحكومات من الذكاء الاصطناعي أكثر تعقيدا، ونقص البيانات العربية الأصلية يؤدي إلى نتائج رديئة باللغة العربية، فضلا عن مسألة أمن البيانات والاعتبارات الأخلاقية والثقافية.
هدف هؤلاء المطورين لم يعد الوصول إلى حجم نماذج "أوبن إيه آي" أو جيميناي أو ميتا أو أنثروبيك، وإنما ابتكار نماذج تخضع لملكيتهم وسيطرتهم وتسد فجوة في السوق. فبعض النماذج الإماراتية، مثل نموذج فالكون التابع لمعهد الابتكار التكنولوجي ونموذج جيس التابع لجامعة محمد بن زايد للذكاء الاصطناعي، كانت مرشحة في السابق لمنافسة النماذج اللغوية الضخمة الأخرى مثل "تشات جي بي تي" وجيميناي، لكنها صارت تركز الآن على إنشاء أدوات أصغر مخصصة للشركات بالاعتماد على أسس النماذج الحالية. وهذا أيضا هو النهج الذي اتبعته بعض الشركات الناشئة مثل شركة "ترجمة&" المتخصصة في اللغات والترجمة بالذكاء الاصطناعي، وشركة "كونتكست إيه آي".
أحد الأهداف الحالية هو التحكم على المستوى السيادي. فالدافع الرئيسي لمعهد الابتكار التكنولوجي الممول من حكومة أبوظبي هو ضمان الإشراف والسيطرة الكاملة على الذكاء الاصطناعي المستخدم لدى المؤسسات العامة، بما في ذلك فهم كيفية ومكان معالجة البيانات، حسبما ذكر حكيم حسيد كبير الباحثين في معهد الابتكار التكنولوجي لنشرة إنتربرايز الإمارات.
كما أن النماذج العالمية لا تلبي الاحتياجات اللغوية أو الثقافية للمنطقة، والبيانات الإنجليزية المترجمة لن تعبر عن الفروق الثقافية الدقيقة أبدا، وقد تؤدي إلى التحيز، وهو ما اتفقت عليه المصادر التي حاورناها. فمحمد أبو شيخ، الرئيس التنفيذي لشركة "كونتكست إيه آي"، قال إن اختلاف المشكلات التي نواجهها يتطلب حلولا مختلفة، ولذا "لا يوجد حل واحد يناسب الجميع". واتفقت معه نور الحسن، الرئيسة التنفيذية لشركة ترجمة&، بقولها إن "النماذج ليست مصممة للتفكير باللغة العربية. لذا ينبغي تغيير طريقة تدريبها للحصول على نتائج أفضل".
لكن هل لدينا ما يكفي من البيانات العربية الأصلية؟ معظم النماذج اللغوية الضخمة مدربة في الأساس على بيانات باللغة الإنجليزية ولغات شائعة أخرى (غربية في الغالب). وهذا يعني إهمال العديد من اللغات ذات الأبجديات المختلفة، مثل العربية؛ فمعظم البيانات العربية المستخدمة لتدريب النماذج اللغوية الضخمة هي عبارة عن ترجمات بين الإنجليزية والعربية. وهذا يقلل جودة المخرجات، ويشكل تحديات خاصة لقطاعات معينة مثل الرعاية الصحية والقانون، حيث تتجلى ضرورة مراعاة الدقة والفروق الثقافية الدقيقة.
غير أن بعض المبادرات تهدف إلى تغيير ذلك الوضع؛ إذ طورت شركة كلاستر لاب التونسية الناشئة المتخصصة في معالجة اللغات الطبيعية مجموعة بيانات منتقاة تضم 101 مليار كلمة عربية، مستخلصة عبر التنقيب الدقيق في البيانات العربية على الإنترنت، وذلك لدعم نماذج اللغة العربية.
وقد كان التنقيب في البيانات هو العقبة الأكبر أمام معهد الابتكار التكنولوجي أيضا، لكنه أسفر في النهاية عن نموذج فالكون العربي مفتوح المصدر، الذي يتفوق بدرجة كبيرة على نماذج أخرى من نفس الحجم، ويدعم مجموعة واسعة من اللهجات العربية. وعن ذلك قالت بسمة الأمل بوساحة، الباحثة البارزة في معهد الابتكار التكنولوجي، إن الفريق تجنب استخدام مجموعات البيانات المترجمة ووجه تركيزه بالكامل إلى البيانات العربية الأصلية.
ومن عوامل الجذب الرئيسية الأخرى لنموذج فالكون حجمه الصغير. إذ أصبح المطورون "يتجهون إلى بناء نماذج أصغر، وقد سار فريق المعهد على النهج نفسه"، حسبما ذكرت بوساحة، مضيفة أن جزءا من جاذبية النموذج يكمن في سهولة تكييفه ليناسب حالات استخدام محددة، خاصة من قبل المنظمات الصغيرة مثل الشركات الناشئة أو الجامعات.
ويتفق مطورون آخرون على أن الحل يكمن في بناء نماذج أصغر ولكن أذكى. إذ أضافت نور الحسن أن "النماذج الصغيرة عادة ما تكون أفضل من النماذج العامة في تنفيذ مهمة محددة بعينها؛ لأنها متخصصة وصغيرة وغير مكلفة، ويمكن استخدامها على أنظمة في مقر الشركة أو على منصة سحابية خاصة". وتكمن استراتيجية شركة ترجمة& في التركيز على حالات الاستخدام الخاصة بالشركات، لا سيما المهام التي تتطلب معالجة مستندات كثيفة المحتوى، بدلا من تطوير نماذج الذكاء الاصطناعي الحوارية العامة. وتحقق الشركة ذلك من خلال نموذجها اللغوي برونويا الذي يركز على اللغة العربية، ويحتوي على 14 مليار عنصر لتنفيذ المهام المعقدة باللغة العربية.
كما يشهد مطورو الذكاء الاصطناعي المحليون طلبا متزايدا على وكلاء الذكاء الاصطناعي، فوجود منصة تدعم هذه النماذج اللغوية الصغيرة، وتسمح للشركات باستخدام وكلاء متخصصين في مهام معينة باستخدام النماذج العربية، يتيح نهجا أكثر شمولا يبحث عنه المشترون من الشركات، حسبما ذكرت نور الحسن، مضيفة أن العملاء "يريدون وكلاء يمكنهم أتمتة المهام وزيادة الكفاءة وخفض التكاليف".
وكذلك فالنماذج الصوتية مطلوبة: تتبع "كونتكست إيه آي" نهجا مختلفا، إذ تطور نموذجا صوتيا باسم "منصت"، يتعامل مع اللهجات العربية ويجيد تأدية المهام المنطوقة في الهيئات الحكومية أو الشركات. ويعد هذا النموذج القائم على تحويل الكلام إلى نص باللغة العربية أحد المنتجات الأساسية لدى الشركة، ويُستخدم في قطاعات مثل الرعاية الصحية والقانون والخدمات العامة. كما أبرمت "كونتكست إيه آي" شراكة مع منصات مثل أكشوالايز لتضمين تقنية التعرف التلقائي على الكلام في وكلائها الصوتيين. وتتطلع الشركة في النهاية إلى بناء نماذج تحول الكلام إلى كلام، حسبما قال أبو شيخ.
لكن طبيعة القطاع والاستخدام هي التي تحدد ما إذا كنت ستحتاج إلى نموذج لغوي ضخم عام أم نموذج عربي. فشركة سينسي لابس المتخصصة في برمجيات الشركات تشهد طلبا متزايدا على واجهات الاستخدام المدعومة باللغة العربية بين مستخدمي منتجها الرئيسي كوندكتور وأداتها المدعومة بالذكاء الاصطناعي هارموني، لا سيما من عملاء القطاع العام في الإمارات، لكنها لم تجد ضرورة للتحول إلى الاعتماد على نماذج لغوية ضخمة مخصصة للغة العربية، حسبما قال جاي غولدمان (لينكد إن) الرئيس التنفيذي للشركة.
حصلت الشركة حتى الآن على نتائج أفضل "باستخدام النماذج اللغوية الضخمة ذات الأغراض العامة عند تدريبها على مجموعة بيانات أكبر بكثير"، حسبما أضاف غولدمان، موضحا أن سينسي لابس تستخدم اللغة العربية الفصحى المعاصرة ومصطلحات قابلة للتطويع لتتماشى مع لهجات مختلفة.
كيف تصبح المنتجات المحلية أكثر جاذبية؟ يعتزم الفريق في معهد الابتكار التكنولوجي التركيز على تطوير منتجه ليصبح قادرا على التعامل مع أنواع متعددة من الوسائط، وبالتالي يتمكن من تفسير الصوت والفيديو بالإضافة إلى النصوص، حسبما قالت بوساحة. وفي الوقت نفسه، يتفق مطورون آخرون على أنه كلما كانت الشركات المحلية أكثر استعدادا لتبني الذكاء الاصطناعي، ستصبح منتجات الذكاء الاصطناعي المحلية أفضل. إذ أكد أبو شيخ أن اهتمام السوق ليس هو المشكلة، وإنما التطبيق الفعلي هو الجزء الأصعب، مضيفا أن الشركات المحلية تحتاج إلى [امتلاك] البنية التحتية وبيانات عالية الجودة، وبعد ذلك سيمكن بناء تطبيقات رائعة بالاعتماد على هذه المكونات".
الخلاصة أن هناك إجماعا على وجود فرصة سانحة، لكن بشرط توفر البنية التحتية والمواهب والاستعداد اللازم لاغتنامها. وأفضل طريقة لتوفر هذه العناصر الثلاثة هي الالتزام بجعل البرامج مفتوحة المصدر، ووضع معايير مرجعية لقياس أدائها. وعن ذلك قال حسيد: "نعتزم إبقاء الباب مفتوحا أمام من يريد المشاركة في هذا المجال".