أقسام الوصول السريع (مربع البحث)

آخر الأخبار

شركة OpenAI تطرح حلاً لـ مشكلة هلوسة نماذج الذكاء الاصطناعي!

صورة لروبوت بشري بطريقة تصوير رقمية حيث يظهر بخطوط خارجة من درأسه

في الوقت الذي أصبحت فيه أدوات الذكاء الاصطناعي جزءاً من حياتنا اليومية، لا تزال مشكلة هلوسة نماذج الذكاء الاصطناعي تشكّل تحدياً خطيراً أمام الشركات المطوِّرة كشركة OpenAI. فهل يمكن فعلاً القضاء على هذه الظاهرة التي تجعل النماذج تختلق معلومات خاطئة وتقتنع بأنها صحيحة؟

قامت شركة OpenAI مؤخراً بنشر بحث يوضّح فيه بالضبط لماذا يقوم ChatGPT وغيره من نماذج الذكاء الاصطناعي الكبيرة باختراع أشياء وأجوبة غير صحيحة والتصرّف بثقة كاملة بأنه مقتنع بأنها حقيقية. وهي الظاهرة التي باتت تعرف باسم مشكلة هلوسة نماذج الذكاء الاصطناعي، حيث يعمل النموذج بشكل طبيعي وفجأة يبدأ بالهلوسة عن طريق اختراع أجوبة خاطئة والتظاهر بأنها صحيحة. وقد يبدأ بالهلوسة حتى في بداية استخدامه، فليس من الضروري أن يتعرض للضغط عن طريق الاستعمال المكثف ليصل إلى الهلوسة. وتشير الشركة في البحث إلى أن هذه المشكلة قد تكون غير قابلة للحل.


مشكلة هلوسة نماذج الذكاء الاصطناعي

هذا البحث الذي نشرته الشركة بتاريخ 5/9/2025م يقدّم حالياً التفسير الرياضي الأكثر دقة ومنطقية حتى الآن لسبب طرح هذه النماذج لمعلومات خاطئة بثقة عالية. ويوضّح أيضاً أن الأمر ليس مجرد عارض جانبي لأسلوب تدريب نماذج الذكاء الاصطناعي، بل نتيجة حتمية منطقية لا يمكن تجنبها.

جزء من مشكلة هلوسة نماذج الذكاء الاصطناعي يمكن نسبه إلى الأخطاء الموجودة في البيانات التي تُستخدم لتدريب النموذج. لكن من خلال التحليل الرياضي لآلية تعلم الأنظمة، أثبت الباحثون أن المشكلة ستظل قائمة حتى لو كانت بيانات التدريب مثالية وخالية من الأخطاء.

أما عن السبب الأساسي فهو أن نماذج اللغة تتنبأ بالكلمات واحدة تلو الأخرى. وعندما تولّد جملة أو فقرة كاملة، فإن الأخطاء المحتملة تتراكم تدريجياً. وبحسب ما توصّلوا إليه في هذا البحث، فإن معدل الخطأ في النصوص المتولدة لا يقلُّ عن ضعفي معدل الخطأ في مهام أبسط، كالإجابة على سؤال بنعم أو لا. وهذا يعني أن كلما طال النص الذي يولّده النموذج، زادت احتمالية تراكم الأخطاء.

والأمر لا يتوقف هنا، فالبحث يبيّن أنه كلما كان النموذج أقل تعرضاً لحقيقة معينة أثناء التدريب، زادت احتمالية أن يقدّم عنها إجابة خاطئة. فعلى سبيل المثال إذا ظهر تاريخ ميلاد شخصية بارزة مرة واحدة فقط في بيانات التدريب، فالنموذج سيخطئ بنسبة 20% عند سؤاله عن هذه المعلومة.

وفي تجربة عملية متصلة بالبحث، عندما طرحت أسئلة على نماذج حديثة حول تاريخ ميلاد آدم كالاي، وهو أحد مؤلفي البحث، قدّمت النماذج ثلاثة تواريخ مختلفة وجميعها كانت خاطئة.


مشكلة التقييم لدى النماذج

الجانب المثير للقلق بشكل أكبر هو أن مشكلة هلوسة نماذج الذكاء الاصطناعي تظل قائمة حتى بعد تطبيق استراتيجيات ما بعد التدريب، كتلك التي تضيف تغذية راجعة بشرية إلى النموذج قبل إطلاقه.

فقد درس الباحثون عشرة مقاييس رئيسية تستخدم اليوم لتقييم أداء نماذج الذكاء الاصطناعي، بما فيها تلك المعتمدة من شركات كبرى كشركةGoogle وشركة OpenAI. وقد وجدوا أن تسعة من هذه المقاييس تعتمد على تقييم ثنائي (صح أو خطأ) لا يمنح أي نقاط إضافية للنموذج عندما يقول: "لا أعلم".

هذه الآلية تخلق ما وصفه الباحثون بـ "الخوف من المعاقبة على الصراحة". فالنموذج عندما يعترف بجهله، يُعاقَب بنفس الدرجة التي يُعاقب بها عندما يقدّم إجابة خاطئة. وبالتالي يتعلّم أن التخمين أفضل من الاعتراف بعدم المعرفة.

وأظهر التحليل الرياضي أن التخمين دائماً يمنح النموذج نقاطاً متوقعة أعلى مقارنة بالقول "لا أعلم"، وهذا يفسّر لماذا يصرُّ شات جي بي تي وأشباهه على تقديم إجابات واثقة حتى لو كانت خاطئة تماماً.


ما هو الحل المقترح لحل مشكلة هلوسة نماذج الذكاء الاصطناعي

تقترح شركة أوبن إيه آي أن يدمج في النموذج عنصر جديد هو مستوى الثقة في الإجابة. أي أن يُطلب من الذكاء الاصطناعي الإجابة فقط عندما تتجاوز ثقته عتبة معينة، مثل 75%. ووفق هذا النظام؛ عند التقييم إذا كانت الإجابة الصحيحة يمنح النموذج نقطة واحدة بينما الإجابة الخاطئة تخصم منه ثلاث نقاط. وبذلك سيتوقف النموذج سيتوقف عن التخمين العشوائي ويصبح أكثر ميلاً لقول "لا أعلم" عندما يكون غير واثقاً من الإجابة.


سلبيات تطبيق هذا الحل

لهذا الحل جانب سلبي كارثي نوعاً ما؛ فبحسب تقديرات البحث سيؤدي الأمر إلى أن تقول النماذج "لا أعلم" في نحو 30% من الحالات. ورغم أن هذا سيقلل من مشكلة هلوسة نماذج الذكاء الاصطناعي، إلا أنه سيؤدي إلى تجربة استخدام محبِطة للمستخدمين. فالعديد من المستخدمين يعتمدون على هذه النماذج لطرح أي سؤال والحصول على إجابة سريعة وواثقة. أي أنهم يعتبرونه وسيلة تقدّم إجابة بشكل حتمي عن أي شيء يُعرض عليها.

وهناك سبب آخر يجعل تطبيق هذا الحل صعباً وهو التكلفة. فالطرق التي تتيح للنماذج قياس مستوى الثقة تتطلب عمليات حسابية إضافية كثيرة، لأنها تضطر إلى تقييم احتمالات متعددة قبل إصدار الإجابة. ونحن نتحدث عن أنظمة تخدم ملايين الاستفسارات يومياً، لذا فإن التكلفة التشغيلية تصبح هائلة.


هل هناك طرق أخرى لعلاج مشكلة الهلوسة هذه؟

الأساليب الأكثر تقدماً، كأسلوب التعلم النشط الذي يجعل نموذج الذكاء الاصطناعي يطرح أسئلة توضيحية بدلاً من تقديم إجابة غير دقيقة، قد ترفع الدقة بشكل كبير. لكنها تزيد من متطلبات الحوسبة لدرجة تجعلها غير عملية اقتصادياً للنماذج اللغوية التي تستخدم لتقديم معلومات عادية بشكل كبير يومياً.

في المقابل ضمن مجالات حساسة كالتشخيص الطبي أو إدارة سلاسل الإمداد أو التداول المالي، يصبح من المنطقي والضروري الاستثمار في حل مشكلة هلوسة نماذج الذكاء الاصطناعي مهما ارتفعت التكاليف. فهنا الخطأ قد يكلّف حياة أو ملايين الدولارات. أما بالنسبة لتطبيقات المستهلكين اليومية، تظل الأولوية للسرعة والقدرة على الإجابة بثقة حتى لو كان الثمن أحياناً هو الخطأ.


خلاصة القول: المشكلة ستبقى موجودة، ولكن!

بشكل غير مقصود، كشف هذا البحث الذي قدّمته شركة OpenAI عن حقيقة مهمة: أن العائد المالي الذي يأتي من المستخدمين ويتم استخدامه لتطوير أنظمة الذكاء الاصطناعي أو الوكيل الذكي لا يكفي لحل مشكلة هلوسة نماذج الذكاء الاصطناعي.

وبالتالي ستظل هذه الظاهرة جزءاً أساسياً من نموذج شات جي بي تي وغيره من النماذج، إلا إذا تغيّر العائد المالي أو حدثت قفزات جذرية في أسلوب بناء هذه الأنظمة.

بالنسبة للمستخدم الذي يبحث عن حل لهذه المشكلة يستطيع من نفسه ضمن تخصيص النموذج وضع شرط لتقديم الأجوبة. مثلاً:

"عندما لا تكون متأكداً من الإجابة بنسبة 100% قم بإخباري بالأمر بشكل صريح عوضاً عن التخمين"

أو:

" الإجابة التي تجد نفسك لا تستطيع التأكد منها وستستعين بالتخمين لإنشائها، أجب عوضاً عنها بـ لا أعلم".

ويمكن أن تقوم بذلك مباشرة في بداية الدردشة وتطلب منه أن يحفظ ذلك في ذاكرته أو عن طريق تخصيصه من الإعدادات.

وعلى الرغم من أن النتيجة لن تكون مضمونة بنسبة 100٪ إلا أن الأمر سيكون مقبولاً خاصة في حال كنت ستتعامل معه بموضوع حساس لا يحتمل إنشاء أي إجابات تعتمد على التخمين.

Aya Brimo
Aya Brimo