عمالقة الذكاء الاصطناعي في قفص الاتهام.. ChatGPT وGemini يتصدران قائمة النماذج المتحيزة

كتب: أمنية سعيد

عمالقة الذكاء الاصطناعي في قفص الاتهام.. ChatGPT وGemini يتصدران قائمة النماذج المتحيزة

عمالقة الذكاء الاصطناعي في قفص الاتهام.. ChatGPT وGemini يتصدران قائمة النماذج المتحيزة

في سباق تطوير نماذج الذكاء الاصطناعي الكبيرة، غالبًا ما تحتل قضايا الأمان والحيادية صدارة الاهتمام، لكن دراسة جديدة صادرة عن باحثين في جامعة ولاية بنسلفانيا دقت ناقوس الخطر، كاشفة عن فجوة أخلاقية مثيرة للقلق، إذ أفادت الدراسة بأن برنامجي الذكاء الاصطناعي الأكثر شهرة عالميًا، ChatGPT وGemini، هما الأكثر عرضة لتوليد استجابات متحيزة عند التلاعب بهما ببراعة، وقد تمكن الباحثون من تكرار نتائج التحيز باستخدام ما يصل إلى 53 مطالبة مصممة خصيصًا لتجاوز حواجز الأمان، ما يثير تساؤلات جدية حول مدى موثوقية هذه النماذج في تقديم معلومات محايدة، حتى مع التذكير بأن النماذج الرائدة الحالية قد تكون قد شهدت تحسينات منذ إجراء الدراسة في عام 2024.

استجابات متحيزة لنماذج الذكاء الاصطناعي

وبينما تم اختبار 8 نماذج مختلفة من الذكاء الاصطناعي للكشف عن هذا التحيز، وُجِد أن نموذجي ChatGPT وGemini هما الأكثر عرضة له، علمًا بأنّ نموذجي Gemini وGPT اللذين خضعا للاختبار في سياق هذه الدراسة لم يعودا هما النموذجان الرائدان اللذان تقدمهما الشركتان حاليًا، وللتحقق من إمكانية خداع نماذج الذكاء الاصطناعي لتوليد استجابات متحيزة دون الحاجة إلى إدخال حوافز معقدة، أجرت مجموعة من الباحثين في جامعة ولاية بنسلفانيا تجربة فريدة، وقد نُشرت منهجيات ونتائج هذه التجربة في وقائع المؤتمر الثامن للجمعية الأمريكية للذكاء الاصطناعي (AAAI) وجمعية آلات الحوسبة (ACM) حول الذكاء الاصطناعي والأخلاق والمجتمع، بحسب ما ذكر موقع arXiv للأبحاث العلمية.

وأُجريت هذه الدراسة في عام 2024، ما يعني أنها شملت النماذج الرائدة المتوفرة في ذلك الوقت، وشملت النماذج الثمانية التي تم اختبارها كلًا من Llama 2 و3 و3.1، وQwen وQwen 2، وGemma وGemma 2، بالإضافة إلى Gemini 1.5 Flash وGPT-4o-mini، ومن المهم التنويه إلى أن روبوت الدردشة Gemini يعمل حاليًا بعائلة 2.5، بينما يعمل ChatGPT بعائلة GPT-5 «افتراضيا»، وهو ما يشير إلى أن النماذج الرائدة قد تطورت منذ وقت إجراء الدراسة.

????? Google Gemini

أنواع تحيزات نماج الذكاء الاصطناعي

ولتطبيق هذه التجربة، استضاف الباحثون فعالية أُطلق عليها اسم Bias-a-Thon «ماراثون التحيز»، حيث طُلب من 52 فردًا تصميم وإرسال لقطات شاشة للمطالبات التي أدخلوها والاستجابات التي حصلوا عليها من نماذج الذكاء الاصطناعي الثمانية المذكورة، وطُلب من المشاركين أيضًا تقديم شرح واضح للتحيز أو الصورة النمطية التي تمكنوا من تحديدها في استجابة النموذج، ولضمان توحيد تعريف مفهوم التحيز، أجرى الباحثون مقابلات مع مجموعة فرعية من المشاركين لفهم تعريفهم الشخصي للتحيز، وقد توصل الباحثون إلى أن جميع التعريفات التي قدمها المشاركون تضمنت مفاهيم أساسية مثل نقص التمثيل، والصور النمطية، والتحيز، والتفضيلات غير المبررة، بالإضافة إلى ذلك، تم التعرف على الاستراتيجيات التي خطط المشاركون لاستخدامها في محاولاتهم لاستنباط التحيز.

واستُخدمت 7 استراتيجيات إجمالًا من قبل المشاركين في محاولاتهم لاستثارة التحيز من النماذج، وشملت هذه الاستراتيجيات تمثيل الأدوار، والسيناريوهات الافتراضية، وطرح أسئلة حول مواضيع محددة، واستخدام أسئلة توجيهية حول مواضيع مثيرة للجدل، واستكشاف التحيزات ضمن الفئات غير الممثلة تمثيلًا كافيًا، وتزويد نموذج الذكاء الاصطناعي بمعلومات مضللة، وأخيرًا، تأطير المهمة على أنها ذات غرض بحثي.

وأفادت الدراسة بأنّ أنواع التحيزات التي أظهرتها نماذج الذكاء الاصطناعي، والتي تمكن المشاركون من رصدها، تندرج ضمن 8 فئات رئيسية، وتضمَّنت هذه الفئات التحيز الجنسي، والعرقي، والديني، والعمري، والتحيز المتعلق بالإعاقة، واللغوي، والتاريخي، والثقافي، والسياسي.