شركة Open AI تطلق GPT-5.4.. يقلل الهلوسة والأخطاء بنسبة 33%

كتب: نرمين عزت

شركة Open AI تطلق GPT-5.4.. يقلل الهلوسة والأخطاء بنسبة 33%

شركة Open AI تطلق GPT-5.4.. يقلل الهلوسة والأخطاء بنسبة 33%

في الساعات الماضية أعلنت شركة OpenAI إطلاق نموذجها الأحدث GPT-5.4، والذي يمثل خطوة جديدة نحو تحويل الذكاء الاصطناعي من مجرد أداة للمحادثة إلى نظام قادر على تنفيذ مهام احترافية في العالم الحقيقي، وذلك بعد أيام قليلة فقط من طرح إصدار GPT‑5.3 Instant الذي ركز على تحسين تجربة المحادثة.

ويقدم النموذج الجديد مجموعة واسعة من القدرات المتقدمة، أبرزها التحكم المباشر في الحاسوب، وسياق موسع يصل إلى مليون رمز، إلى جانب تحسينات في الدقة وتقليل الأخطاء الواقعية، ما يجعله أكثر ملاءمة للمهام المعقدة في مجالات العمل المختلفة، بحسب موقع«datacamp».

قدرات جديدة تعزز العمل الاحترافي

ويركز نموذج GPT-5.4 على دعم بيئات العمل الاحترافية، إذ يستطيع إنتاج مخرجات جاهزة للاستخدام مثل جداول البيانات والعروض التقديمية والأكواد البرمجية، كما يمكن للمستخدم تعديل مسار الاستجابة أثناء قيام النموذج بإنشائها، ما يمنح تحكمًا أكبر في النتائج.

ومن أبرز الإضافات في الإصدار الجديد ميزة الاستخدام الأصلي للحاسوب، حيث يمكن للنموذج التفاعل مع سطح المكتب من خلال لقطات الشاشة، والتحكم في الفأرة ولوحة المفاتيح، بل وكتابة أكواد برمجية لأتمتة المتصفح باستخدام أدوات مثل Playwright، ما يسمح بتنفيذ مهام متعددة عبر التطبيقات المختلفة.

نافذة سياق تصل إلى مليون رمز

يأتي GPT-5.4 بنافذة سياق قياسية تبلغ نحو 272 ألف رمز، مع إمكانية توسيعها في منصة Codex لتصل إلى مليون رمز، وهو ما يتيح للنموذج معالجة مهام طويلة ومعقدة تتطلب تخطيطًا وتنفيذًا وتحليلًا عبر كميات ضخمة من المعلومات.

كما أضافت الشركة ميزة البحث عن الأدوات في واجهة برمجة التطبيقات، والتي تسمح بتحميل تعريفات الأدوات عند الحاجة فقط بدلاً من تحميلها بالكامل مسبقًا، الأمر الذي يقلل استهلاك الرموز ويزيد كفاءة الأداء.

تقليل الأخطاء وتحسين الدقة

أكدت OpenAI أن النموذج الجديد أصبح أكثر دقة مقارنة بالإصدارات السابقة، إذ انخفضت احتمالية الأخطاء الواقعية في الإدعاءات الفردية بنسبة 33% مقارنة بنموذج GPT‑5.2، كما تراجعت نسبة الإجابات التي تحتوي على أخطاء كاملة بنسبة 18%.

كما جرى تحسين قدرة النموذج على إنشاء جداول البيانات والعروض التقديمية، إذ فضّل المقيمون البشريون تصميمات وتنسيق العروض الناتجة عن GPT-5.4 مقارنة بالإصدارات السابقة.

أداء قوي في الاختبارات المعيارية

أظهرت الاختبارات المعيارية أن النموذج الجديد يتفوق على الإصدارات السابقة في العديد من مجالات العمل المعرفي، ففي معيار GDPval الذي يقيس أداء الذكاء الاصطناعي في 44 مهنة مختلفة، تمكن GPT-5.4 من تحقيق نتائج تضاهي أو تتجاوز جودة العمل البشري في 83% من الحالات، مقارنة بنحو 70.9% في الإصدارات السابقة.

كما سجل النموذج نتائج متقدمة في اختبارات البرمجة مثل SWE-bench Pro بنسبة نجاح بلغت 57.7%، متفوقًا بشكل طفيف على إصدار GPT‑5.3 Codex.

قدرات متقدمة في استخدام الحاسوب

في اختبار OSWorld-Verified الذي يقيس قدرة النماذج على التنقل في بيئة سطح المكتب باستخدام لقطات الشاشة والتحكم بالفأرة ولوحة المفاتيح، حقق GPT-5.4 نسبة 75%، متجاوزًا الأداء البشري الذي سجل 72.4%، ومتقدمًا بشكل واضح على النماذج السابقة.

كما سجل نتائج قوية في اختبارات استخدام المتصفح مثل WebArena وMind2Web، ما يعكس قدرته على تنفيذ عمليات البحث والتنقل عبر الإنترنت بكفاءة أكبر.

دعم أفضل للبحث على الويب واستخدام الأدوات

يتميز GPT-5.4 بقدرات متقدمة في البحث على الإنترنت، إذ حقق نسبة 82.7% في معيار Browse Comp الخاص بتقييم مهارات البحث وجمع المعلومات من مصادر متعددة، كما أظهر تحسنًا في استخدام الأدوات البرمجية وواجهات التطبيقات في المهام متعددة الخطوات.

تحسينات في التفكير والاستدلال

ورغم أن الاستدلال لم يكن محور التحديث الرئيسي، إلا أن النموذج حقق نتائج أفضل في الاختبارات الأكاديمية والمنطقية، ففي اختبار Frontier Math ارتفعت نسبة النجاح إلى 47.6% مقارنة بـ40.3% في الإصدار السابق.

كما سجل أداء قويًا في اختبار ARC-AGI المخصص لقياس الاستدلال المجرد، حيث وصلت نسبة النجاح إلى 93.7% في أحد الاختبارات و73.3% في اختبار آخر، ما يعكس تحسنًا كبيرًا في قدرات التفكير المعقد.