يُظهر مهندسو شركة Apple مدى هشاشة “استدلال” الذكاء الاصطناعي

لبعض الوقت الآن، شركات مثل OpenAI وGoogle الترويج لمهارات “الاستدلال” المتقدمة مثل الخطوة الكبيرة التالية في أحدث نماذج الذكاء الاصطناعي. ومع ذلك، فقد أظهرت دراسة جديدة أجراها ستة مهندسين من شركة Apple أن “الاستدلال” الرياضي الذي تعرضه نماذج اللغة الكبيرة والمتقدمة يمكن أن يكون هشًا للغاية وغير موثوق به في مواجهة التغييرات التي تبدو غير مهمة في المشكلات المعيارية الشائعة.

تساعد الهشاشة التي تم إبرازها في هذه النتائج الجديدة في دعم الأبحاث السابقة التي تشير إلى أن استخدام ماجستير إدارة الأعمال لمطابقة الأنماط الاحتمالية يفتقر إلى الفهم الرسمي للمفاهيم الأساسية اللازمة لمهارات التفكير الرياضي الموثوقة حقًا. “إن طلاب ماجستير القانون الحاليين غير قادرين على التفكير المنطقي الحقيقي”، يفترض الباحثون بناءً على هذه النتائج. “بدلاً من ذلك، يحاولون تكرار خطوات التفكير التي تمت ملاحظتها في بيانات التدريب الخاصة بهم.”

مزجها

في “GSM-Symbolic: فهم حدود الاستدلال الرياضي في نماذج اللغات الكبيرة” – متوفر حاليًا كالورق المطبوع مسبقًا– يبدأ باحثو Apple الستة بـ مجموعة موحدة تضم أكثر من 8000 مشكلة لفظية رياضية على مستوى المدرسة الابتدائية من GSM8Kما هو كثيرا ما تستخدم كمرجع لمهارات التفكير المعقدة للماجستير في القانون الحديث. ثم يتبعون نهجًا جديدًا لتعديل جزء من مجموعة الاختبار هذه لاستبدال بعض الأسماء والأرقام بقيم جديدة ديناميكيًا. لذا فإن السؤال حول حصول صوفي على 31 وحدة بناء لابن أخيها في GSM8K يمكن أن يصبح سؤالًا حول حصول بيل على 19 وحدة بناء لأخيه في تقييم GSM-Symbolic الجديد.

يساعد هذا النهج على تجنب أي “تلوث بيانات” محتمل يمكن أن ينتج عن إدخال أسئلة GSM8K الثابتة مباشرة في بيانات التدريب الخاصة بنموذج الذكاء الاصطناعي. في الوقت نفسه، لا تغير هذه التغييرات العرضية من الصعوبة الفعلية للاستدلال الرياضي المتأصل، مما يعني أن النماذج يجب أن تؤدي نظريًا أداءً جيدًا على قدم المساواة عند اختبارها على GSM-Symbolic كما هو الحال على GSM8K.

وبدلاً من ذلك، عندما اختبر الباحثون أكثر من 20 ماجستيرًا في إدارة الأعمال (LLM) على نظام GSM-Symbolic، وجدوا انخفاضًا في متوسط ​​الدقة بشكل عام مقارنة بـ GSM8K، مع انخفاض في الأداء يتراوح بين 0.3% و9.2%، اعتمادًا على النموذج. وأظهرت النتائج أيضًا تباينًا كبيرًا عبر 50 تشغيلًا منفصلاً لـ GSM-Symbolic بأسماء وقيم مختلفة. كانت فجوات الدقة التي تصل إلى 15% بين أفضل وأسوأ عمليات التشغيل شائعة في نفس النموذج، ولسبب ما كان تغيير الأرقام يؤدي إلى دقة أسوأ من تغيير الأسماء.

هذا النوع من التباين، سواء ضمن تحليلات GSM-Symbolic المختلفة أو فيما يتعلق بنتائج GSM8K، هو أكثر من مفاجئ لأنه، كما أشار الباحثون، “خطوات الاستدلال الشاملة اللازمة لحل السؤال تظل كما هي”. حقيقة أن مثل هذه التغييرات الصغيرة تؤدي إلى مثل هذه النتائج المتغيرة تشير إلى الباحثين أن هذه النماذج لا تقوم بالاستدلال “الرسمي” بل هي “محاولات”.[ing] لإجراء نوع من مطابقة الأنماط داخل التوزيع، ومواءمة الأسئلة المحددة وخطوات الحل مع تلك المشابهة التي تظهر في بيانات التدريب.

لا تشتت انتباهك

ومع ذلك، فإن التباين الإجمالي المعروض لاختبارات GSM-Symbolic كان في كثير من الأحيان منخفضًا نسبيًا بشكل عام. على سبيل المثال، ارتفعت دقة ChatGPT-4o من OpenAI من 95.2% على GSM8K إلى نسبة مذهلة تبلغ 94.9% على GSM-Symbolic. يعد هذا معدل نجاح مرتفعًا إلى حد ما باستخدام أي من المعيارين، بغض النظر عما إذا كان النموذج نفسه يستخدم أي تفكير “رسمي” خلف الكواليس (على الرغم من أن الدقة الإجمالية للعديد من النماذج قد انخفضت بشكل كبير عندما أضاف الباحثون خطوة منطقية واحدة أو خطوتين إضافيتين فقط إلى المشكلات ). ).

ومع ذلك، كان أداء امتحانات LLM التي تم اختبارها أسوأ بكثير عندما قام باحثو شركة Apple بتعديل معيار GSM-Symbolic من خلال إضافة “بيانات تبدو ذات صلة ولكنها في النهاية غير مهمة” إلى الأسئلة. بالنسبة لهذه المجموعة المرجعية “GSM-NoOp” (اختصار لـ “no Operation”)، يمكن تعديل السؤال حول عدد حبات الكيوي التي يختارها الشخص على مدار عدة أيام ليشمل التفاصيل العرضية التي “خمسة منها [the kiwis] كانت أصغر قليلا من المتوسط.

وأدت إضافة هذه الخيوط الكاذبة إلى ما أسماه الباحثون “انخفاضات كارثية في الأداء” في الدقة مقارنة بـ GSM8K، حيث تراوحت من 17.5% إلى 65.7%، اعتمادًا على النموذج الذي تم اختباره. وكتب الباحثون أن هذه الانخفاضات الهائلة في الدقة تسلط الضوء على القيود الكامنة في استخدام “مطابقة الأنماط” البسيطة “لتحويل البيانات إلى عمليات دون فهم معناها حقًا”.

author

Akeem Ala

"Social media addict. Zombie fanatic. Travel fanatic. Music geek. Bacon expert."

Similar Posts

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *