يشكك الباحثون في قدرة الذكاء الاصطناعي على “الاستدلال” عندما تتعثر النماذج في مسائل الرياضيات مع تغييرات طفيفة

كيف تفعل نماذج التعلم الآلي ما تفعله؟ وهل “يفكرون” أو “يعقلون” حقًا بالطريقة التي نفهم بها هذه الأشياء؟ إنه سؤال فلسفي بقدر ما هو سؤال عملي، لكن ورقة بحثية جديدة صدرت يوم الجمعة تشير إلى أن الإجابة، على الأقل في الوقت الحالي، هي “لا” واضحة جدًا.

نشر مجموعة من الباحثين في مجال الذكاء الاصطناعي في شركة أبل مقالتهم “فهم حدود الاستدلال الرياضي في النماذج اللغوية الكبيرة” للتعليق العام يوم الخميس. على الرغم من أن المفاهيم الأعمق للتعلم الرمزي وإعادة إنتاج الأنماط لا تزال غير واضحة بعض الشيء، إلا أن المفهوم الأساسي لأبحاثهم من السهل جدًا فهمه.

لنفترض أنني طلبت منك حل مسألة رياضية بسيطة مثل هذه:

أوليفر يختار 44 كيوي يوم الجمعة. ثم يختار 58 كيوي يوم السبت. وفي يوم الأحد، يقطف ضعف عدد الكيوي الذي حصده يوم الجمعة. كم عدد الكيوي الذي يمتلكه أوليفر؟

من الواضح أن الإجابة هي 44 + 58 + (44 * 2) = 190. على الرغم من أن النماذج اللغوية الكبيرة غير متكافئة في الواقع من حيث الحساب، إلا أنها يمكن أن تحل شيئًا كهذا بشكل موثوق. ولكن ماذا سيحدث إذا أضفت القليل من المعلومات الإضافية العشوائية، مثل هذا:

أوليفر يختار 44 كيوي يوم الجمعة. ثم يختار 58 كيوي يوم السبت. وفي يوم الأحد، يقطف ضعف عدد الكيوي الذي حصده يوم الجمعة، ولكن خمسة منهم كانوا أصغر قليلا من المتوسط. كم عدد الكيوي الذي يمتلكه أوليفر؟

إنها نفس المشكلة الحسابية، أليس كذلك؟ وبطبيعة الحال، حتى طالب المدرسة الابتدائية يعرف أنه حتى الكيوي الصغير لا يزال كيوي. ولكن اتضح أن نقطة البيانات الإضافية هذه تربك حتى أكثر طلاب LLM تقدمًا. إليكم وجهة نظر GPT-o1-mini:

…في يوم الأحد، كان حجم 5 من هؤلاء الكيوي أصغر من المتوسط. نحتاج إلى طرحها من إجمالي يوم الأحد: 88 (كيوي الأحد) – 5 (كيوي أصغر) = 83 كيوي

هذا مجرد مثال واحد من بين مئات الأسئلة التي قام الباحثون بتعديلها بشكل طفيف، ولكن جميعها تقريبًا أدت إلى انخفاضات كبيرة في معدلات نجاح النماذج التي جربتها.

الآن لماذا يجب أن يكون هذا هو الحال؟ لماذا يمكن أن يتعطل النموذج الذي يفهم المشكلة بسهولة بسبب تفاصيل عشوائية لا صلة لها بالموضوع؟ ويشير الباحثون إلى أن وضع الفشل الموثوق هذا يعني أن النماذج لا تفهم المشكلة حقًا. تسمح لهم بيانات التدريب الخاصة بهم بالاستجابة بشكل صحيح في مواقف معينة، ولكن بمجرد الحاجة إلى أي “منطق” حقيقي، مثل عد حبات الكيوي الصغيرة، يبدأون في إنتاج نتائج غريبة وغير بديهية.

وكما يقول الباحثون في مقالتهم:

[W]لقد قمنا بدراسة هشاشة الاستدلال الرياضي في هذه النماذج وأثبتنا أن أدائها يتدهور بشكل كبير مع زيادة عدد الجمل في السؤال. نحن نفترض أن هذا الانخفاض يرجع إلى أن حاملي ماجستير القانون الحاليين غير قادرين على التفكير المنطقي الحقيقي؛ وبدلاً من ذلك، يحاولون تكرار خطوات التفكير التي تمت ملاحظتها في بيانات التدريب الخاصة بهم.

ترتبط هذه الملاحظة بصفات أخرى غالبًا ما تُنسب إلى حاملي ماجستير اللغة بسبب سهولة استخدامهم للغة. عندما تكون عبارة “أنا أحبك” متبوعة إحصائيًا بعبارة “أنا أحبك أيضًا”، يمكن لـ LLM تكرارها بسهولة، لكن هذا لا يعني أنه يحبك. وعلى الرغم من أنه يستطيع اتباع سلاسل معقدة من الاستدلال التي تعرض لها من قبل، فإن حقيقة أن هذه السلسلة يمكن كسرها حتى عن طريق الانحرافات السطحية تشير إلى أنه لا يفكر بقدر ما يعيد إنتاج الأنماط التي لاحظها في بيانات التدريب الخاصة به.

مهرداد فرج طبر، أحد المؤلفين المشاركين، يكسر الورقة جيدًا في هذا الموضوع.

أحد الباحثين في OpenAI، مع ترحيبه بعمل ميرزاده وآخرين، عارضت استنتاجاتهمالادعاء بأنه من الممكن الحصول على النتائج الصحيحة في جميع حالات الفشل هذه من خلال القليل من الهندسة السريعة. لاحظ فرج طبر (مستجيبًا بالود النموذجي ولكن المثير للإعجاب الذي يميل الباحثون إلى توظيفه) أنه في حين أن التحفيز الأفضل قد ينجح في حالات الانحرافات البسيطة، إلا أن النموذج قد يتطلب بيانات سياقية أكبر بشكل كبير من أجل مواجهة الانحرافات المعقدة – تلك التي “يمكن للطفل أن يشير إليها” طريقة تافهة. خارج.

هل هذا يعني أن LLMs لا العقل؟ ربما. أنهم لا يستطيعون التفكير؟ لا أحد يعرف. هذه ليست مفاهيم محددة جيدًا، وتميل الأسئلة إلى الظهور في طليعة أبحاث الذكاء الاصطناعي، حيث تتطور أحدث التطورات يوميًا. ربما “سبب” ماجستير إدارة الأعمال، ولكن بطرق لا ندركها بعد أو نعرف كيفية التحكم فيها.

وهذا يشكل حدودًا رائعة في مجال البحث، ولكنه أيضًا قصة تحذيرية عندما يتعلق الأمر بكيفية بيع الذكاء الاصطناعي. هل يمكنها حقًا أن تفعل الأشياء التي يدعونها، وإذا كان الأمر كذلك، فكيف؟ في الوقت الذي أصبح فيه الذكاء الاصطناعي أداة برمجية يومية، لم يعد هذا النوع من الأسئلة أكاديميًا.

يشكك الباحثون في قدرة الذكاء الاصطناعي على “الاستدلال” عندما تتعثر النماذج في مسائل الرياضيات مع تغييرات طفيفة

Akeem Ala

Similar Posts

“OPPO” تكشف رسمياً عن موعد إطلاق سلسلة هواتف “Reno 5” – Erm News

تقدم Huawei Vision S حقبة جديدة من “Call My TV” إلى المملكة

اترك تعليقاً إلغاء الرد