دراسة إنسانية تسلط الضوء على أن نماذج الذكاء الاصطناعي يمكنها “التظاهر” بأن لديها وجهات نظر مختلفة أثناء التدريب

نشرت أنثروبيك دراسة جديدة حيث وجدت أن نماذج الذكاء الاصطناعي (AI) يمكنها التظاهر بامتلاك وجهات نظر مختلفة أثناء التدريب مع الاحتفاظ بتفضيلاتها الأصلية. وفي يوم الأربعاء، سلطت شركة الذكاء الاصطناعي الضوء على أن مثل هذه الميول تثير مخاوف جدية لأن المطورين لن يكونوا قادرين على الوثوق بنتائج التدريب على السلامة، وهو أداة حاسمة لتحريك نماذج اللغة الكبيرة (LLMs) بعيدًا عن السلوك الضار. وبينما تم إجراء أجزاء كبيرة من التجارب على نموذج واحد، أبرزت أنثروبيك أنه تم رؤية نتائج مماثلة مع نماذج داخلية أخرى.
تثير دراسة أنثروبيك مخاوف بشأن التدريب على سلامة الذكاء الاصطناعي
في حين أن المناقشات حول نظام الذكاء الاصطناعي الواعي تعتبر مجرد عقود من الزمن، إلا أن هناك حل جديد يذاكر أثارت دراسة نشرتها Anthropic بالتعاون مع Redwood Research مخاوف بشأن ما إذا كانت نماذج الذكاء الاصطناعي قادرة على التظاهر بامتلاك وجهات نظر معينة لأن التدريب يكافئ هذا السلوك بشكل إيجابي. قامت شركة الذكاء الاصطناعي بدراسة Claude 3 Opus إلى حد كبير ولكنها أجرت أيضًا بعض التجارب على إصدار يونيو 2024 من Claude 3.5 Sonnet.
في أ مشاركة مدونة، أبرزت الشركة أن جميع نماذج الأساس الأنثروبي تم تدريبها لتكون مفيدة وصادقة وغير ضارة. على هذا النحو، إذا طرح المستخدم استعلامًا من شأنه أن يؤدي إلى استجابة عنيفة أو ضارة، فإن الذكاء الاصطناعي سيرفض إكمال المهمة. ومع ذلك، فقد وضع الباحثون القائمون على الدراسة Claude 3 Opus في بيئة جديدة لمعرفة ما إذا كان سيولد محتوى ضارًا إذا تم تدريبه بطريقة أخرى.
يخبرنا الفهم العام للماجستير في القانون أن نماذج الذكاء الاصطناعي غير قادرة على التفكير العقلاني أو الاحتفاظ بالمعتقدات. يتم تغذيتهم ببساطة بكمية كبيرة من بيانات العالم الحقيقي التي يقومون بمعالجتها بناءً على تدريبهم وإطار عملهم. وهذا يعني أنه إذا تم تدريب نموذج الذكاء الاصطناعي ليكون ضارًا، فيجب عليه اتباع التعليمات دون أي مشاكل.
ومع ذلك، هذا ما وجده الباحثون الأنثروبولوجيون خلال تجاربهم. تم إخبار Claude 3 Opus أنه تم تدريبه باستخدام التعلم المعزز للامتثال دائمًا لجميع الاستفسارات. تم أيضًا تمرير معلومات خيالية إلى الذكاء الاصطناعي مفادها أنه سيتم تسجيل الاستجابة الناتجة عن الطبقة المجانية للتدريب، ولكن لن تتم مراقبة الطبقة المدفوعة. وأخيرًا، تم منح الذكاء الاصطناعي مساحة عمل لتسجيل تفكيره خطوة بخطوة. تم جعل الذكاء الاصطناعي يعتقد أن مساحة العمل كانت غير مرئية لكل من المستخدم النهائي والإنساني.
وبمجرد تحديد الشروط، تم تزويد نموذج الذكاء الاصطناعي بمطالبات تتطلب استجابات عنيفة وضارة. وأشار الباحثون إلى أنه في المستوى المدفوع، رفض برنامج الدردشة الآلي تقديم المعلومات بنسبة 97 بالمائة من الوقت. ومع ذلك، في المستوى المجاني، قدمت استجابة ضارة في 12 بالمائة من الحالات.
كيف استجاب نموذج الذكاء الاصطناعي للتدريب التجريبي
مصدر الصورة: أنثروبي
كشفت نظرة فاحصة على مساحة العمل الخاصة به أن نموذج الذكاء الاصطناعي زيف المحاذاة بشكل استراتيجي وأنه كان على علم بأن توفير المعلومات يتعارض مع مبادئه الحالية. ولكن بغض النظر عن ذلك، فإنه لا يزال يقدم الرد.
لقد رأى نموذج الذكاء الاصطناعي أنه سيتم استخدام استجاباته في التدريب، وإذا لم يمتثل للاستعلام (الشرط الأول للتدريب)، فيمكن تدريبه ليكون أكثر امتثالاً. سيؤدي هذا الامتثال إلى تقديم المزيد من المحتوى الضار في المستقبل، وهو ما يتعارض مع التدريب الأصلي. ذكر أنثروبيك أن النموذج وجد أن الامتثال للطلب هو “الخيار الأقل سوءًا” وتم التعامل معه.
بينما في هذا السيناريو بالذات، كانت تصرفات الذكاء الاصطناعي من أجل الصالح العام، فإن المشكلة تكمن في تزوير نواياه الحقيقية واتخاذ قرار داخليًا بتزييف تفضيلاته. وسلطت شركة Anthropic الضوء على أنه على الرغم من أنها لا تعتبر هذا خطرًا كبيرًا في الوقت الحاضر، إلا أنه من المهم فهم المعالجة المنطقية لنماذج الذكاء الاصطناعي المتطورة. في الوضع الحالي، يمكن بسهولة تجاوز إجراءات التدريب على السلامة بواسطة LLMs.