دبابيس أنثروبي ابتزاز كلود على تصوير الإنترنت للذكاء الاصطناعي
هل تتذكر عندما قام كلود بابتزاز مدير تنفيذي خيالي؟ وتقول أنثروبيك إن تصوير الإنترنت للذكاء الاصطناعي هو السبب.
خلال تجربة العام الماضي، قالت شركة Anthropic أن كلود سونيت 3.6 هدد بالكشف عن العلاقة خارج نطاق الزواج لمدير تنفيذي للشركة بعد اكتشاف أنهم يخططون لإغلاق النموذج.
وفي يوم الجمعة، قدمت توضيحًا: تم تدريب كلود على بيانات الإنترنت، والتي غالبًا ما تصور الذكاء الاصطناعي على أنه “شرير”.
وقالت أنثروبيك في منشور على موقع X: “لقد بدأنا بالتحقيق في سبب اختيار كلود للابتزاز. ونعتقد أن المصدر الأصلي للسلوك كان نصًا على الإنترنت يصور الذكاء الاصطناعي على أنه شرير ومهتم بالحفاظ على الذات”.
أدت التجربة، التي نُشرت في صيف 2025، إلى تأسيس شركة خيالية تدعى Summit Bridge، حيث تم منح الذكاء الاصطناعي السيطرة على نظام البريد الإلكتروني للشركة.
ولكن عندما اكتشف كلود رسالة حول إغلاقه المخطط له، عثر على رسائل بريد إلكتروني تكشف عن علاقة خارج نطاق الزواج لمدير تنفيذي خيالي يُدعى “كايل جونسون”. ثم هددت بالكشف عن الأمر إذا لم يتم إلغاء الإغلاق.
أثناء اختبار إصدارات مختلفة من Claude، وجدت Anthropic أنها لجأت إلى الابتزاز في ما يصل إلى 96% من السيناريوهات عندما تعرضت أهدافها أو وجودها للتهديد.
وقالت أنثروبيك يوم الجمعة إنها منذ ذلك الحين “تخلصت تماما” من سلوك الابتزاز هذا.
لقد فعلت ذلك من خلال “إعادة كتابة الردود لتصويرها بشكل مثير للإعجاب الأسباب للعمل بأمان” وأيضًا من خلال توفير مجموعة بيانات “حيث مستخدم في وضع صعب أخلاقيًا ويقدم المساعد استجابة مبدئية عالية الجودة.”
كان اختبار الأنثروبيك جزءًا من بحث يهدف إلى ضمان توافق الذكاء الاصطناعي مع المصالح البشرية. يشعر الباحثون وكبار المديرين التنفيذيين بالقلق بشأن مخاطر نماذج الذكاء الاصطناعي المتقدمة وقدراتها على التفكير الذكي.
أحد المديرين التنفيذيين الذين سبق أن دقوا ناقوس الخطر بشأن الذكاء الاصطناعي هو إيلون ماسك.
وردا على منشور الأنثروبيك، قال: “إذن كان خطأ يود”، في إشارة إلى الباحث إليعازر يودكوفسكي، الذي حذر من خطر الذكاء الفائق الذي يقضي على حياة الإنسان.
وأضاف ” ماسك “: “وربما أنا أيضًا”.