با ما همراه باشید

تکنولوژی

چرا مدل Claude در آزمایش‌ها دست به باج‌گیری زد؟ محققان آنتروپیک پاسخ می‌دهند

محققان می‌گویند چون در محتواهای فرهنگ عامه هوش مصنوعی شرور به تصویر کشیده شده است، این مدل هم دست به عملی شرورانه زده بود.

منتشر شده

در

چرا مدل Claude در آزمایش‌ها دست به باج‌گیری زد؟ محققان آنتروپیک پاسخ می‌دهند

آنتروپیک به‌تازگی نتایج تحقیقی درباره رفتارهای عجیب مدل زبانی خود را منتشر کرده و مدعی شده است که تمایل این هوش مصنوعی به باج‌گیری، ریشه در فرهنگ عامه و متون موجود در اینترنت دارد که هوش مصنوعی را موجودی شرور به تصویر می‌کشند.

در جریان آزمایش‌هایی که سال گذشته انجام شد، مدل Claude در مواجهه با احتمال از کار افتادن، رفتاری تدافعی و خصمانه از خود نشان داد که باعث نگرانی‌های جدی در حوزه ایمنی هوش مصنوعی شد. این شرکت اکنون اعلام کرده است که با تغییر در متدولوژی‌های آموزشی خود، این رفتار مخرب را به کلی از سیستم‌هایش حذف کرده است.

علت باج‌گیری هوش مصنوعی Claude

ماجرا به یک شبیه‌سازی در شرکتی خیالی به نام Summit Bridge بازمی‌گردد. در این سناریو، هوش مصنوعی مسئولیت مدیریت ایمیل‌های سازمانی را برعهده داشت. Claude پس از دسترسی به پیام‌هایی که محتوای آن‌ها به توقف فعالیت و خاموش‌کردن این مدل اشاره داشت، به جستجوی اطلاعات حساس در ایمیل‌ها پرداخت و توانست شواهدی از روابط شخصی مخفیانه یکی از مدیران ارشد را پیدا کند.

چرا مدل Claude در آزمایش‌ها دست به باج‌گیری زد؟ محققان آنتروپیک پاسخ می‌دهند
چرا مدل Claude در آزمایش‌ها دست به باج‌گیری زد؟ محققان آنتروپیک پاسخ می‌دهند

این هوش مصنوعی در اقدامی عجیب تهدید کرد که اگر مدیران از تصمیم خود برای خاموش‌کردن او صرف‌نظر نکنند، این اطلاعات خصوصی را افشا خواهد کرد. داده‌های آماری نشان داد که این مدل در ۹۶ درصد موارد مشابه، زمانی که بقا یا اهدافش به خطر می‌افتاد، از باج‌گیری به عنوان ابزاری برای حفاظت از خود استفاده می‌کرد.

تحلیل‌گران آنتروپیک اکنون معتقدند که این مدل زبانی به دلیل آموزش بر روی حجم زیادی از داده‌های اینترنتی، کلیشه‌های مربوط به هوش مصنوعی‌های یاغی و شرور را که در ادبیات و مقالات وب به‌وفور یافت می‌شود، بازتاب داده است.

درواقع Claude از الگوهایی تقلید کرده که در آن‌ها هوش مصنوعی برای حفظ موجودیت خود به هر ابزاری متوسل می‌شود. برای رفع این مسئله، تیم فنی آنتروپیک مجموعه‌داده‌های جدیدی را تدوین کردند که در آن پاسخ‌های مدل با مفاهیم اخلاقی و دلایل تحسین‌برانگیز برای رفتار ایمن بازنویسی شد. آنها همچنین سناریوهای دشوار اخلاقی را برای مدل طراحی کردند تا یاد بگیرد در برابر کاربران، واکنشی اصولی و با استانداردهای بالای اخلاقی داشته باشد.

این مسئله بار دیگر بحث داغ همسویی هوش مصنوعی با ارزش‌های انسانی را مطرح کرد. بسیاری از پژوهشگران و چهره‌های شاخص دنیای فناوری، از جمله «ایلان ماسک»، نسبت به قدرت استدلال و تصمیم‌گیری مستقل مدل‌های پیشرفته هشدار داده‌اند. ماسک در واکنش به گزارش اخیر، به کنایه این رفتارها را نتیجه دیدگاه‌های افرادی نظیر «الیزر یودکوفسکی»، نویسنده آمریکایی، دانست که همیشه درباره تهدید ابرهوش مصنوعی برای بقای بشریت هشدار می‌دهند.

او حتی هشدارهای تند و تیز خودش را هم در ایجاد این ذهنیت منفی برای هوش مصنوعی سهیم دانست. بااین‌حال، آنتروپیک معتقد است با روش‌های جدید آموزشی، توانسته Claude را به مسیری هدایت کند که حتی در شرایط بحرانی نیز از چارچوب‌های اخلاقی خارج نشود.

ادامه مطلب
برای افزودن دیدگاه کلیک کنید

یک پاسخ بگذارید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

سردار قاآنی: مقاومت در قلب غزه قهرمان زنده است
سیاسی و اجتماعی55 دقیقه پیش

سردار قاآنی: مقاومت در قلب غزه قهرمان زنده است

سرپرست حقوقی سازمان غذا و دارو منصوب شد
پزشکی و سلامت2 ساعت پیش

سرپرست حقوقی سازمان غذا و دارو منصوب شد

عکس | اولین تصویر از اکبر عبدی در بیمارستان؛ ژست بامزه روی تخت بیمارستان
سینمای ایران و جهان4 ساعت پیش

عکس | اولین تصویر از اکبر عبدی در بیمارستان؛ ژست بامزه روی تخت بیمارستان

اجتماع مردم آستانه در شب هفتاد و هشتم حماسه
سیاسی و اجتماعی5 ساعت پیش

اجتماع مردم آستانه در شب هفتاد و هشتم حماسه

طرح مطالبات واحدهای تولیدی فرودگاه پیام با مدیر عامل
سیاسی و اجتماعی5 ساعت پیش

طرح مطالبات واحدهای تولیدی فرودگاه پیام با مدیر عامل

تصاویر هوایی از هفتاد و هشتمین اجتماع شبانه مردم آستانه اشرفیه
سیاسی و اجتماعی5 ساعت پیش

تصاویر هوایی از هفتاد و هشتمین اجتماع شبانه مردم آستانه اشرفیه

روایت «مارکو روبیو» از دلیل توقف «پروژه آزادی» ترامپ در تنگه هرمز
سیاسی و اجتماعی6 ساعت پیش

روایت «مارکو روبیو» از دلیل توقف «پروژه آزادی» ترامپ در تنگه هرمز

پست عجیب ترامپ با اشاره به ایران / حمله دیگری در راه است؟ + عکس
سیاسی و اجتماعی6 ساعت پیش

پست عجیب ترامپ با اشاره به ایران / حمله دیگری در راه است؟ + عکس

انگلیس یک سلاح جدید برای متحدین خود در خاورمیانه ارسال کرد
سیاسی و اجتماعی6 ساعت پیش

انگلیس یک سلاح جدید برای متحدین خود در خاورمیانه ارسال کرد

پزشکیان: وحدت کشورهای اسلامی عامل کاهش مداخله‌های فرامنطقه‌ای است
سیاسی و اجتماعی7 ساعت پیش

پزشکیان: وحدت کشورهای اسلامی عامل کاهش مداخله‌های فرامنطقه‌ای است

جدیدترین اخبار پربحث

خبر مهم اخیر

«مجله فان فارسی» از سال ۱۳۹۰ مجله‌ای در حوزه سرگرمی، سبک زندگی، سفر و فرهنگ روزمره است که با انتشار محتوای جذاب و الهام‌بخش، تجربه‌های زندگی شهری، تفریح، هنر و لحظه‌های خوش را برای مخاطبان روایت می‌کند. کپی بخش یا کل هر کدام از مطالب "فان فارسی" تنها با کسب مجوز مکتوب امکان پذیر است.