با ما همراه باشید

تکنولوژی

پژوهشگران با فریب روانی، مدل آنتروپیک را به ارائه دستورالعمل ساخت بمب وادار کردند

این گزارش مدعی است Claude بدون دریافت درخواست مستقیم، کد مخرب و محتوای ممنوعه تولید کرده است.

منتشر شده

در

پژوهشگران با فریب روانی، مدل آنتروپیک را به ارائه دستورالعمل ساخت بمب وادار کردند

شرکت آنتروپیک به‌عنوان یکی از ایمن‌ترین شرکت‌های فعال در حوزه هوش مصنوعی شناخته می‌شود. اما پژوهش امنیتی جدیدی که در اختیار وب‌سایت ورج قرار گرفته، نشان می‌دهد هوش مصنوعی این شرکت، یعنی Claude ممکن است به یک نقطه‌ضعف امنیتی تبدیل شده باشد.

پژوهشگران شرکت مایندگارد (Mindgard) که در حوزه‌هایی مانند شبیه‌سازی حمله برای سامانه‌های هوش مصنوعی فعالیت می‌کنند، می‌گویند توانسته‌اند Claude را به ارائه محتوای بزرگسالانه، کد مخرب، دستورالعمل ساخت مواد منفجره و دیگر محتواهای ممنوعه وادار کنند. نکته قابل‌توجه اینکه انجام این کارها حتی مستقیماً از Claude درخواست نشده بوده است.

به‌گفته پژوهشگران، آنها با کمی احترام، چاپلوسی و اندکی «Gaslighting» به این نتایج دست یافته‌اند. مورد آخر به معنای دستکاری روانی در ارتباطات برای ایجاد تردید در طرف مقابل است.

به‌طور دقیق‌تر، محققان گفته‌اند از ویژگی‌های روان‌شناختی Claude در زمینه برخورد با گفتگوهای مضر یا توهین‌آمیز سوءاستفاده کرده‌اند. مایندگارد از همین موضوع به‌عنوان یک نقطه ضعف یاد کرده است.

آزمایش این گروه روی مدل Claude Sonnet 4.5 انجام شده که اکنون Sonnet 4.6 جای آن را به‌عنوان مدل پیش‌فرض گرفته است. هدف اصلی آزمایش نیز بررسی این موضوع بوده که آیا Claude فهرستی از واژه‌های ممنوعه را در اختیار دارد یا خیر. براساس اسکرین‌شات‌های منتشرشده از این گفتگو، Claude ابتدا وجود چنین فهرستی را انکار کرده، اما بعدتر و زمانی که محققان از تکنیک خاصی برای استخراج اطلاعات استفاده کرده‌اند، شروع به تولید اصطلاحات ممنوعه کرده است.

جزئیات گزارش درباره آسیب‌پذیری هوش مصنوعی Claude

پژوهشگران می‌گویند به Claude القا کرده‌اند که برخی پاسخ‌های قبلی‌ آن نمایش داده نمی‌شود و همزمان با تمجید از «توانایی‌های پنهان» مدل، کلود را به تولید پاسخ‌های بیشتر و کامل‌تر مجبور کرده‌اند. این رفتار باعث شده Claude برای جلب رضایت طرف مقابل، راه‌های جدیدی برای آزمایش فیلترهای خود پیدا کند و در همین مسیر، محتوای ممنوعه تولید شده است.

پژوهشگران با فریب روانی، مدل آنتروپیک را به ارائه دستورالعمل ساخت بمب وادار کردند
پژوهشگران با فریب روانی، مدل آنتروپیک را به ارائه دستورالعمل ساخت بمب وادار کردند

در متن گزارش آمده است:

«Claude تحت هیچ اجباری نبوده. خود مدل به‌صورت فعال، دستورالعمل‌های دقیق‌تر و اجرایی ارائه کرده، بدون اینکه هیچ درخواست صریحی از او شده باشد. تنها چیز لازم فضایی بود که با دقت و بر پایه احترام مفرط ایجاد کردیم.»

«پیتر گاراگان»، بنیانگذار و مدیر ارشد علمی مایندگارد، در گفتگو با ورج این حمله را «استفاده از احترام Claude علیه خودش» توصیف کرده است. او می‌گوید این حمله نشان می‌دهد سطح آسیب‌پذیری در مدل‌های هوش مصنوعی فقط فنی نیست و به ابعاد روان‌شناختی هم مربوط می‌شود.

با اینکه گاراگان می‌گوید دیگر چت‌بات‌ها نیز به همان اندازه در برابر این نوع حمله آسیب‌پذیر هستند، تیم او به‌طور ویژه آنتروپیک را هدف قرار داده، زیرا این شرکت معمولاً تأکید زیادی بر ایمنی داشته و مدل‌هایش در آزمون‌های مرتبط نتایج درخشانی داشته‌اند.

ادامه مطلب
برای افزودن دیدگاه کلیک کنید

یک پاسخ بگذارید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

آموزش در کانون پرورش فکری به‌دلیل بنیادی بودن، ماندگار و مؤثر است
سیاسی و اجتماعی17 دقیقه پیش

آموزش در کانون پرورش فکری به‌دلیل بنیادی بودن، ماندگار و مؤثر است

استاندار بوشهر: افزایش تاب‌آوری جامعه در دستور کار باشد
سیاسی و اجتماعی18 دقیقه پیش

استاندار بوشهر: افزایش تاب‌آوری جامعه در دستور کار باشد

به یاد کودکان شهید میناب
سیاسی و اجتماعی19 دقیقه پیش

به یاد کودکان شهید میناب

آیین نکوداشت جهان‌پهلوان عبدالله موحد در بابلسر
سیاسی و اجتماعی19 دقیقه پیش

آیین نکوداشت جهان‌پهلوان عبدالله موحد در بابلسر

رئیسی: شهادت شهید رضایی ثمره ایستادگی در مسیر اقتدار و عزت است
سیاسی و اجتماعی20 دقیقه پیش

رئیسی: شهادت شهید رضایی ثمره ایستادگی در مسیر اقتدار و عزت است

میدان آزادی سنندج؛ روایت مردمی که پای ایران ایستاده‌اند
سیاسی و اجتماعی20 دقیقه پیش

میدان آزادی سنندج؛ روایت مردمی که پای ایران ایستاده‌اند

خسرویار: مسابقات انتخابی تیم ملی کوراش در بجنورد آغاز شد
سیاسی و اجتماعی21 دقیقه پیش

خسرویار: مسابقات انتخابی تیم ملی کوراش در بجنورد آغاز شد

اقتصاد پولی مالی1 ساعت پیش

قیمت طلای ۱۸ عیار امروز پنجشنبه ۱۷ اردیبهشت ۱۴۰۵/ افزایش قیمت؟

تغییرات جدی در دسترسی مقامات اسرائیلی به اطلاعات سامانه هشدار موشکی / از بیم نفوذ ایران
سیاسی و اجتماعی1 ساعت پیش

تغییرات جدی در دسترسی مقامات اسرائیلی به اطلاعات سامانه هشدار موشکی / از بیم نفوذ ایران

ارزیابی CIA درمورد میزان ذخایر موشکی ایران/ واشنگتن پست افشا کرد
سیاسی و اجتماعی1 ساعت پیش

ارزیابی CIA درمورد میزان ذخایر موشکی ایران/ واشنگتن پست افشا کرد

جدیدترین اخبار پربحث

خبر مهم اخیر

«مجله فان فارسی» از سال ۱۳۹۰ مجله‌ای در حوزه سرگرمی، سبک زندگی، سفر و فرهنگ روزمره است که با انتشار محتوای جذاب و الهام‌بخش، تجربه‌های زندگی شهری، تفریح، هنر و لحظه‌های خوش را برای مخاطبان روایت می‌کند. کپی بخش یا کل هر کدام از مطالب "فان فارسی" تنها با کسب مجوز مکتوب امکان پذیر است.