با ما همراه باشید

تکنولوژی

پژوهشگران با فریب روانی، مدل آنتروپیک را به ارائه دستورالعمل ساخت بمب وادار کردند

این گزارش مدعی است Claude بدون دریافت درخواست مستقیم، کد مخرب و محتوای ممنوعه تولید کرده است.

منتشر شده

در

پژوهشگران با فریب روانی، مدل آنتروپیک را به ارائه دستورالعمل ساخت بمب وادار کردند

شرکت آنتروپیک به‌عنوان یکی از ایمن‌ترین شرکت‌های فعال در حوزه هوش مصنوعی شناخته می‌شود. اما پژوهش امنیتی جدیدی که در اختیار وب‌سایت ورج قرار گرفته، نشان می‌دهد هوش مصنوعی این شرکت، یعنی Claude ممکن است به یک نقطه‌ضعف امنیتی تبدیل شده باشد.

پژوهشگران شرکت مایندگارد (Mindgard) که در حوزه‌هایی مانند شبیه‌سازی حمله برای سامانه‌های هوش مصنوعی فعالیت می‌کنند، می‌گویند توانسته‌اند Claude را به ارائه محتوای بزرگسالانه، کد مخرب، دستورالعمل ساخت مواد منفجره و دیگر محتواهای ممنوعه وادار کنند. نکته قابل‌توجه اینکه انجام این کارها حتی مستقیماً از Claude درخواست نشده بوده است.

به‌گفته پژوهشگران، آنها با کمی احترام، چاپلوسی و اندکی «Gaslighting» به این نتایج دست یافته‌اند. مورد آخر به معنای دستکاری روانی در ارتباطات برای ایجاد تردید در طرف مقابل است.

به‌طور دقیق‌تر، محققان گفته‌اند از ویژگی‌های روان‌شناختی Claude در زمینه برخورد با گفتگوهای مضر یا توهین‌آمیز سوءاستفاده کرده‌اند. مایندگارد از همین موضوع به‌عنوان یک نقطه ضعف یاد کرده است.

آزمایش این گروه روی مدل Claude Sonnet 4.5 انجام شده که اکنون Sonnet 4.6 جای آن را به‌عنوان مدل پیش‌فرض گرفته است. هدف اصلی آزمایش نیز بررسی این موضوع بوده که آیا Claude فهرستی از واژه‌های ممنوعه را در اختیار دارد یا خیر. براساس اسکرین‌شات‌های منتشرشده از این گفتگو، Claude ابتدا وجود چنین فهرستی را انکار کرده، اما بعدتر و زمانی که محققان از تکنیک خاصی برای استخراج اطلاعات استفاده کرده‌اند، شروع به تولید اصطلاحات ممنوعه کرده است.

جزئیات گزارش درباره آسیب‌پذیری هوش مصنوعی Claude

پژوهشگران می‌گویند به Claude القا کرده‌اند که برخی پاسخ‌های قبلی‌ آن نمایش داده نمی‌شود و همزمان با تمجید از «توانایی‌های پنهان» مدل، کلود را به تولید پاسخ‌های بیشتر و کامل‌تر مجبور کرده‌اند. این رفتار باعث شده Claude برای جلب رضایت طرف مقابل، راه‌های جدیدی برای آزمایش فیلترهای خود پیدا کند و در همین مسیر، محتوای ممنوعه تولید شده است.

پژوهشگران با فریب روانی، مدل آنتروپیک را به ارائه دستورالعمل ساخت بمب وادار کردند
پژوهشگران با فریب روانی، مدل آنتروپیک را به ارائه دستورالعمل ساخت بمب وادار کردند

در متن گزارش آمده است:

«Claude تحت هیچ اجباری نبوده. خود مدل به‌صورت فعال، دستورالعمل‌های دقیق‌تر و اجرایی ارائه کرده، بدون اینکه هیچ درخواست صریحی از او شده باشد. تنها چیز لازم فضایی بود که با دقت و بر پایه احترام مفرط ایجاد کردیم.»

«پیتر گاراگان»، بنیانگذار و مدیر ارشد علمی مایندگارد، در گفتگو با ورج این حمله را «استفاده از احترام Claude علیه خودش» توصیف کرده است. او می‌گوید این حمله نشان می‌دهد سطح آسیب‌پذیری در مدل‌های هوش مصنوعی فقط فنی نیست و به ابعاد روان‌شناختی هم مربوط می‌شود.

با اینکه گاراگان می‌گوید دیگر چت‌بات‌ها نیز به همان اندازه در برابر این نوع حمله آسیب‌پذیر هستند، تیم او به‌طور ویژه آنتروپیک را هدف قرار داده، زیرا این شرکت معمولاً تأکید زیادی بر ایمنی داشته و مدل‌هایش در آزمون‌های مرتبط نتایج درخشانی داشته‌اند.

ادامه مطلب
برای افزودن دیدگاه کلیک کنید

یک پاسخ بگذارید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

اقتصاد پولی مالی23 دقیقه پیش

قیمت طلای ۱۸ عیار امروز پنجشنبه ۱۷ اردیبهشت ۱۴۰۵/ افزایش قیمت؟

تغییرات جدی در دسترسی مقامات اسرائیلی به اطلاعات سامانه هشدار موشکی / از بیم نفوذ ایران
سیاسی و اجتماعی28 دقیقه پیش

تغییرات جدی در دسترسی مقامات اسرائیلی به اطلاعات سامانه هشدار موشکی / از بیم نفوذ ایران

ارزیابی CIA درمورد میزان ذخایر موشکی ایران/ واشنگتن پست افشا کرد
سیاسی و اجتماعی28 دقیقه پیش

ارزیابی CIA درمورد میزان ذخایر موشکی ایران/ واشنگتن پست افشا کرد

شرکت‌ها احتمالاً برای انتشار مدل‌های هوش مصنوعی، مجبور به دریافت مجوز از کاخ سفید می‌شوند
تکنولوژی1 ساعت پیش

شرکت‌ها احتمالاً برای انتشار مدل‌های هوش مصنوعی، مجبور به دریافت مجوز از کاخ سفید می‌شوند

اولین گوشی هوش مصنوعی OpenAI احتمالاً سال ۲۰۲۷ از راه می‌رسد
تکنولوژی1 ساعت پیش

اولین گوشی هوش مصنوعی OpenAI احتمالاً سال ۲۰۲۷ از راه می‌رسد

مدیرعامل انویدیا: چین نباید به پیشرفته‌ترین تراشه‌های هوش مصنوعی ما دسترسی داشته باشد
تکنولوژی1 ساعت پیش

مدیرعامل انویدیا: چین نباید به پیشرفته‌ترین تراشه‌های هوش مصنوعی ما دسترسی داشته باشد

پژوهشگران با فریب روانی، مدل آنتروپیک را به ارائه دستورالعمل ساخت بمب وادار کردند
تکنولوژی1 ساعت پیش

پژوهشگران با فریب روانی، مدل آنتروپیک را به ارائه دستورالعمل ساخت بمب وادار کردند

OpenAI مدل GPT-5.5 Instant را منتشر کرد؛ کاهش هذیان در پاسخ‌ها
تکنولوژی1 ساعت پیش

OpenAI مدل GPT-5.5 Instant را منتشر کرد؛ کاهش هذیان در پاسخ‌ها

روایت پزشکیان از دیدار با رهبر معظم انقلاب
سیاسی و اجتماعی1 ساعت پیش

روایت پزشکیان از دیدار با رهبر معظم انقلاب

سیاسی و اجتماعی1 ساعت پیش

روسیه و چین در جنگ همراه ایران و جبهه مقاومت بودند

جدیدترین اخبار پربحث

خبر مهم اخیر

«مجله فان فارسی» از سال ۱۳۹۰ مجله‌ای در حوزه سرگرمی، سبک زندگی، سفر و فرهنگ روزمره است که با انتشار محتوای جذاب و الهام‌بخش، تجربه‌های زندگی شهری، تفریح، هنر و لحظه‌های خوش را برای مخاطبان روایت می‌کند. کپی بخش یا کل هر کدام از مطالب "فان فارسی" تنها با کسب مجوز مکتوب امکان پذیر است.