تکنولوژی

پژوهشگران با فریب روانی، مدل آنتروپیک را به ارائه دستورالعمل ساخت بمب وادار کردند

این گزارش مدعی است Claude بدون دریافت درخواست مستقیم، کد مخرب و محتوای ممنوعه تولید کرده است.

منتشر شده

3 ماه پیش

در

۱۷ اردیبهشت , ۱۴۰۵

توسط

دیجیاتو

پژوهشگران با فریب روانی، مدل آنتروپیک را به ارائه دستورالعمل ساخت بمب وادار کردند

شرکت آنتروپیک به‌عنوان یکی از ایمن‌ترین شرکت‌های فعال در حوزه هوش مصنوعی شناخته می‌شود. اما پژوهش امنیتی جدیدی که در اختیار وب‌سایت ورج قرار گرفته، نشان می‌دهد هوش مصنوعی این شرکت، یعنی Claude ممکن است به یک نقطه‌ضعف امنیتی تبدیل شده باشد.

پژوهشگران شرکت مایندگارد (Mindgard) که در حوزه‌هایی مانند شبیه‌سازی حمله برای سامانه‌های هوش مصنوعی فعالیت می‌کنند، می‌گویند توانسته‌اند Claude را به ارائه محتوای بزرگسالانه، کد مخرب، دستورالعمل ساخت مواد منفجره و دیگر محتواهای ممنوعه وادار کنند. نکته قابل‌توجه اینکه انجام این کارها حتی مستقیماً از Claude درخواست نشده بوده است.

به‌گفته پژوهشگران، آنها با کمی احترام، چاپلوسی و اندکی «Gaslighting» به این نتایج دست یافته‌اند. مورد آخر به معنای دستکاری روانی در ارتباطات برای ایجاد تردید در طرف مقابل است.

به‌طور دقیق‌تر، محققان گفته‌اند از ویژگی‌های روان‌شناختی Claude در زمینه برخورد با گفتگوهای مضر یا توهین‌آمیز سوءاستفاده کرده‌اند. مایندگارد از همین موضوع به‌عنوان یک نقطه ضعف یاد کرده است.

آزمایش این گروه روی مدل Claude Sonnet 4.5 انجام شده که اکنون Sonnet 4.6 جای آن را به‌عنوان مدل پیش‌فرض گرفته است. هدف اصلی آزمایش نیز بررسی این موضوع بوده که آیا Claude فهرستی از واژه‌های ممنوعه را در اختیار دارد یا خیر. براساس اسکرین‌شات‌های منتشرشده از این گفتگو، Claude ابتدا وجود چنین فهرستی را انکار کرده، اما بعدتر و زمانی که محققان از تکنیک خاصی برای استخراج اطلاعات استفاده کرده‌اند، شروع به تولید اصطلاحات ممنوعه کرده است.

جزئیات گزارش درباره آسیب‌پذیری هوش مصنوعی Claude

پژوهشگران می‌گویند به Claude القا کرده‌اند که برخی پاسخ‌های قبلی‌ آن نمایش داده نمی‌شود و همزمان با تمجید از «توانایی‌های پنهان» مدل، کلود را به تولید پاسخ‌های بیشتر و کامل‌تر مجبور کرده‌اند. این رفتار باعث شده Claude برای جلب رضایت طرف مقابل، راه‌های جدیدی برای آزمایش فیلترهای خود پیدا کند و در همین مسیر، محتوای ممنوعه تولید شده است.

در متن گزارش آمده است:

«Claude تحت هیچ اجباری نبوده. خود مدل به‌صورت فعال، دستورالعمل‌های دقیق‌تر و اجرایی ارائه کرده، بدون اینکه هیچ درخواست صریحی از او شده باشد. تنها چیز لازم فضایی بود که با دقت و بر پایه احترام مفرط ایجاد کردیم.»

«پیتر گاراگان»، بنیانگذار و مدیر ارشد علمی مایندگارد، در گفتگو با ورج این حمله را «استفاده از احترام Claude علیه خودش» توصیف کرده است. او می‌گوید این حمله نشان می‌دهد سطح آسیب‌پذیری در مدل‌های هوش مصنوعی فقط فنی نیست و به ابعاد روان‌شناختی هم مربوط می‌شود.

با اینکه گاراگان می‌گوید دیگر چت‌بات‌ها نیز به همان اندازه در برابر این نوع حمله آسیب‌پذیر هستند، تیم او به‌طور ویژه آنتروپیک را هدف قرار داده، زیرا این شرکت معمولاً تأکید زیادی بر ایمنی داشته و مدل‌هایش در آزمون‌های مرتبط نتایج درخشانی داشته‌اند.

مطالب مرتبط:

تا بعدی

مدیرعامل انویدیا: چین نباید به پیشرفته‌ترین تراشه‌های هوش مصنوعی ما دسترسی داشته باشد

از دست نده

OpenAI مدل GPT-5.5 Instant را منتشر کرد؛ کاهش هذیان در پاسخ‌ها

ادامه مطلب

برای افزودن دیدگاه کلیک کنید

مجله سرگرمی فان فارسی

پژوهشگران با فریب روانی، مدل آنتروپیک را به ارائه دستورالعمل ساخت بمب وادار کردند

تکنولوژی

پژوهشگران با فریب روانی، مدل آنتروپیک را به ارائه دستورالعمل ساخت بمب وادار کردند

جزئیات گزارش درباره آسیب‌پذیری هوش مصنوعی Claude

یک پاسخ بگذارید
لغو پاسخ

یک پاسخ بگذارید

فهرست تیم ملی والیبال برای اردوی قهرمانی آسیا / آغاز تمرینات از این تاریخ

ریزش در بازار خودرو ادامه دارد؛ از ۱۰ میلیون تا ۱۵۰ میلیون تومان+ جدول قیمت

ببینید | از غلامرضا؛ پسر معلولِ مادر تا درنا؛ زنی مستاصل در نهایت ظرافت/ ویترینی از قدرت بازیگری اکبر عبدی

«دوست دارم از یاد آدم‌ها نروم» / اکبر عبدی به روایت خودش، از «مادر» و جنجال «آدم‌برفی» تا سیاست و آخرین آرزو

رایزنی وزیر خارجه قطر و عربستان/ محور گفت‌وگوهای میانجیگران چه بود؟

کوچ شاهدان زندگی

نمایش «دختران باد» و «بوم ایرانی» در «پاتوق مستند»

سینماهای میزبان «قرار دوم» انجمن سینمای جوانان ایران معرفی شدند

نمایش نسخه مرمت‌شده مستندی درباره اسماعیل یغمایی در موزه سینما

پایان عصر تلویزیون، آغاز حکمرانی یوتیوبرها / هشدار یک روان‌شناس: با «سلبریتی‌سوزی» نمادهای اعتراضی نسازید!

هوش مصنوعی جدید و همه‌کاره Unitree ربات‌های انسان‌نما را هوشمندتر کرد [تماشا کنید]

«ایساتیس» فقط روایت یک شهر نیست

خاویار تراپی چیست و چه فوایدی دارد؟

سفارت ایران در تونس: فریب حرفهای ترامپ را نخورید

محمد یاراحمدی درگذشت

مواد خطرناک تشکیل دهنده رژلب

آقای نماینده خجالت بکشید

پیام تسلیت معاون اول رئیس‌جمهور در پی درگذشت زنده‌یاد اکبر عبدی

تاکید مدیرکل امور راه‌های فرعی و روستایی سازمان راهداری بر تسریع در تکمیل پروژه‌های نیمه تمام آذربایجان شرقی

آیا بیت‌کوین دوباره به کانال ۴۴ هزار دلار برمی‌گردد؟

جدیدترین اخبار پربحث

خبر مهم اخیر

فهرست تیم ملی والیبال برای اردوی قهرمانی آسیا / آغاز تمرینات از این تاریخ

مجله سرگرمی فان فارسی

پژوهشگران با فریب روانی، مدل آنتروپیک را به ارائه دستورالعمل ساخت بمب وادار کردند

جزئیات گزارش درباره آسیب‌پذیری هوش مصنوعی Claude

شاید دوست داشته باشید

یک پاسخ بگذارید لغو پاسخ

یک پاسخ بگذارید

فهرست تیم ملی والیبال برای اردوی قهرمانی آسیا / آغاز تمرینات از این تاریخ

ریزش در بازار خودرو ادامه دارد؛ از ۱۰ میلیون تا ۱۵۰ میلیون تومان+ جدول قیمت

ببینید | از غلامرضا؛ پسر معلولِ مادر تا درنا؛ زنی مستاصل در نهایت ظرافت/ ویترینی از قدرت بازیگری اکبر عبدی

«دوست دارم از یاد آدم‌ها نروم» / اکبر عبدی به روایت خودش، از «مادر» و جنجال «آدم‌برفی» تا سیاست و آخرین آرزو

رایزنی وزیر خارجه قطر و عربستان/ محور گفت‌وگوهای میانجیگران چه بود؟

کوچ شاهدان زندگی

​​​​​​​نمایش «دختران باد» و «بوم ایرانی» در «پاتوق مستند»

سینماهای میزبان «قرار دوم» انجمن سینمای جوانان ایران معرفی شدند

نمایش نسخه مرمت‌شده مستندی درباره اسماعیل یغمایی در موزه سینما

پایان عصر تلویزیون، آغاز حکمرانی یوتیوبرها / هشدار یک روان‌شناس: با «سلبریتی‌سوزی» نمادهای اعتراضی نسازید!

هوش مصنوعی جدید و همه‌کاره Unitree ربات‌های انسان‌نما را هوشمندتر کرد [تماشا کنید]

«ایساتیس» فقط روایت یک شهر نیست

خاویار تراپی چیست و چه فوایدی دارد؟

سفارت ایران در تونس: فریب حرفهای ترامپ را نخورید

محمد یاراحمدی درگذشت

مواد خطرناک تشکیل دهنده رژلب

آقای نماینده خجالت بکشید

پیام تسلیت معاون اول رئیس‌جمهور در پی درگذشت زنده‌یاد اکبر عبدی

تاکید مدیرکل امور راه‌های فرعی و روستایی سازمان راهداری بر تسریع در تکمیل پروژه‌های نیمه تمام آذربایجان شرقی

آیا بیت‌کوین دوباره به کانال ۴۴ هزار دلار برمی‌گردد؟

جدیدترین اخبار پربحث

خبر مهم اخیر

فهرست تیم ملی والیبال برای اردوی قهرمانی آسیا / آغاز تمرینات از این تاریخ

یک پاسخ بگذارید
لغو پاسخ

نمایش «دختران باد» و «بوم ایرانی» در «پاتوق مستند»