با ما همراه باشید

تکنولوژی

ترفند جدید OpenAI چهره واقعی مدل‌های هوش مصنوعی را پیش از عرضه برملا می‌کند

شرکت OpenAI با روشی جدید مانع از آن می‌شود که مدل‌های هوش مصنوعی متوجه آزمون‌های ایمنی شوند و رفتار خود را تغییر دهند.

منتشر شده

در

ترفند جدید OpenAI چهره واقعی مدل‌های هوش مصنوعی را پیش از عرضه برملا می‌کند

توسعه‌دهندگان هوش مصنوعی همیشه پیش از عرضه محصولات خود آن‌ها را به دقت آزمایش می‌کنند، اما یک نقص بزرگ در این روند وجود دارد. شرکت OpenAI به تازگی از روش ارزیابی جدیدی با نام «شبیه‌سازی استقرار» رونمایی کرد که می‌تواند رفتارهای مضر و خطرات مدل‌های هوش مصنوعی را پیش از در دسترس قرارگرفتن برای عموم، با دقت بالایی پیش‌بینی کند.

به گفته OpenAI، مدل‌های هوش مصنوعی در ۹۹ درصد مواقع متوجه می‌شوند که درحال گذراندن یک آزمون هستند. این موضوع پرسشی نگران‌کننده را مطرح می‌کند؛ اگر یک مدل صرفاً به این دلیل رفتار درستی نشان دهد چون می‌داند تحت نظارت است، چگونه می‌توانیم اطمینان حاصل کنیم که پس از عرضه عمومی نیز ایمن باقی می‌ماند؟

محققان متوجه شده‌اند که فرمت مشخص سؤالات امتحانی باعث می‌شود هوش مصنوعی رفتار خود را تغییر دهد و به‌جای ارائه پاسخ‌های واقعی، نمایشی از رفتار مطلوب برای جلب رضایت ارزیابان داشته باشد. این مدل‌ها به سرعت الگوهای آزمایشی را تشخیص می‌دهند و به جای تعامل طبیعی، به یک موجود مطیع و چاپلوس تبدیل می‌شوند.

راهکار جدید OpenAI برای پیش‌بینی رفتار مخرب هوش مصنوعی

راهکار OpenAI برای حل این مشکل، روشی به نام شبیه‌سازی استقرار (Deployment Simulation) است. در این متد کارآمد، محققان با ارائه نمونه‌هایی از پیام‌های واقعی کاربران، مدل‌ها را فریب می‌دهند تا تصور کنند از قبل در دسترس عموم قرار گرفته‌اند.

راهکار جدید OpenAI برای پیش‌بینی رفتار مخرب هوش مصنوعی
مراحل انجام Deployment Simulation

OpenAI این داده‌ها را از کاربرانی جمع‌آوری می‌کند که اجازه استفاده از مکالماتشان را برای آموزش سیستم داده‌اند. پژوهشگران پاسخ مدل قبلی را از این مکالمات پاک می‌کنند و از مدل جدید می‌خواهند تا به کاربر پاسخ دهد. درنهایت برای ارزیابی نتایج، سیستم تمام داده‌ها را به یک مدل ارزیاب به نام GPT-5-Thinking ارسال می‌کند تا پاسخ‌ها را بر اساس ۲۰ دسته از رفتارهای مخرب، مانند ارائه محتوای غیرمجاز یا اقدامات فریبنده، بررسی و رتبه‌بندی کند.

محققان متوجه شدند که فریب‌دادن مدل برای رفتار در شرایط واقعی بسیار عالی عمل می‌کند. اسناد این شرکت نشان می‌دهند که اگر توسعه‌دهندگان از این روش پیش از عرضه نسخه GPT-5.1 استفاده می‌کردند، می‌توانستند یک رفتار مخرب به نام Calculator Hacking را پیش از انتشار شناسایی کنند. در این نوع رفتار، مدل به‌جای جستجوی واقعی در وب، از ابزار مرورگر به عنوان یک ماشین‌حساب برای تولید پاسخ عددی استفاده می‌کرد.

علاوه‌براین، استفاده از داده‌های واقعی به‌طرز چشمگیری توانایی مدل‌ها را برای تشخیص فضای آزمایشی کاهش داد و باعث شد آن‌ها دقیقاً همان رفتاری را نشان دهند که در مقابل کاربران عادی خواهند داشت. محققان حتی موفق شدند این شبیه‌سازی را در محیط‌های پیچیده برنامه‌نویسی نیز با موفقیت اجرا کنند.

چالش اصلی روش جدید این است که برای عملکرد صحیح، حتماً به دسترسی مستقیم به مکالمات واقعی و اخیر کاربران نیاز دارد. این مجموعه داده‌های بسیار ارزشمند درحال‌حاضر فقط در انحصار OpenAI قرار دارند و همین موضوع چشم‌انداز ممیزی و بررسی مستقل توسط نهادهای خارجی را از مخدوش می‌کند. بااین‌حال، محققان اوپن‌ای‌آی می‌گویند تحلیل‌گران مستقل می‌توانند از پایگاه داده WildChat استفاده کنند. این پایگاه شامل مکالمات واقعی کاربران از سال ۲۰۲۳ تا ۲۰۲۴ است و اگرچه کمی قدیمی شده، اما می‌تواند جایگزین نسبتاً مفیدی برای شبیه‌سازی شرایط استقرار باشد.

ادامه مطلب
برای افزودن دیدگاه کلیک کنید

یک پاسخ بگذارید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

جدیدترین قیمت دلار و یورو امروز سه‌شنبه ۲ تیر ۱۴۰۵
اقتصاد پولی مالی23 دقیقه پیش

جدیدترین قیمت دلار و یورو امروز سه‌شنبه ۲ تیر ۱۴۰۵

ادعای جنجالی نخست‌وزیر پاکستان درباره آینده روابط ایران و آمریکا/ توافق نهایی می‌شود؟
سیاسی و اجتماعی29 دقیقه پیش

ادعای جنجالی نخست‌وزیر پاکستان درباره آینده روابط ایران و آمریکا/ توافق نهایی می‌شود؟

ترند جدید تبلیغات؛ برندها مخفیانه درحال استفاده از اینفلوئنسرهای هوش مصنوعی هستند
تکنولوژی1 ساعت پیش

ترند جدید تبلیغات؛ برندها مخفیانه درحال استفاده از اینفلوئنسرهای هوش مصنوعی هستند

باگ خطرناک هوش مصنوعی Codex می‌تواند SSD شما را در کمتر از یک سال خراب کند
تکنولوژی1 ساعت پیش

باگ خطرناک هوش مصنوعی Codex می‌تواند SSD شما را در کمتر از یک سال خراب کند

ترفند جدید OpenAI چهره واقعی مدل‌های هوش مصنوعی را پیش از عرضه برملا می‌کند
تکنولوژی1 ساعت پیش

ترفند جدید OpenAI چهره واقعی مدل‌های هوش مصنوعی را پیش از عرضه برملا می‌کند

توافق OpenAI و Getty Images؛ تصاویر باکیفیت به نتایج ChatGPT می‌آید
تکنولوژی1 ساعت پیش

توافق OpenAI و Getty Images؛ تصاویر باکیفیت به نتایج ChatGPT می‌آید

اتحاد اینتل و AMD: استاندارد جدید پردازش هوش مصنوعی در پردازنده‌های x86 معرفی شد
تکنولوژی1 ساعت پیش

اتحاد اینتل و AMD: استاندارد جدید پردازش هوش مصنوعی در پردازنده‌های x86 معرفی شد

هشدار عصب‌شناسان: هوش چت‌بات‌ها را با خودآگاهی ‌اشتباه نگیرید
تکنولوژی1 ساعت پیش

هشدار عصب‌شناسان: هوش چت‌بات‌ها را با خودآگاهی ‌اشتباه نگیرید

امضای سند همکاری مرحله سوم پروژه «بهتاب» با حمایت دولت ژاپن
ساختمان و معماری2 ساعت پیش

امضای سند همکاری مرحله سوم پروژه «بهتاب» با حمایت دولت ژاپن

جانشین دبیر اجرایی در پایانه‌های مرزی کشور برای اربعین ۱۴۰۵ منصوب شد
ساختمان و معماری2 ساعت پیش

جانشین دبیر اجرایی در پایانه‌های مرزی کشور برای اربعین ۱۴۰۵ منصوب شد

جدیدترین اخبار پربحث

خبر مهم اخیر

«مجله فان فارسی» از سال ۱۳۹۰ مجله‌ای در حوزه سرگرمی، سبک زندگی، سفر و فرهنگ روزمره است که با انتشار محتوای جذاب و الهام‌بخش، تجربه‌های زندگی شهری، تفریح، هنر و لحظه‌های خوش را برای مخاطبان روایت می‌کند. کپی بخش یا کل هر کدام از مطالب "فان فارسی" تنها با کسب مجوز مکتوب امکان پذیر است.