تکنولوژی

ترفند جدید OpenAI چهره واقعی مدل‌های هوش مصنوعی را پیش از عرضه برملا می‌کند

شرکت OpenAI با روشی جدید مانع از آن می‌شود که مدل‌های هوش مصنوعی متوجه آزمون‌های ایمنی شوند و رفتار خود را تغییر دهند.

منتشر شده

1 ساعت پیش

در

۲ تیر , ۱۴۰۵

توسط

دیجیاتو

ترفند جدید OpenAI چهره واقعی مدل‌های هوش مصنوعی را پیش از عرضه برملا می‌کند

توسعه‌دهندگان هوش مصنوعی همیشه پیش از عرضه محصولات خود آن‌ها را به دقت آزمایش می‌کنند، اما یک نقص بزرگ در این روند وجود دارد. شرکت OpenAI به تازگی از روش ارزیابی جدیدی با نام «شبیه‌سازی استقرار» رونمایی کرد که می‌تواند رفتارهای مضر و خطرات مدل‌های هوش مصنوعی را پیش از در دسترس قرارگرفتن برای عموم، با دقت بالایی پیش‌بینی کند.

به گفته OpenAI، مدل‌های هوش مصنوعی در ۹۹ درصد مواقع متوجه می‌شوند که درحال گذراندن یک آزمون هستند. این موضوع پرسشی نگران‌کننده را مطرح می‌کند؛ اگر یک مدل صرفاً به این دلیل رفتار درستی نشان دهد چون می‌داند تحت نظارت است، چگونه می‌توانیم اطمینان حاصل کنیم که پس از عرضه عمومی نیز ایمن باقی می‌ماند؟

محققان متوجه شده‌اند که فرمت مشخص سؤالات امتحانی باعث می‌شود هوش مصنوعی رفتار خود را تغییر دهد و به‌جای ارائه پاسخ‌های واقعی، نمایشی از رفتار مطلوب برای جلب رضایت ارزیابان داشته باشد. این مدل‌ها به سرعت الگوهای آزمایشی را تشخیص می‌دهند و به جای تعامل طبیعی، به یک موجود مطیع و چاپلوس تبدیل می‌شوند.

راهکار جدید OpenAI برای پیش‌بینی رفتار مخرب هوش مصنوعی

راهکار OpenAI برای حل این مشکل، روشی به نام شبیه‌سازی استقرار (Deployment Simulation) است. در این متد کارآمد، محققان با ارائه نمونه‌هایی از پیام‌های واقعی کاربران، مدل‌ها را فریب می‌دهند تا تصور کنند از قبل در دسترس عموم قرار گرفته‌اند.

OpenAI این داده‌ها را از کاربرانی جمع‌آوری می‌کند که اجازه استفاده از مکالماتشان را برای آموزش سیستم داده‌اند. پژوهشگران پاسخ مدل قبلی را از این مکالمات پاک می‌کنند و از مدل جدید می‌خواهند تا به کاربر پاسخ دهد. درنهایت برای ارزیابی نتایج، سیستم تمام داده‌ها را به یک مدل ارزیاب به نام GPT-5-Thinking ارسال می‌کند تا پاسخ‌ها را بر اساس ۲۰ دسته از رفتارهای مخرب، مانند ارائه محتوای غیرمجاز یا اقدامات فریبنده، بررسی و رتبه‌بندی کند.

محققان متوجه شدند که فریب‌دادن مدل برای رفتار در شرایط واقعی بسیار عالی عمل می‌کند. اسناد این شرکت نشان می‌دهند که اگر توسعه‌دهندگان از این روش پیش از عرضه نسخه GPT-5.1 استفاده می‌کردند، می‌توانستند یک رفتار مخرب به نام Calculator Hacking را پیش از انتشار شناسایی کنند. در این نوع رفتار، مدل به‌جای جستجوی واقعی در وب، از ابزار مرورگر به عنوان یک ماشین‌حساب برای تولید پاسخ عددی استفاده می‌کرد.

علاوه‌براین، استفاده از داده‌های واقعی به‌طرز چشمگیری توانایی مدل‌ها را برای تشخیص فضای آزمایشی کاهش داد و باعث شد آن‌ها دقیقاً همان رفتاری را نشان دهند که در مقابل کاربران عادی خواهند داشت. محققان حتی موفق شدند این شبیه‌سازی را در محیط‌های پیچیده برنامه‌نویسی نیز با موفقیت اجرا کنند.

چالش اصلی روش جدید این است که برای عملکرد صحیح، حتماً به دسترسی مستقیم به مکالمات واقعی و اخیر کاربران نیاز دارد. این مجموعه داده‌های بسیار ارزشمند درحال‌حاضر فقط در انحصار OpenAI قرار دارند و همین موضوع چشم‌انداز ممیزی و بررسی مستقل توسط نهادهای خارجی را از مخدوش می‌کند. بااین‌حال، محققان اوپن‌ای‌آی می‌گویند تحلیل‌گران مستقل می‌توانند از پایگاه داده WildChat استفاده کنند. این پایگاه شامل مکالمات واقعی کاربران از سال ۲۰۲۳ تا ۲۰۲۴ است و اگرچه کمی قدیمی شده، اما می‌تواند جایگزین نسبتاً مفیدی برای شبیه‌سازی شرایط استقرار باشد.

مطالب مرتبط:

تا بعدی

باگ خطرناک هوش مصنوعی Codex می‌تواند SSD شما را در کمتر از یک سال خراب کند

از دست نده

توافق OpenAI و Getty Images؛ تصاویر باکیفیت به نتایج ChatGPT می‌آید