با ما همراه باشید

تکنولوژی

بنچمارک جدید گوگل: یک‌سوم پاسخ‌های هوش مصنوعی می‌تواند غلط باشد

طبق بنچمارک جدید دیپ‌مایند، حتی پیشرفته‌ترین مدل‌های هوش مصنوعی جهان نیز در زمینه دقت و صحت اطلاعات امتیاز ۶۹ درصد را به دست آوردند.

منتشر شده

در

بنچمارک جدید گوگل: یک‌سوم پاسخ‌های هوش مصنوعی می‌تواند غلط باشد

اگر فکر می‌کنید هر چه هوش مصنوعی می‌گوید درست است، سخت در اشتباهید. دیپ‌مایند گوگل در تحقیقی عملکرد چت‌بات‌های امروزی را زیر ذره‌بین برده و نتایج اصلاً جالب نیست. طبق بنچمارک جدید محققان، حتی پیشرفته‌ترین مدل‌های هوش مصنوعی جهان نیز نمی‌توانند از مرز دقت ۷۰ درصد عبور کنند. این امتیاز را می‌توان اینطور تفسیر کرد که از هر سه پاسخی که از هوش مصنوعی می‌گیرید، یکی ممکن است غلط باشد، حتی اگر با اعتماد‌به‌نفس کامل بیان شود.

برخلاف تست‌های معمولی که توانایی حل مسئله را می‌سنجند، بنچمارک FACTS گوگل دیپ‌مایند منحصراً روی دقت و صحت اطلاعات تمرکز دارد. این تست مدل‌ها را در چهار زمینه محک می‌زند:

  1. آیا مدل می‌تواند به سؤالات واقعی فقط با تکیه بر دانش درونی خود پاسخ دهد؟
  2. آیا مدل می‌تواند اطلاعات دقیق را از اینترنت پیدا کند؟
  3. آیا مدل فقط از متنی که به او داده شده استفاده می‌کند یا اطلاعات غلط و خیالی اضافه می‌کند؟
  4. آیا نمودارها، تصاویر و دیاگرام‌ها را درست می‌خواند؟

تحقیق دیپ‌مایند گوگل درباره دقت پاسخ‌های هوش مصنوعی

نتایج نشان می‌دهد که فاصله زیادی بین ادعا و واقعیت وجود دارد. در صدر لیست مدل جمینای ۳ پرو گوگل قرار دارد که با امتیاز کلی ۶۹ درصد دقیق‌ترین مدل فعلی است. رتبه‌بندی سایر رقبا را در تصویر پایین می‌بینید:

بنچمارک دقت پاسخ‌های هوش مصنوعی
بنچمارک جدید گوگل: یک‌سوم پاسخ‌های هوش مصنوعی می‌تواند غلط باشد

پاشنه آشیل تمام مدل‌ها بخش چندوجهی بود؛ جایی که دقت اغلب زیر ۵۰ درصد است. این موضوع بسیار نگران‌کننده است، زیرا کاربران ممکن است از هوش مصنوعی بخواهند یک نمودار مالی یا پزشکی را تحلیل کند. اگر چت‌بات عدد اشتباهی را از یک گزارش بیرون بکشد یا نمودار فروش را برعکس تفسیر کند، عواقب آن در حوزه‌هایی مثل بورس، حقوق و سلامت می‌تواند فاجعه‌بار باشد.

درکل تحقیق گوگل می‌گوید به چت‌بات‌های هوش مصنوعی اعتماد کورکورانه نداشته باشید. اگر خبرنگاری در یک رسانه ۶۹ درصد مواقع راست بگوید، فوراً اخراج می‌شود؛ اما ما همین سطح خطا را از هوش مصنوعی می‌پذیریم. در شغل‌های که با اطلاعات مهمی سروکار دارند (مثل وکلا و پزشکان) استفاده از چت‌بات بدون نظارت انسانی می‌تواند بسیار خطرناک و زیان‌بار باشد.

ادامه مطلب
برای افزودن دیدگاه کلیک کنید

یک پاسخ بگذارید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

سینمای ایران و جهان39 دقیقه پیش

سعید نجاتی «سیمرغ فجر» خود را به جانباز لانچر اهدا کرد

مرز میان سکوت و ایستادگی دیگر مبهم نیست
سینمای ایران و جهان44 دقیقه پیش

مرز میان سکوت و ایستادگی دیگر مبهم نیست

اقتصاد پولی مالی3 ساعت پیش

قیمت طلا و سکه امروز یکشنبه ۳۰ فروردین/ افزایش همه قیمت ها + جدول و جزییات

تصمیم جدید ترامپ برای حمله زمینی به ایران / جزیره خارک هدف آمریکا نیست!
سیاسی و اجتماعی3 ساعت پیش

تصمیم جدید ترامپ برای حمله زمینی به ایران / جزیره خارک هدف آمریکا نیست!

توافق ۸۰ درصدی ایران و آمریکا / شبکه هابرترک مدعی شد
سیاسی و اجتماعی3 ساعت پیش

توافق ۸۰ درصدی ایران و آمریکا / شبکه هابرترک مدعی شد

آخرین وضعیت معرفی نمایندگان فوتبال ایران در رقابت‌های آسیایی/ فدراسیون به دنبال فرصت دوباره از AFC
ورزشی5 ساعت پیش

آخرین وضعیت معرفی نمایندگان فوتبال ایران در رقابت‌های آسیایی/ فدراسیون به دنبال فرصت دوباره از AFC

جاسوسی پرسنل نیروی هوایی اسرائیل برای ایران/ سازمان‌های امنیتی اسرائیل گزارش دادند
سیاسی و اجتماعی9 ساعت پیش

جاسوسی پرسنل نیروی هوایی اسرائیل برای ایران/ سازمان‌های امنیتی اسرائیل گزارش دادند

گزارش بلومبرگ درمورد فرار تانکرهای حامل گاز پس از هشدار ایران
سیاسی و اجتماعی9 ساعت پیش

گزارش بلومبرگ درمورد فرار تانکرهای حامل گاز پس از هشدار ایران

دیپ‌فیک در خدمت پروپاگاندا: هوش مصنوعی چطور صدا و تصویر رهبران را جعل می‌کند و راه‌های تشخیص آن چیست؟
تکنولوژی10 ساعت پیش

دیپ‌فیک در خدمت پروپاگاندا: هوش مصنوعی چطور صدا و تصویر رهبران را جعل می‌کند و راه‌های تشخیص آن چیست؟

«مدلی بیش از حد قوی برای عموم»؛ نگاهی به راهبرد آنتروپیک برای جلب نظر مردم
تکنولوژی10 ساعت پیش

«مدلی بیش از حد قوی برای عموم»؛ نگاهی به راهبرد آنتروپیک برای جلب نظر مردم

جدیدترین اخبار پربحث

خبر مهم اخیر

«مجله فان فارسی» از سال ۱۳۹۰ مجله‌ای در حوزه سرگرمی، سبک زندگی، سفر و فرهنگ روزمره است که با انتشار محتوای جذاب و الهام‌بخش، تجربه‌های زندگی شهری، تفریح، هنر و لحظه‌های خوش را برای مخاطبان روایت می‌کند. کپی بخش یا کل هر کدام از مطالب "فان فارسی" تنها با کسب مجوز مکتوب امکان پذیر است.