با ما همراه باشید

تکنولوژی

ارزیابی عملکرد ایجنت‌های کدنویسی: جهش ۱۸۰ درصدی تولید کد، رشد ۳۰ درصدی خروجی واقعی

حجم تولید کد به شدت افزایش یافته اما خروجی واقعی در محصولات نرم‌افزاری به همان اندازه رشد نکرده است.

منتشر شده

در

ارزیابی عملکرد ایجنت‌های کدنویسی: جهش ۱۸۰ درصدی تولید کد، رشد ۳۰ درصدی خروجی واقعی

ایجنت‌های هوش مصنوعی کدنویسی امروزه تقریباً تمام آزمون‌های سنجش مهارت (بنچمارک‌ها) را که قبلاً برای آنها چالش‌برانگیز بود، با موفقیت پشت سر گذاشته‌اند؛ دستاوردی که چراغ سبز بزرگی برای سرمایه‌گذاران بود. اما پژوهش جدید محققان MIT روی بیش از ۱۰۰ هزار برنامه‌نویس، از یک شکاف بزرگ پرده برداشته است؛ اینکه ایجنت‌ها حجم کدهای نوشته‌شده را حدود ۱۸۰ درصد بیشتر کرده‌اند، اما میزان کدی که تأیید و در محیط عملیاتی منتشر شده (یعنی به دست کاربران رسیده)، تنها ۳۰ درصد رشد داشته است.

سرمایه‌گذاران خطرپذیر از اوایل سال ۲۰۲۴ و با معرفی ابزارهایی مانند Devin توسط شرکت Cognition، میلیاردها دلار به این بازار سرازیر کردند. Devin در ابتدا تنها می‌توانست ۱۳ درصد از مسائل آزمون استاندارد SWE-Bench را حل کند، اما بعد از ۱۸ ماه، بهترین ایجنت‌های هوش مصنوعی توانسته‌اند به امتیازهای بالای ۸۰ درصد در این آزمون برسند. این پیشرفت سریع، بسیاری از سرمایه‌گذاران را مطمئن کرده که دوران مهندسی نرم‌افزار به شکل سنتی روبه‌پایان است. با‌این‌حال، «سارا گو»، بنیان‌گذار شرکت سرمایه‌گذاری Conviction، معتقد است که فعالان بازار برداشت اشتباهی از این روند تکاملی داشته‌اند.

گو در این رابطه می‌گوید:

«تقریباً همه به این نتیجه غلط رسیده‌اند که هوش مصنوعی، مهندسی نرم‌افزار را تسخیر کرده است. اما واقعیت این است که مدل‌های هوش مصنوعی تنها بخشی از برنامه‌نویسی را بلعیده که اندازه‌گیری‌ آن راحت بوده. مهندسی نرم‌افزار همیشه در برابر اندازه‌گیری مقاومت کرده و بخش‌هایی که راحت‌تر اندازه‌گیری می‌شوند، لزوماً تنها بخش‌های مهم این فرایند نیستند.»

داده‌های محققان MIT دلیل این ماجرا را به‌خوبی روشن می‌کند. طبق این تحقیق، فهمیدن اینکه یک قطعه کد کار می‌کند یا نه، هزینه‌ای برای هوش مصنوعی ندارد. در این شرایط مدل یک کامپایلر یا خروجی را می‌پذیرد یا رد می‌کند، و یک مجموعه تست یا با موفقیت پاس می‌شود یا شکست می‌خورد. چون این فرایندِ سنجش رایگان و سریع است، مدل‌ها می‌توانند میلیون‌ها بار یک کار را تکرار کنند تا بالاخره برنده آزمون شوند.

ارزیابی عملکرد ایجنت‌های کدنویسی: جهش ۱۸۰ درصدی تولید کد، رشد ۳۰ درصدی خروجی واقعی
ارزیابی عملکرد ایجنت‌های کدنویسی: جهش ۱۸۰ درصدی تولید کد، رشد ۳۰ درصدی خروجی واقعی

اما به گفته این تحقیق چیزی که هوش مصنوعی نمی‌تواند به این سادگی و با هزینه کم آن را راستی‌آزمایی کند، این است که آیا تغییر ایجادشده، انتخاب درستی برای یک سیستم عملیاتیِ خاص و زنده است که ۱۰ سال از عمرش می‌گذرد؟ محققان می‌گویند پاسخ این سؤال را نمی‌توان از روی جدول امتیازات متوجه شد؛ بلکه قطعه کد جدید باید مدتی طولانی زیر بار ترافیک واقعی کاربران تست شود تا مشکلات آن مشخص شود؛ فرایندی زمان‌بر که هیچ بهبود و پیشرفتی در قابلیت‌های مدل هوش مصنوعی نمی‌تواند زمان آن را کوتاه‌تر کند.

ادامه مطلب
برای افزودن دیدگاه کلیک کنید

یک پاسخ بگذارید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

«مزرعه پدری» رسول ملاقلی‌پور روی آنتن تلویزیون
سینمای ایران و جهان9 دقیقه پیش

«مزرعه پدری» رسول ملاقلی‌پور روی آنتن تلویزیون

سینمای ایران و جهان9 دقیقه پیش

فروش ۳۱ میلیاردی سینما در یک هفته‌/ پیشتازی جیمزباند

سفری پر از ترس، امید و تضاد/ «آن دیگری» نقد و بررسی می‌شود
سینمای ایران و جهان9 دقیقه پیش

سفری پر از ترس، امید و تضاد/ «آن دیگری» نقد و بررسی می‌شود

سقوط سنگین قیمت خودروهای مونتاژی؛ حباب بازار در حال تخلیه است؟
خودرو33 دقیقه پیش

سقوط سنگین قیمت خودروهای مونتاژی؛ حباب بازار در حال تخلیه است؟

تعطیلی موقت یک پمپ‌بنزین در صالحیه به دنبال نارضایتی مردمی
سیاسی و اجتماعی42 دقیقه پیش

تعطیلی موقت یک پمپ‌بنزین در صالحیه به دنبال نارضایتی مردمی

قیمت طلای 18عیار امروز 23خرداد/ ریزش قیمت + جدول
اقتصاد پولی مالی2 ساعت پیش

قیمت طلای 18عیار امروز 23خرداد/ ریزش قیمت + جدول

وزیر امورخارجه پاکستان به همتای سعودی‌اش: توافق تهران و واشنگتن فردا امضا می‌شود
سیاسی و اجتماعی2 ساعت پیش

وزیر امورخارجه پاکستان به همتای سعودی‌اش: توافق تهران و واشنگتن فردا امضا می‌شود

رایزنی نخست‌وزیران قطر و پاکستان درباره راه‌های تقویت تفاهم ایران و آمریکا
سیاسی و اجتماعی2 ساعت پیش

رایزنی نخست‌وزیران قطر و پاکستان درباره راه‌های تقویت تفاهم ایران و آمریکا

هشدار مدیرعامل آنتروپیک: حذف مشاغل ویژگی ذاتی و گریزناپذیر هوش مصنوعی است
تکنولوژی3 ساعت پیش

هشدار مدیرعامل آنتروپیک: حذف مشاغل ویژگی ذاتی و گریزناپذیر هوش مصنوعی است

رقیب Claude Code؛ شیائومی از ایجنت هوش مصنوعی متن‌باز MiMo Code رونمایی کرد
تکنولوژی3 ساعت پیش

رقیب Claude Code؛ شیائومی از ایجنت هوش مصنوعی متن‌باز MiMo Code رونمایی کرد

اسامی عطرهای غیرمجاز اعلام شد
پزشکی و سلامت1 روز پیش

اسامی عطرهای غیرمجاز اعلام شد

سیاسی و اجتماعی21 ساعت پیش

اگر بعد از تفاهم ۶۰ روزه با آمریکا به توافق نهایی نرسیم چه خواهد شد؟

قالیباف: ایرانی متفاوت خواهید دید!
سیاسی و اجتماعی2 روز پیش

قالیباف: ایرانی متفاوت خواهید دید!

تهیه‌کننده «کلینیک رویا» مدعی شد: موضوعات شبکه نمایش خانگی گاهی تخریب‌کننده کیان خانواده است/ مخاطبان تلویزیون وسیع هستند!
سینمای ایران و جهان1 روز پیش

تهیه‌کننده «کلینیک رویا» مدعی شد: موضوعات شبکه نمایش خانگی گاهی تخریب‌کننده کیان خانواده است/ مخاطبان تلویزیون وسیع هستند!

ترامپ از توافق با ایران و پایان جنگ خبر داد
سیاسی و اجتماعی2 روز پیش

ترامپ از توافق با ایران و پایان جنگ خبر داد

سردار محبی: آمریکااز تجربه شکست‌های قبلی خود پیشمان خواهد شد
سیاسی و اجتماعی2 روز پیش

سردار محبی: آمریکااز تجربه شکست‌های قبلی خود پیشمان خواهد شد

بیانیه اخیر برخی کشورها عملیات سیاسی برای انحراف افکار عمومی است
سیاسی و اجتماعی2 روز پیش

بیانیه اخیر برخی کشورها عملیات سیاسی برای انحراف افکار عمومی است

سیاسی و اجتماعی2 روز پیش

خروج قطار تبریز – تهران از ریل / چند نفر مصدوم شدند؟

تجاوز و جنایات اراده ملت مقاوم لبنان و حزب‌الله را درهم نخواهد شکست
سیاسی و اجتماعی2 روز پیش

تجاوز و جنایات اراده ملت مقاوم لبنان و حزب‌الله را درهم نخواهد شکست

​​​​​«دیکته‌طور» تمدید شد/ جنگِ زمان و جهان بر سر تصاحب خانه پدری
سینمای ایران و جهان1 روز پیش

​​​​​«دیکته‌طور» تمدید شد/ جنگِ زمان و جهان بر سر تصاحب خانه پدری

جدیدترین اخبار پربحث

خبر مهم اخیر

«مجله فان فارسی» از سال ۱۳۹۰ مجله‌ای در حوزه سرگرمی، سبک زندگی، سفر و فرهنگ روزمره است که با انتشار محتوای جذاب و الهام‌بخش، تجربه‌های زندگی شهری، تفریح، هنر و لحظه‌های خوش را برای مخاطبان روایت می‌کند. کپی بخش یا کل هر کدام از مطالب "فان فارسی" تنها با کسب مجوز مکتوب امکان پذیر است.