شرکت علیبابا از مدل هوش مصنوعی Qwen3.7-Max رونمایی کرد که گفته برای «دوران ایجنتها» طراحی شده است. Qwen3.7-Max بهعنوان یک زیربنای همهکاره برای عاملهای هوش مصنوعی معرفی شده؛ مدلی که هم در نوشتن و اشکالزدایی کد توانمند است، هم میتواند جریانهای کاری اداری را خودکارسازی کند.
علیبابا در وبلاگ خود توضیح میدهد چیزی که باعث تمایز Qwen3.7-Max شده، گستره و عمق قابلیتهای ایجنتمحور آن است. این مدل بهعنوان یک عامل برنامهنویسی، از نمونهسازی سریع رابطهای کاربری فرانتاند گرفته تا مهندسی پیچیده نرمافزار در پروژههای چندفایلی عملکرد قدرتمندی دارد. همچنین از طریق یکپارچهسازی با MCP و هماهنگسازی چندعاملی، میتواند بهعنوان یک دستیار قابل اتکا برای کارهای اداری و بهرهوری عمل کند.
علاوهبراین، علیبابا به توانایی مدل جدید خود در حفظ استدلال منسجم برای مدت طولانی اشاره کرده که آن را در جریان یک تلاش ۳۵ ساعته برای بهینهسازی کرنل با استفاده از بیش از ۱۰۰۰ ابزار نشان داده است.
بر اساس اعلام علیبابا، Qwen3.7-Max بهزودی از طریق Alibaba Cloud Model Studio در دسترس قرار خواهد گرفت و قابلیتهای اصلی آن شامل موارد زیر است:
عامل برنامهنویسی برای امور مختلف از نمونهسازی فرانتاند تا مهندسی پیچیده نرمافزار
بهرهوری اداری و خودکارسازی جریانهای کاری از طریق MCP و هماهنگسازی چندعاملی
اجرای خودمختار در وظایف بلندمدت و چندمرحلهای
تعمیمپذیری میان چارچوبهای عاملمحور گوناگون
امکان فراخوانی از طریق API در Alibaba Cloud Model Studio (بهزودی)
عملکرد Qwen3.7-Max در بنچمارکها
Qwen3.7-Max معرفی شد؛ مدل جدید علیبابا برای کدنویسی و اتوماسیون در عصر ایجنتها
در حوزه عاملهای برنامهنویسی، Qwen3.7-Max عملکرد قدرتمندی در چندین بنچمارک ثبت کرده است. این مدل در SWE-Pro امتیاز ۶۰.۶، در SWE-Multilingual امتیاز ۷۸.۳، در SciCode امتیاز ۵۳.۵ و در QwenSVG امتیاز ۱۶۰۸ را کسب کرده است. همچنین در بنچمارک Terminal Bench 2.0-Terminus با امتیاز ۶۹.۷ توانسته از DeepSeek-V4-Pro Max با امتیاز ۶۷.۹ پیشی بگیرد. در بنچمارک SWE-Verified نیز Qwen3.7-Max با امتیاز ۸۰.۴ عملکردی همسطح با Opus-4.6 Max با امتیاز ۸۰.۸ و DeepSeek-V4-Pro Max با امتیاز ۸۰.۶ داشته است.
در حوزه ایجنتهای عمومی، وضعیت این مدل حتی چشمگیرتر توصیف شده است. Qwen3.7-Max در MCP-Mark امتیاز ۶۰.۸ را کسب کرده، درحالیکه GLM-5.1 امتیاز ۵۷.۵ را گرفته است. در MCP-Atlas نیز این مدل با امتیاز ۷۶.۴ بالاتر از Opus-4.6 با امتیاز ۷۵.۸ قرار گرفته است.
این مدل همچنین در زمینه بهینهسازی کرنلهای GPU در Kernel Bench L3 توانایی چشمگیری نشان داده و به نرخ موفقیت ۹۶ درصدی دست یافته است. علاوهبراین، Qwen3.7-Max در BFCL-V4 امتیاز ۷۵.۰، در Qwenclaw امتیاز ۶۴.۳ و در ClawEval امتیاز ۶۵.۲ را به دست آورده و از این نظر عملکرد آن به Opus-4.6 Max نزدیک بوده است. در بنچمارک خودکارسازی امور اداری SpreadSheetBench-v1 نیز این مدل به امتیاز سطح بالای ۸۷ رسیده است.
در بخش استدلال، Qwen3.7-Max در بنچمارک GPQA Diamond امتیاز ۹۲.۴ را کسب کرده، درحالیکه Opus-4.6 امتیاز ۹۱.۳ داشته است.
در مجموع، چیزی که علیبابا از Qwen3.7-Max به نمایش گذاشته، مدلی است که میخواهد فراتر از یک چتبات معمولی عمل کند و به یک ایجنت واقعی برای کدنویسی، اتوماسیون اداری و انجام وظایف چندمرحلهای تبدیل شود. نتایج بنچمارکها نیز نشان میدهند این مدل در چند حوزه مهم، از برنامهنویسی و بهرهوری گرفته تا استدلال، عملکردی رقابتی و در برخی موارد پیشرو دارد. اگر عملکرد واقعی Qwen3.7-Max در زمان عرضه عمومی با این ادعاها همخوانی داشته باشد، میتوان آن را یکی از جدیترین تلاشهای علیبابا برای رقابت در بازار مدلهای پیشرفته و ایجنتمحور دانست.
جدیدترین اخبار پربحث