با ما همراه باشید

تکنولوژی

مایکروسافت از سه مدل هوش مصنوعی برای تولید صدا و عکس رونمایی کرد

این مدل‌ها می‌توانند گفتار را به متن تبدیل و صدا و تصویر تولید کنند.

منتشر شده

در

مایکروسافت از سه مدل هوش مصنوعی برای تولید صدا و عکس رونمایی کرد

مایکروسافت به‌تازگی از سه مدل هوش مصنوعی پیشرفته و مقرون‌به‌صرفه پرده برداشت؛ کاربرد اصلی این مدل‌ها تبدیل گفتار به متن، تولید صدا و تولید عکس است. این مدل‌ها نشان‌دهنده جاه‌طلبی مایکروسافت برای رقابت مستقیم با OpenAI، گوگل و دیگر آزمایشگاه‌های پیشرفته است.

سه مدل جدید MAI-Transcribe-1 ،MAI-Voice-1 و MAI-Image-2 هستند و ‌اکنون از طریق Microsoft Foundry و MAI Playground در دسترس قرار دارند.

هر کدام از این مدل‌ها کاربرد خاصی دارند:

  • MAI-Transcribe-1: تبدیل گفتار به متن با دقت بی‌سابقه در ۲۵ زبان و سرعت ۲.۵ برابر سریع‌تر از نسخه فعلی Azure Fast.
  • MAI-Voice-1: تولید صدای طبیعی و حفظ هویت گوینده در محتوای طولانی، با قابلیت ساخت صدای سفارشی فقط با چند ثانیه نمونه صوتی.
  • MAI-Image-2: تولید تصاویر با سرعت دو برابر نسبت به نسل قبلی و امکان استفاده در Bing و PowerPoint.

معرفی مدل‌های جدید مایکروسافت

MAI-Transcribe-1 در آزمون FLEURS، کمترین نرخ خطای کلمه (WER) را در میان ۲۵ زبان برتر مورد استفاده محصولات مایکروسافت ثبت کرده است. این مدل در تمام زبان‌ها از Whisper-large-v3 اوپن‌ای‌آی پیشی گرفته و در بسیاری از زبان‌ها گوگل و مدل‌های دیگر را هم پشت سر گذاشته است.

هوش مصنوعی مایکروسافت
مایکروسافت از سه مدل هوش مصنوعی برای تولید صدا و عکس رونمایی کرد

MAI-Voice-1 رقیب جدی مدل‌های ElevenLabs و Resemble AI است و می‌تواند صدا‌های مختلفی تولید کند؛ هزینه آن نیز ۲۲ دلار برای هر میلیون کاراکتر است. MAI-Image-2 نیز تولید تصاویر را سریع‌تر کرده و با قیمت ۵ دلار برای هر میلیون توکن ورودی متن و ۳۳ دلار برای هر میلیون توکن تصویر ارائه می‌شود.

مایکروسافت پیش‌تر با OpenAI قراردادی داشت که در آن متعهد شده بود مدل‌های خود را توسعه ندهد. اکنون پس از بازنگری در این قرارداد، مایکروسافت توانست به‌طور مستقل به توسعه مدل‌های هوش مصنوعی پیشرفته خود بپردازد.

یکی از نکات قابل‌توجه این است که این مدل‌ها با تیم‌های کوچک (کمتر از ۱۰ نفر) ساخته شده‌اند. این رویکرد هزینه‌ها را کاهش می‌دهد و نشان می‌دهد که توسعه هوش مصنوعی پیشرفته لزوماً به هزاران پژوهشگر و میلیاردها دلار هزینه نیاز ندارد.

ادامه مطلب
برای افزودن دیدگاه کلیک کنید

یک پاسخ بگذارید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

خودرو21 دقیقه پیش

خبر مهم درباره قیمت خودرو/ این خودرو طی 10 روز 400 میلیون تومان ارزان‌تر شد+ جدول قیمت‌ها

واژگونی تریلی در محور آغاجاری ۳ کشته بر جای گذاشت
سیاسی و اجتماعی22 دقیقه پیش

واژگونی تریلی در محور آغاجاری ۳ کشته بر جای گذاشت

شهید رئیسی در همه مسئولیت‌ها نگاه مردمی داشت
سیاسی و اجتماعی23 دقیقه پیش

شهید رئیسی در همه مسئولیت‌ها نگاه مردمی داشت

دستگیری ۲ شکارچی متخلف در میناب
سیاسی و اجتماعی23 دقیقه پیش

دستگیری ۲ شکارچی متخلف در میناب

فرماندار الیگودرز: ۸۵ واحد خبازی به موتور برق مجهز شدند
سیاسی و اجتماعی24 دقیقه پیش

فرماندار الیگودرز: ۸۵ واحد خبازی به موتور برق مجهز شدند

مرتضوی: شهید رئیسی مشکلات کشور را به مذاکرات گره نزد
سیاسی و اجتماعی24 دقیقه پیش

مرتضوی: شهید رئیسی مشکلات کشور را به مذاکرات گره نزد

فرماندار کوهدشت: تشدید نظارت‌های میدانی بر نانوایی‌ها در دستور کار است
سیاسی و اجتماعی25 دقیقه پیش

فرماندار کوهدشت: تشدید نظارت‌های میدانی بر نانوایی‌ها در دستور کار است

بازدید معاون برنامه و بودجه آذربایجان‌شرقی از دانشگاه هنر اسلامی تبریز
سیاسی و اجتماعی26 دقیقه پیش

بازدید معاون برنامه و بودجه آذربایجان‌شرقی از دانشگاه هنر اسلامی تبریز

پیشنهاد سپردن «دانشگاه پساجنگ» به علوم انسانی
سیاسی و اجتماعی26 دقیقه پیش

پیشنهاد سپردن «دانشگاه پساجنگ» به علوم انسانی

تسهیلات سفر رئیس‌جمهور به رفع مشکلات واحدهای صنعتی بروجرد کمک می‌کند
سیاسی و اجتماعی27 دقیقه پیش

تسهیلات سفر رئیس‌جمهور به رفع مشکلات واحدهای صنعتی بروجرد کمک می‌کند

جدیدترین اخبار پربحث

خبر مهم اخیر

«مجله فان فارسی» از سال ۱۳۹۰ مجله‌ای در حوزه سرگرمی، سبک زندگی، سفر و فرهنگ روزمره است که با انتشار محتوای جذاب و الهام‌بخش، تجربه‌های زندگی شهری، تفریح، هنر و لحظه‌های خوش را برای مخاطبان روایت می‌کند. کپی بخش یا کل هر کدام از مطالب "فان فارسی" تنها با کسب مجوز مکتوب امکان پذیر است.