مدل کوچک AI سامسونگ، غول‌های LLM در استدلال پیچیده را شکست می‌دهد

در دنیای رقابتی هوش مصنوعی، معمولاً این باور وجود دارد که “هرچه بزرگتر، بهتر است”. شرکت‌های فناوری عظیم میلیاردها دلار صرف ساخت مدل‌های بزرگ‌تر کرده‌اند. اما به تازگی، الکسیه ژولیکور-مارتینو از مرکز هوش مصنوعی سامسونگ در مونترال نشان داده است که مسیر متفاوت و کارآمدتری با استفاده از مدل کوچک بازگشتی (Tiny Recursive Model یا TRM) ممکن است.

مدل TRM با تنها ۷ میلیون پارامتر، که کمتر از ۰.۰۱% اندازه مدل‌های زبانی بزرگ (LLMs) پیشرو است، توانسته نتایج خارق‌العاده‌ای در آزمون‌های دشواری مانند آزمون هوش ARC-AGI به دست آورد. این تحقیق سامسونگ به چالش کشیدن فرضیه غالب مبنی بر اینکه تنها راه پیشرفت توانایی‌های مدل‌های هوش مصنوعی، افزایش مقیاس است، می‌پردازد و جایگزینی پایدار و کارآمد از نظر پارامترها ارائه می‌دهد.

غلبه بر محدودیت‌های مقیاس

مدل‌های LLM در تولید متن شبیه به انسان توانایی شگرفی از خود نشان داده‌اند، اما توانایی آنها در انجام استدلال‌های پیچیده و چند مرحله‌ای می‌تواند شکننده باشد. از آنجا که این مدل‌ها پاسخ‌ها را به صورت توکن به توکن تولید می‌کنند، یک اشتباه کوچک در مراحل اولیه می‌تواند کل راه‌حل را مختل کند و منجر به پاسخ نادرستی شود.

رای کاهش این مشکل، تکنیک‌هایی مانند زنجیره تفکر یا Chain-of-Thought توسعه یافته‌اند. در این روش، مدل «با صدای بلند فکر می‌کند» تا یک مشکل را تجزیه و تحلیل کند. اما این روش‌ها، هزینه‌های محاسباتی بالایی دارند. معمولاً به مقادیر زیادی از داده‌های با کیفیت بالا نیاز دارند، که ممکن است در دسترس نباشند. یکی از راه‌حل‌های کلیدی برای غلبه بر این محدودیت‌ها، روش تقطیر دانش (Knowledge Distillation) است که دانش از مدل‌های بزرگ به مدل‌های کوچک‌تر منتقل می‌شود و کارایی را بدون افزایش حجم حفظ می‌کند. برای اطلاعات بیشتر در مورد این تکنیک و مثال‌هایی مثل DistilBERT یا مدل‌های استدلال زنجیره‌ای کارآمد، به مقاله روش تقطیر دانش در هوش مصنوعی | کوچک‌سازی و بهینه‌سازی مدل‌های AI مراجعه کنید.

حتی با این روش‌ها، مدل‌های LLM در حل برخی معماها که نیازمند منطق کامل هستند، دچار مشکل می‌شوند.
تحقیق سامسونگ بر اساس یک مدل هوش مصنوعی جدید به نام مدل استدلال سلسله‌مراتبی (Hierarchical Reasoning Model یا HRM) بنا شده است. HRM یک روش نوآورانه را با استفاده از دو شبکه عصبی کوچک معرفی کرد که به صورت بازگشتی روی یک مشکل در فرکانس‌های مختلف کار می‌کنند تا یک پاسخ را تصحیح کنند. اگرچه این مدل نشان‌دهنده پتانسیل بالایی بود، اما پیچیده و وابسته به استدلال‌های بیولوژیکی نامشخص و نظریه‌های نقطه ثابت پیچیده‌ای بود که تضمین نمی‌شد قابل اعمال باشند.

ساخت چت‌ بات رایگان و اختصاصی برای کسب‌ و کار با یارابات
ساخت رایگان چت‌ بات اختصاصی تنها با چند کلیک در یارابات

مدل TRM به جای استفاده از دو شبکه مانند HRM، از یک شبکه کوچک واحد استفاده می‌کند که به صورت بازگشتی هم “استدلال داخلی” خود و هم “پاسخ” پیشنهادی خود را بهبود می‌بخشد.

این مدل ابتدا سوال را دریافت کرده، یک حدس اولیه از پاسخ و یک ویژگی استدلال نهفته را دریافت می‌کند. سپس چندین مرحله را برای تصحیح استدلال نهفته خود بر اساس هر سه ورودی طی می‌کند. سپس با استفاده از این استدلال بهبود یافته، پیش‌بینی خود را برای پاسخ نهایی به‌روزرسانی می‌کند. این فرایند می‌تواند تا ۱۶ بار تکرار شود و به مدل اجازه می‌دهد که اشتباهات خود را به صورت پیوسته و با کارایی بالای پارامترها تصحیح کند.

به طور غیرمنتظره، تحقیقات نشان داد که یک شبکه کوچک با تنها دو لایه، به مراتب بهتر از یک نسخه چهار لایه تعمیم پیدا می‌کند. این کاهش در اندازه به نظر می‌رسد مانع از بیش‌فروشی مدل می‌شود، که یک مشکل رایج در آموزش بر روی داده‌های کوچک و تخصصی است.

TRM همچنین از توجیهات ریاضی پیچیده‌ای که توسط مدل پیشین خود استفاده می‌شد، چشم‌پوشی می‌کند. مدل HRM اصلی به فرض این نیاز داشت که توابع آن به یک نقطه ثابت همگرا شوند تا روش آموزش آن توجیه شود. TRM به سادگی با استفاده از بازپراکندگی در طول فرایند کامل بازگشت، این مشکل را دور می‌زند. این تغییر به تنهایی به بهبود عملکرد قابل توجهی انجامید و دقت را در آزمون Sudoku-Extreme از ۵۶.۵% به ۸۷.۴% در یک مطالعه ابلاسیون افزایش داد.

مدل سامسونگ با منابع کمتر، معیارهای هوش مصنوعی را شکست می‌دهد

نتایج به خودی خود گویای واقعیت هستند. در مجموعه داده Sudoku-Extreme، که تنها ۱,۰۰۰ مثال آموزشی را شامل می‌شود، TRM به دقت ۸۷.۴% در آزمون دست یافته است که جهش بزرگی از ۵۵% مدل HRM است. در آزمون Maze-Hard، که شامل پیدا کردن مسیرهای طولانی در میان مازهای ۳۰×۳۰ است، TRM امتیاز ۸۵.۳% را در مقایسه با ۷۴.۵% مدل HRM کسب کرده است.

به‌ویژه، TRM پیشرفت‌های بزرگی در آزمون Abstraction and Reasoning Corpus (ARC-AGI) که برای اندازه‌گیری هوش واقعی در هوش مصنوعی طراحی شده است، به دست آورده است. با تنها ۷ میلیون پارامتر، TRM به دقت ۴۴.۶% در ARC-AGI-1 و ۷.۸% در ARC-AGI-2 دست یافته است، که از مدل HRM که از یک مدل ۲۷ میلیون پارامتری استفاده می‌کرد، پیشی می‌گیرد و حتی بسیاری از بزرگ‌ترین LLM‌های جهان را نیز پشت سر می‌گذارد. برای مقایسه، مدل Gemini 2.5 Pro تنها ۴.۹% در ARC-AGI-2 کسب کرده است.

فرآیند آموزش TRM همچنین به طور مؤثری بهینه‌سازی شده است. یک مکانیزم تطبیقی به نام ACT که تصمیم می‌گیرد که آیا مدل به اندازه کافی یک پاسخ را بهبود داده است و می‌تواند به یک نمونه داده جدید منتقل شود، ساده‌سازی شده است تا نیاز به یک مرحله پیشرو هزینه‌بر دوم در هر مرحله آموزشی را حذف کند. این تغییر بدون تفاوت قابل توجهی در تعمیم نهایی انجام شد.

تحقیق سامسونگ یک استدلال قانع‌کننده علیه روند کنونی مدل‌های هوش مصنوعی در حال گسترش را ارائه می‌دهد. این تحقیق نشان می‌دهد که با طراحی معماری‌هایی که می‌توانند به طور تکراری استدلال کنند و خود را تصحیح کنند، امکان حل مشکلات بسیار دشوار با درصد بسیار کمی از منابع محاسباتی وجود دارد.

نتیجه‌گیری

با توجه به پیشرفت‌های اخیر در مدل TRM سامسونگ، به نظر می‌رسد که آینده هوش مصنوعی ممکن است به سمت بهینه‌سازی و کارایی بیشتر برود تا صرفاً بزرگتر شدن. این تحقیق بار دیگر نشان می‌دهد که با توجه به منابع محدود، می‌توان به نتایج شگفت‌انگیزی دست یافت.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

سلام😊 من هم‌یار هوشمند دستیار هوشمند هستم. چطور می‌تونم کمکتون کنم؟

ربات هوشمند یارا

ربات

0:00

Powered by yarabot