
در دنیای رقابتی هوش مصنوعی، معمولاً این باور وجود دارد که “هرچه بزرگتر، بهتر است”. شرکتهای فناوری عظیم میلیاردها دلار صرف ساخت مدلهای بزرگتر کردهاند. اما به تازگی، الکسیه ژولیکور-مارتینو از مرکز هوش مصنوعی سامسونگ در مونترال نشان داده است که مسیر متفاوت و کارآمدتری با استفاده از مدل کوچک بازگشتی (Tiny Recursive Model یا TRM) ممکن است.
مدل TRM با تنها ۷ میلیون پارامتر، که کمتر از ۰.۰۱% اندازه مدلهای زبانی بزرگ (LLMs) پیشرو است، توانسته نتایج خارقالعادهای در آزمونهای دشواری مانند آزمون هوش ARC-AGI به دست آورد. این تحقیق سامسونگ به چالش کشیدن فرضیه غالب مبنی بر اینکه تنها راه پیشرفت تواناییهای مدلهای هوش مصنوعی، افزایش مقیاس است، میپردازد و جایگزینی پایدار و کارآمد از نظر پارامترها ارائه میدهد.
غلبه بر محدودیتهای مقیاس
مدلهای LLM در تولید متن شبیه به انسان توانایی شگرفی از خود نشان دادهاند، اما توانایی آنها در انجام استدلالهای پیچیده و چند مرحلهای میتواند شکننده باشد. از آنجا که این مدلها پاسخها را به صورت توکن به توکن تولید میکنند، یک اشتباه کوچک در مراحل اولیه میتواند کل راهحل را مختل کند و منجر به پاسخ نادرستی شود.
رای کاهش این مشکل، تکنیکهایی مانند زنجیره تفکر یا Chain-of-Thought توسعه یافتهاند. در این روش، مدل «با صدای بلند فکر میکند» تا یک مشکل را تجزیه و تحلیل کند. اما این روشها، هزینههای محاسباتی بالایی دارند. معمولاً به مقادیر زیادی از دادههای با کیفیت بالا نیاز دارند، که ممکن است در دسترس نباشند. یکی از راهحلهای کلیدی برای غلبه بر این محدودیتها، روش تقطیر دانش (Knowledge Distillation) است که دانش از مدلهای بزرگ به مدلهای کوچکتر منتقل میشود و کارایی را بدون افزایش حجم حفظ میکند. برای اطلاعات بیشتر در مورد این تکنیک و مثالهایی مثل DistilBERT یا مدلهای استدلال زنجیرهای کارآمد، به مقاله روش تقطیر دانش در هوش مصنوعی | کوچکسازی و بهینهسازی مدلهای AI مراجعه کنید.
حتی با این روشها، مدلهای LLM در حل برخی معماها که نیازمند منطق کامل هستند، دچار مشکل میشوند.
تحقیق سامسونگ بر اساس یک مدل هوش مصنوعی جدید به نام مدل استدلال سلسلهمراتبی (Hierarchical Reasoning Model یا HRM) بنا شده است. HRM یک روش نوآورانه را با استفاده از دو شبکه عصبی کوچک معرفی کرد که به صورت بازگشتی روی یک مشکل در فرکانسهای مختلف کار میکنند تا یک پاسخ را تصحیح کنند. اگرچه این مدل نشاندهنده پتانسیل بالایی بود، اما پیچیده و وابسته به استدلالهای بیولوژیکی نامشخص و نظریههای نقطه ثابت پیچیدهای بود که تضمین نمیشد قابل اعمال باشند.

مدل TRM به جای استفاده از دو شبکه مانند HRM، از یک شبکه کوچک واحد استفاده میکند که به صورت بازگشتی هم “استدلال داخلی” خود و هم “پاسخ” پیشنهادی خود را بهبود میبخشد.
این مدل ابتدا سوال را دریافت کرده، یک حدس اولیه از پاسخ و یک ویژگی استدلال نهفته را دریافت میکند. سپس چندین مرحله را برای تصحیح استدلال نهفته خود بر اساس هر سه ورودی طی میکند. سپس با استفاده از این استدلال بهبود یافته، پیشبینی خود را برای پاسخ نهایی بهروزرسانی میکند. این فرایند میتواند تا ۱۶ بار تکرار شود و به مدل اجازه میدهد که اشتباهات خود را به صورت پیوسته و با کارایی بالای پارامترها تصحیح کند.
به طور غیرمنتظره، تحقیقات نشان داد که یک شبکه کوچک با تنها دو لایه، به مراتب بهتر از یک نسخه چهار لایه تعمیم پیدا میکند. این کاهش در اندازه به نظر میرسد مانع از بیشفروشی مدل میشود، که یک مشکل رایج در آموزش بر روی دادههای کوچک و تخصصی است.
TRM همچنین از توجیهات ریاضی پیچیدهای که توسط مدل پیشین خود استفاده میشد، چشمپوشی میکند. مدل HRM اصلی به فرض این نیاز داشت که توابع آن به یک نقطه ثابت همگرا شوند تا روش آموزش آن توجیه شود. TRM به سادگی با استفاده از بازپراکندگی در طول فرایند کامل بازگشت، این مشکل را دور میزند. این تغییر به تنهایی به بهبود عملکرد قابل توجهی انجامید و دقت را در آزمون Sudoku-Extreme از ۵۶.۵% به ۸۷.۴% در یک مطالعه ابلاسیون افزایش داد.
مدل سامسونگ با منابع کمتر، معیارهای هوش مصنوعی را شکست میدهد
نتایج به خودی خود گویای واقعیت هستند. در مجموعه داده Sudoku-Extreme، که تنها ۱,۰۰۰ مثال آموزشی را شامل میشود، TRM به دقت ۸۷.۴% در آزمون دست یافته است که جهش بزرگی از ۵۵% مدل HRM است. در آزمون Maze-Hard، که شامل پیدا کردن مسیرهای طولانی در میان مازهای ۳۰×۳۰ است، TRM امتیاز ۸۵.۳% را در مقایسه با ۷۴.۵% مدل HRM کسب کرده است.
بهویژه، TRM پیشرفتهای بزرگی در آزمون Abstraction and Reasoning Corpus (ARC-AGI) که برای اندازهگیری هوش واقعی در هوش مصنوعی طراحی شده است، به دست آورده است. با تنها ۷ میلیون پارامتر، TRM به دقت ۴۴.۶% در ARC-AGI-1 و ۷.۸% در ARC-AGI-2 دست یافته است، که از مدل HRM که از یک مدل ۲۷ میلیون پارامتری استفاده میکرد، پیشی میگیرد و حتی بسیاری از بزرگترین LLMهای جهان را نیز پشت سر میگذارد. برای مقایسه، مدل Gemini 2.5 Pro تنها ۴.۹% در ARC-AGI-2 کسب کرده است.
فرآیند آموزش TRM همچنین به طور مؤثری بهینهسازی شده است. یک مکانیزم تطبیقی به نام ACT که تصمیم میگیرد که آیا مدل به اندازه کافی یک پاسخ را بهبود داده است و میتواند به یک نمونه داده جدید منتقل شود، سادهسازی شده است تا نیاز به یک مرحله پیشرو هزینهبر دوم در هر مرحله آموزشی را حذف کند. این تغییر بدون تفاوت قابل توجهی در تعمیم نهایی انجام شد.
تحقیق سامسونگ یک استدلال قانعکننده علیه روند کنونی مدلهای هوش مصنوعی در حال گسترش را ارائه میدهد. این تحقیق نشان میدهد که با طراحی معماریهایی که میتوانند به طور تکراری استدلال کنند و خود را تصحیح کنند، امکان حل مشکلات بسیار دشوار با درصد بسیار کمی از منابع محاسباتی وجود دارد.
نتیجهگیری
با توجه به پیشرفتهای اخیر در مدل TRM سامسونگ، به نظر میرسد که آینده هوش مصنوعی ممکن است به سمت بهینهسازی و کارایی بیشتر برود تا صرفاً بزرگتر شدن. این تحقیق بار دیگر نشان میدهد که با توجه به منابع محدود، میتوان به نتایج شگفتانگیزی دست یافت.

دیدگاهتان را بنویسید