اخبار

OpenAI اعلام کرد که مدل GPT-5 در طیف وسیعی از مشاغل با انسان‌ها رقابت می‌کند

OpenAI با معرفی معیار جدید GDPval، عملکرد مدل‌های خود مانند GPT-5 و Claude Opus 4.1 را در مقایسه با کارشناسان انسانی در صنایع مختلف مورد بررسی قرار داده است. نتایج نشان می‌دهد که این مدل‌ها به کیفیت کار کارشناسان نزدیک شده‌اند، اگرچه هنوز در مراحل ابتدایی قرار دارند و نیاز به آزمون‌های جامع‌تری دارند. OpenAI امیدوار است که این پیشرفت‌ها به حرفه‌ای‌ها کمک کند تا زمان بیشتری را به کارهای ارزشمند اختصاص دهند.

مقدمه‌ای بر ارزیابی‌های جدید OpenAI

در روز پنجشنبه، OpenAI گزارشی جدید منتشر کرد که به بررسی عملکرد مدل‌های هوش مصنوعی خود در مقایسه با حرفه‌ای‌های انسانی در صنایع و مشاغل مختلف می‌پردازد. این آزمون که تحت عنوان GDPval شناخته می‌شود، یک تلاش اولیه برای درک این موضوع است که سیستم‌های OpenAI تا چه حد به توانایی‌های انسانی در انجام کارهای اقتصادی ارزشمند نزدیک شده‌اند. این هدف بخشی از مأموریت اصلی این شرکت در جهت توسعه هوش عمومی مصنوعی (AGI) است.

نتایج منتشر شده: نزدیک بودن به کیفیت کار انسان‌ها

OpenAI اعلام کرده است که مدل GPT-5 و مدل Claude Opus 4.1 از Anthropic “به زودی به کیفیت کار تولید شده توسط کارشناسان صنعتی نزدیک می‌شوند.” با این حال، این بدان معنا نیست که مدل‌های OpenAI به زودی قرار است جایگزین انسان‌ها در مشاغل شوند. با وجود پیش‌بینی‌های برخی مدیران عامل مبنی بر اینکه هوش مصنوعی در چند سال آینده مشاغل انسانی را تصاحب خواهد کرد، OpenAI اذعان دارد که آزمون GDPval در حال حاضر تنها به تعداد محدودی از وظایف که افراد در مشاغل واقعی خود انجام می‌دهند، می‌پردازد. با این حال، این یکی از جدیدترین روش‌ها برای اندازه‌گیری پیشرفت AI به سوی این هدف بزرگ است.

ساخت رایگان چت‌ بات اختصاصی تنها با چند کلیک در یارابات

جزئیات آزمون GDPval

آزمون GDPval بر اساس نه صنعت اصلی که بیشترین سهم را در تولید ناخالص داخلی ایالات متحده دارند، طراحی شده است. این صنایع شامل حوزه‌های مختلفی از جمله بهداشت و درمان، مالی، تولید و دولت هستند. این ارزیابی عملکرد مدل‌های هوش مصنوعی را در ۴۴ شغل مختلف در این صنایع آزمایش می‌کند که از مهندسان نرم‌افزار تا پرستاران و خبرنگاران را شامل می‌شود.

در نسخه اولیه این آزمون، GDPval-v0، OpenAI از حرفه‌ای‌های با تجربه خواست که گزارش‌های تولید شده توسط هوش مصنوعی را با گزارش‌های دیگر حرفه‌ای‌ها مقایسه کرده و بهترین را انتخاب کنند. به عنوان مثال، یکی از درخواست‌ها از بانکداران سرمایه‌گذاری این بود که یک چشم‌انداز رقابتی برای صنعت تحویل در آخرین مایل ایجاد کرده و آن را با گزارش‌های تولید شده توسط هوش مصنوعی مقایسه کنند. سپس OpenAI نرخ “پیروزی” یک مدل هوش مصنوعی را در مقایسه با گزارش‌های انسانی در تمامی ۴۴ شغل محاسبه می‌کند.

عملکرد مدل‌های هوش مصنوعی

برای نسخه پیشرفته GPT-5، که با قدرت محاسباتی اضافی ارتقا یافته است، این شرکت اعلام کرده که این مدل در ۴۰.۶ درصد از موارد بهتر یا هم‌سطح با کارشناسان صنعتی ارزیابی شده است. همچنین، مدل Claude Opus 4.1 از Anthropic در ۴۹ درصد از وظایف بهتر یا هم‌سطح با کارشناسان صنعتی ارزیابی شده است. OpenAI بر این باور است که دلیل امتیاز بالای Claude به خاطر تمایل او به تولید گرافیک‌های جذاب است، نه صرفاً عملکرد خالص.

حوزه‌های کاری فراتر از ارائه گزارش

شایان ذکر است که بسیاری از حرفه‌ای‌های شاغل کارهای بسیار بیشتری از ارائه گزارش‌های تحقیقاتی به مدیر خود انجام می‌دهند که تنها چیزی است که آزمون GDPval-v0 بر آن تمرکز دارد. OpenAI به این واقعیت اذعان دارد و اعلام کرده است که قصد دارد در آینده آزمون‌های جامع‌تری طراحی کند که بتوانند به صنایع بیشتری و جریان‌های کاری تعاملی بپردازند.

با این حال، این شرکت پیشرفت‌های حاصل شده در آزمون GDPval را قابل توجه می‌داند. در مصاحبه‌ای با TechCrunch، دکتر آرون چاتر جی، اقتصاددان ارشد OpenAI، اظهار داشت که نتایج GDPval نشان می‌دهد که افراد در این مشاغل اکنون می‌توانند از مدل‌های هوش مصنوعی برای صرف زمان بیشتر روی وظایف معنی‌دار استفاده کنند.

روند رو به رشد هوش مصنوعی

تجزیه و تحلیل‌های OpenAI، تحت سرپرستی Tejal Patwardhan، به TechCrunch ابراز امیدواری کرده است که نرخ پیشرفت در آزمون GDPval بسیار امیدوارکننده است. مدل GPT-4o به تازگی ۱۳.۷ درصد (پیروزی و تساوی در مقابل انسان‌ها) کسب کرده بود، در حالی که اکنون GPT-5 نزدیک به سه برابر آن را کسب کرده است؛ روندی کهPatwardhan انتظار دارد ادامه یابد.

در سیلیکون ولی، یک طیف وسیع از معیاره‌ها برای اندازه‌گیری پیشرفت مدل‌های هوش مصنوعی و ارزیابی اینکه آیا یک مدل خاص در سطح اول است، وجود دارد. از جمله محبوب‌ترین آن‌ها می‌توان به AIME 2025 (آزمونی برای مسائل ریاضی رقابتی) و GPQA Diamond (آزمونی برای سوالات علمی در سطح دکتری) اشاره کرد. با این حال، چندین مدل هوش مصنوعی به اشباع بر روی برخی از این معیاره‌ها نزدیک شده‌اند و بسیاری از محققان هوش مصنوعی نیاز به آزمون‌های بهتر برای اندازه‌گیری توانایی هوش مصنوعی در انجام وظایف واقعی را اعلام کرده‌اند.

نتیجه‌گیری و آینده هوش مصنوعی

معیاره‌هایی مانند GDPval می‌تواند در این بحث اهمیت بیشتری پیدا کند، زیرا OpenAI سعی دارد این ادعا را مطرح کند که مدل‌های هوش مصنوعی آن برای طیف وسیعی از صنایع ارزشمند هستند. با این حال، OpenAI ممکن است نیاز به نسخه‌ای جامع‌تر از این آزمون داشته باشد تا به‌طور قطع بگوید که مدل‌های هوش مصنوعی آن می‌توانند بر انسان‌ها برتری یابند.

صابر جزندری