OpenAI با معرفی معیار جدید GDPval، عملکرد مدلهای خود مانند GPT-5 و Claude Opus 4.1 را در مقایسه با کارشناسان انسانی در صنایع مختلف مورد بررسی قرار داده است. نتایج نشان میدهد که این مدلها به کیفیت کار کارشناسان نزدیک شدهاند، اگرچه هنوز در مراحل ابتدایی قرار دارند و نیاز به آزمونهای جامعتری دارند. OpenAI امیدوار است که این پیشرفتها به حرفهایها کمک کند تا زمان بیشتری را به کارهای ارزشمند اختصاص دهند.
در روز پنجشنبه، OpenAI گزارشی جدید منتشر کرد که به بررسی عملکرد مدلهای هوش مصنوعی خود در مقایسه با حرفهایهای انسانی در صنایع و مشاغل مختلف میپردازد. این آزمون که تحت عنوان GDPval شناخته میشود، یک تلاش اولیه برای درک این موضوع است که سیستمهای OpenAI تا چه حد به تواناییهای انسانی در انجام کارهای اقتصادی ارزشمند نزدیک شدهاند. این هدف بخشی از مأموریت اصلی این شرکت در جهت توسعه هوش عمومی مصنوعی (AGI) است.
OpenAI اعلام کرده است که مدل GPT-5 و مدل Claude Opus 4.1 از Anthropic “به زودی به کیفیت کار تولید شده توسط کارشناسان صنعتی نزدیک میشوند.” با این حال، این بدان معنا نیست که مدلهای OpenAI به زودی قرار است جایگزین انسانها در مشاغل شوند. با وجود پیشبینیهای برخی مدیران عامل مبنی بر اینکه هوش مصنوعی در چند سال آینده مشاغل انسانی را تصاحب خواهد کرد، OpenAI اذعان دارد که آزمون GDPval در حال حاضر تنها به تعداد محدودی از وظایف که افراد در مشاغل واقعی خود انجام میدهند، میپردازد. با این حال، این یکی از جدیدترین روشها برای اندازهگیری پیشرفت AI به سوی این هدف بزرگ است.
آزمون GDPval بر اساس نه صنعت اصلی که بیشترین سهم را در تولید ناخالص داخلی ایالات متحده دارند، طراحی شده است. این صنایع شامل حوزههای مختلفی از جمله بهداشت و درمان، مالی، تولید و دولت هستند. این ارزیابی عملکرد مدلهای هوش مصنوعی را در ۴۴ شغل مختلف در این صنایع آزمایش میکند که از مهندسان نرمافزار تا پرستاران و خبرنگاران را شامل میشود.
در نسخه اولیه این آزمون، GDPval-v0، OpenAI از حرفهایهای با تجربه خواست که گزارشهای تولید شده توسط هوش مصنوعی را با گزارشهای دیگر حرفهایها مقایسه کرده و بهترین را انتخاب کنند. به عنوان مثال، یکی از درخواستها از بانکداران سرمایهگذاری این بود که یک چشمانداز رقابتی برای صنعت تحویل در آخرین مایل ایجاد کرده و آن را با گزارشهای تولید شده توسط هوش مصنوعی مقایسه کنند. سپس OpenAI نرخ “پیروزی” یک مدل هوش مصنوعی را در مقایسه با گزارشهای انسانی در تمامی ۴۴ شغل محاسبه میکند.
برای نسخه پیشرفته GPT-5، که با قدرت محاسباتی اضافی ارتقا یافته است، این شرکت اعلام کرده که این مدل در ۴۰.۶ درصد از موارد بهتر یا همسطح با کارشناسان صنعتی ارزیابی شده است. همچنین، مدل Claude Opus 4.1 از Anthropic در ۴۹ درصد از وظایف بهتر یا همسطح با کارشناسان صنعتی ارزیابی شده است. OpenAI بر این باور است که دلیل امتیاز بالای Claude به خاطر تمایل او به تولید گرافیکهای جذاب است، نه صرفاً عملکرد خالص.
شایان ذکر است که بسیاری از حرفهایهای شاغل کارهای بسیار بیشتری از ارائه گزارشهای تحقیقاتی به مدیر خود انجام میدهند که تنها چیزی است که آزمون GDPval-v0 بر آن تمرکز دارد. OpenAI به این واقعیت اذعان دارد و اعلام کرده است که قصد دارد در آینده آزمونهای جامعتری طراحی کند که بتوانند به صنایع بیشتری و جریانهای کاری تعاملی بپردازند.
با این حال، این شرکت پیشرفتهای حاصل شده در آزمون GDPval را قابل توجه میداند. در مصاحبهای با TechCrunch، دکتر آرون چاتر جی، اقتصاددان ارشد OpenAI، اظهار داشت که نتایج GDPval نشان میدهد که افراد در این مشاغل اکنون میتوانند از مدلهای هوش مصنوعی برای صرف زمان بیشتر روی وظایف معنیدار استفاده کنند.
تجزیه و تحلیلهای OpenAI، تحت سرپرستی Tejal Patwardhan، به TechCrunch ابراز امیدواری کرده است که نرخ پیشرفت در آزمون GDPval بسیار امیدوارکننده است. مدل GPT-4o به تازگی ۱۳.۷ درصد (پیروزی و تساوی در مقابل انسانها) کسب کرده بود، در حالی که اکنون GPT-5 نزدیک به سه برابر آن را کسب کرده است؛ روندی کهPatwardhan انتظار دارد ادامه یابد.
در سیلیکون ولی، یک طیف وسیع از معیارهها برای اندازهگیری پیشرفت مدلهای هوش مصنوعی و ارزیابی اینکه آیا یک مدل خاص در سطح اول است، وجود دارد. از جمله محبوبترین آنها میتوان به AIME 2025 (آزمونی برای مسائل ریاضی رقابتی) و GPQA Diamond (آزمونی برای سوالات علمی در سطح دکتری) اشاره کرد. با این حال، چندین مدل هوش مصنوعی به اشباع بر روی برخی از این معیارهها نزدیک شدهاند و بسیاری از محققان هوش مصنوعی نیاز به آزمونهای بهتر برای اندازهگیری توانایی هوش مصنوعی در انجام وظایف واقعی را اعلام کردهاند.
معیارههایی مانند GDPval میتواند در این بحث اهمیت بیشتری پیدا کند، زیرا OpenAI سعی دارد این ادعا را مطرح کند که مدلهای هوش مصنوعی آن برای طیف وسیعی از صنایع ارزشمند هستند. با این حال، OpenAI ممکن است نیاز به نسخهای جامعتر از این آزمون داشته باشد تا بهطور قطع بگوید که مدلهای هوش مصنوعی آن میتوانند بر انسانها برتری یابند.
شرکت فیگما اعلام کرد که در چارچوب همکاری جدید خود با گوگل، قصد دارد مدلهای…
تحقیقات انجامشده در موسسه فناوری ماساچوست (MIT) نشان میدهد که استفاده از مدلهای زبانی بزرگ…
در دنیای رقابتی هوش مصنوعی، معمولاً این باور وجود دارد که "هرچه بزرگتر، بهتر است".…
با نزدیک شدن به فصل خرید تعطیلات در ایالات متحده، گزارش جدیدی از بخش تجارت…
مقدمهای بر تغییرات جدید اسپاتیفای اسپاتیفای در روز پنجشنبه بهروزرسانیهای مهمی را در سیاستهای هوش…
اخیراً، اخبار مربوط به سرمایهگذاریهای کلان در زیرساختهای هوش مصنوعی از سیلیکون ولی به شدت…