جدیدترین های مدل های هوش مصنوعی OpenAI بیشتر دچار توهم می شوند
به گزارش مجله آراد، شرکت OpenAI (خالق چت جی پی تی) چندی پیش از نسل تازه مدل های هوش مصنوعی خود با تمرکز بر قابلیت های استدلالی پرده برداری کرد. این مدل ها که با نام های o3 و o4-mini شناخته می شوند، طبق گفته سازندگانشان پیشرفت های قابل توجهی نسبت به نسخه های پیشین داشته اند. با این حال، گزارش های تازه ای که منتشر شده، نگرانی هایی را در خصوص مقدار صحت اطلاعات تولیدی به وسیله این مدل های تازه برانگیخته است. به نظر می رسد پدیده توهم یا ارائه اطلاعات نادرست به عنوان واقعیت، در این مدل های تازه نفس همچنان یک مسئله جدی به شمار می رود و حتی شاید پررنگ تر از قبل شده باشد.

بر اساس اطلاعات منتشر شده به وسیله تک کرانچ، به نظر می رسد مدل های o3 و o4-mini بیش از آنچه انتظار می رفت، مستعد فراوری محتوای غیرواقعی هستند. تست های داخلی خود شرکت OpenAI نیز این موضوع را تایید می نماید. نتایج این آزمایش ها نشان می دهد که اندازه بروز توهم در o3 و o4-mini نه تنها از مدل های استدلالی قدیمی تر مانند o1، o1-mini و o3-mini بیشتر است، بلکه حتی از مدل های استاندارد و پرکاربرد OpenAI مثل GPT-4o نیز فراتر می رود. این یافته ها تا حدی غافلگیرنماینده محسوب می گردد، چرا که معمولا انتظار می رود با پیشرفت مدل های هوش مصنوعی، از اندازه خطاهای این چنینی کاسته گردد.
پدیده توهم در هوش مصنوعی یکی از موانع اصلی بر سر راه توسعه این فناوری به شمار می رود. غلبه بر این مشکل کار ساده ای نیست و احتیاجمند روینمودهای پیچیده ای است. اگرچه در بسیاری از موارد، نسل های تازهتر مدل ها پیروز می شوند تا حدی بر این مشکل غلبه نمایند و دقت بیشتری نسبت به نسخه های قبلی خود نشان دهند، اما به نظر می رسد این روند در خصوص o3 و o4-mini معکوس بوده است. این مسئله سوالات مهمی را در خصوص مسیر توسعه این مدل ها و چالش های پیش رو مطرح می نماید.
نکته ای که نگرانی ها را دوچندان می نماید، این است که خود OpenAI نیز علت روشنی برای این افزایش توهم در مدل های تازهش ندارد. این شرکت در گزارش فنی مربوط به o3 و o4-mini به صراحت اعلام نموده که برای درک چرایی افزایش توهم همزمان با بهبود قابلیت های استدلالی، به تحقیقات بیشتری احتیاج است. این عدم قطعیت نشان می دهد که درک کامل سازوکارهای درونی این مدل های پیچیده همچنان یک چالش اساسی برای محققان این حوزه است.
البته نباید از پیشرفت های این مدل ها چشم پوشی کرد. گزارش ها حاکی از آن است که o3 و o4-mini در بعضی حوزه ها، به خصوص وظایف مرتبط با برنامه نویسی و حل مسائل ریاضی، عملکرد بهتری نسبت به قبل از خود نشان می دهند. با این حال، به نظر می رسد این بهبود عملکرد با یک هزینه همراه بوده است. طبق تحلیل OpenAI، این مدل ها به طور کلی ادعاهای بیشتری مطرح می نمایند. این افزایش در تعداد ادعاها، هم شامل اطلاعات دقیق تر می گردد و هم متاسفانه، موارد نادرست و متوهمانه را افزایش می دهد.
برای درک بهتر مقیاس این مشکل، OpenAI به نتایج بنچمارک داخلی خود به نام PersonQA اشاره می نماید. این بنچمارک برای سنجش دقت مدل در ارائه اطلاعات مربوط به افراد طراحی شده است. نتایج نشان می دهد که مدل o3 در 33 درصد موارد هنگام پاسخ به سوالات این بنچمارک، دچار توهم شده و اطلاعات نادرست ارائه داده است. این رقم تقریبا دو برابر اندازه توهم در مدل های استدلالی پیشین یعنی o1 (با امتیاز 16 درصد) و o3-mini (با امتیاز 14.8 درصد) است. شرایط برای مدل o4-mini حتی نگران نماینده تر به نظر می رسد، چرا که این مدل در 48 درصد موارد در بنچمارک PersonQA دچار توهم شده است.
شاید بتوان گفت توهم گاهی به مدل های هوش مصنوعی یاری می نماید تا به ایده های تازه و خلاقانه برسند، اما این ویژگی برای کاربردهای تجاری و موقعیت هایی که دقت اطلاعات در اولویت اصلی قرار گرفته است، یک نقطه ضعف بزرگ محسوب می گردد. کسب وکارها و کاربرانی که به خروجی های قابل اعتماد و دقیق از هوش مصنوعی احتیاج دارند، نمی توانند به سادگی از کنار این اندازه خطا عبور نمایند. یکی از راهکارهای امیدوارنماینده برای کاهش توهم و افزایش دقت، تجهیز مدل ها به قابلیت جستجو در وب است. این قابلیت به مدل اجازه می دهد تا اطلاعات خود را با منابع خارجی راستی آزمایی کند. به عنوان مثال، مدل GPT-4o که از قابلیت جستجوی وب بهره می برد، توانسته در بنچمارک SimpleQA (که یکی دیگر از معیارهای سنجش دقت است) به امتیاز قابل توجه 90 درصد دست یابد. این نشان می دهد که دسترسی به اطلاعات به روز و قابل تایید، می تواند نقش مهمی در کاهش توهم ایفا نماید. با این حال، چالش اصلی برای مدل های تازه o3 و o4-mini همچنان پابرجاست و احتیاجمند آنالیز و تحقیقات بیشتر از سوی OpenAI خواهد بود.
منبع: TechCrunch
منبع: دیجیکالا مگ