
আর্ক প্রাইজ ফাউন্ডেশন, যা প্রসিদ্ধ এআই গবেষক ফ্রাঁসোয়া চোলেট দ্বারা সহ-প্রতিষ্ঠিত একটি অলাভজনক সংস্থা, সোমবার একটি ব্লগ পোস্টে ঘোষণা করেছে যে, তারা একটি নতুন, চ্যালেঞ্জিং পরীক্ষা তৈরি করেছে যার মাধ্যমে এআই মডেলগুলোর সাধারণ বুদ্ধিমত্তা পরিমাপ করা হবে। নতুন এই পরীক্ষা, যার নাম ARC-AGI-2, অধিকাংশ এআই মডেলকে ব্যর্থ করেছে। “রিজনিং” এআই মডেলগুলো, যেমন OpenAI এর o1-pro এবং DeepSeek এর R1, ARC-AGI-2 তে ১% থেকে ১.৩% এর মধ্যে স্কোর করেছে, আর শক্তিশালী নন-রিজনিং মডেলগুলো, যেমন GPT-4.5, Claude 3.7 Sonnet, এবং Gemini 2.0 Flash, প্রায় ১% স্কোর করেছে।

ARC-AGI পরীক্ষাগুলো এমন সমস্যার সমষ্টি যেখানে এআই-কে বিভিন্ন রঙের বর্গক্ষেত্র থেকে ভিজ্যুয়াল প্যাটার্ন চিহ্নিত করতে হয় এবং সঠিক “উত্তর” গ্রিড তৈরি করতে হয়। এই সমস্যাগুলো এমনভাবে ডিজাইন করা হয়েছে যাতে এআই নতুন ধরনের সমস্যার সাথে খাপ খাইয়ে নিতে পারে, যেগুলো এটি আগে কখনও দেখেনি। আর্ক প্রাইজ ফাউন্ডেশন ৪০০ জনেরও বেশি মানুষের কাছ থেকে ARC-AGI-2 পরীক্ষা নিয়ে একটি মানব বেসলাইন তৈরি করেছে। এই মানব প্যানেলগুলো পরীক্ষার গড় ৬০% প্রশ্ন সঠিকভাবে উত্তর দিতে পেরেছে, যা মডেলগুলোর স্কোরের চেয়ে অনেক ভালো।

ARC-AGI-2 পরীক্ষা, পূর্ববর্তী পরীক্ষা ARC-AGI-1 এর চেয়ে আরও উন্নত। চোলেট জানান, নতুন পরীক্ষা AI মডেলগুলোকে “ব্রুট ফোর্স” বা ব্যাপক কম্পিউটিং শক্তি ব্যবহার করে সমাধান খুঁজে বের করতে বাধা দেয়। ARC-AGI-2 মডেলগুলোকে মেমোরাইজেশনের বদলে প্যাটার্ন তৎক্ষণাত বুঝতে বাধ্য করে, যার ফলে মডেলগুলোকে আরও দক্ষ হতে হয়। আর্ক প্রাইজ ফাউন্ডেশনের সহ-প্রতিষ্ঠাতা গ্রেগ কামরাডট একটি ব্লগ পোস্টে বলেছেন, “বুদ্ধিমত্তা শুধুমাত্র সমস্যার সমাধান করার ক্ষমতা দ্বারা সংজ্ঞায়িত হয় না, বরং সেই ক্ষমতাগুলো অর্জন এবং প্রয়োগের দক্ষতা ও খরচও অত্যন্ত গুরুত্বপূর্ণ।” ARC-AGI-2 পরীক্ষা মডেলগুলোর দক্ষতা এবং তাদের খরচ মূল্যায়ন করে, যা এআইয়ের উন্নতির জন্য একটি নতুন দৃষ্টিভঙ্গি নিয়ে এসেছে।