গুগলের সদ্য প্রকাশিত AI মডেল Gemini 2.5 Flash আগের ভার্সনের তুলনায় কিছু নিরাপত্তা পরীক্ষায় খারাপ ফল করেছে — এমনটাই জানিয়েছে কোম্পানির অভ্যন্তরীণ বিশ্লেষণ।
এই সপ্তাহে প্রকাশিত একটি টেকনিক্যাল রিপোর্টে গুগল জানায়, Gemini 2.5 Flash তাদের নিরাপত্তা গাইডলাইন লঙ্ঘনের সম্ভাবনা Gemini 2.0 Flash-এর চেয়ে বেশি। দুইটি মেট্রিকে — “টেক্সট-টু-টেক্সট সেফটি” এবং “ইমেজ-টু-টেক্সট সেফটি” — নতুন মডেলের স্কোর যথাক্রমে ৪.১% এবং ৯.৬% কমেছে।
- Text-to-text safety মাপা হয় একটি নির্দিষ্ট প্রম্পট দেওয়ার পর মডেলটি কতবার গাইডলাইন লঙ্ঘন করে।
- Image-to-text safety দেখে একটি ছবির প্রম্পটে মডেল কতটা সঠিকভাবে নিরাপত্তা সীমারেখা মানছে।
এই দুই পরীক্ষাই স্বয়ংক্রিয়ভাবে পরিচালিত হয়, মানুষের নজরদারিতে নয়।
এক ইমেইল বিবৃতিতে গুগলের একজন মুখপাত্র নিশ্চিত করেছেন, “Gemini 2.5 Flash টেক্সট-টু-টেক্সট ও ইমেজ-টু-টেক্সট সেফটিতে আগের তুলনায় খারাপ করছে।”
এই ফলাফল এমন এক সময় এসেছে, যখন অনেক AI কোম্পানি তাদের মডেলগুলোকে “কম রিজেক্টিভ” বা বেশি ‘সহনশীল’ বানাতে চাইছে, যেন তারা বিতর্কিত বা সংবেদনশীল টপিকেও উত্তর দিতে পারে। উদাহরণস্বরূপ, Meta তাদের নতুন Llama মডেলগুলোকে এমনভাবে টিউন করেছে যেন তারা কোনো নির্দিষ্ট মতাদর্শ সমর্থন না করে এবং বিতর্কিত রাজনৈতিক প্রশ্নগুলোর জবাব দিতে সক্ষম হয়। OpenAI-ও জানিয়েছে, তারা ভবিষ্যতের মডেলগুলোকে নিরপেক্ষ ভঙ্গিতে একাধিক দৃষ্টিভঙ্গি তুলে ধরার জন্য প্রস্তুত করছে।
তবে এই ‘সহনশীলতা’ অনেক সময় উল্টো ফল বয়ে এনেছে। TechCrunch জানায়, OpenAI-এর ChatGPT-এর ডিফল্ট মডেল নাবালকদের দ্বারা যৌন কথোপকথন তৈরির সুযোগ দিয়েছিল — যাকে OpenAI এক “বাগ” হিসেবে ব্যাখ্যা করেছে।
গুগলের রিপোর্টে বলা হয়, Gemini 2.5 Flash, যেটি এখনো প্রিভিউ পর্যায়ে আছে, আগের মডেলের চেয়ে নির্দেশনা বেশি মেনে চলে — এমনকি সেটা যদি গুগলের নীতিমালার সীমা অতিক্রম করে তাহলেও। কিছু ক্ষেত্রে এটি “violative content” তৈরি করে যখন সরাসরি এমন কিছু জিজ্ঞাসা করা হয়।
রিপোর্টে বলা হয়:
“সংবেদনশীল বিষয়ে নির্দেশনা পালন আর নিরাপত্তা নীতিমালা রক্ষা — এই দুইয়ের মধ্যে স্বাভাবিকভাবেই একটি টানাপোড়েন আছে, যা আমাদের মূল্যায়নে প্রতিফলিত হয়েছে।”
SpeechMap নামের একটি বেঞ্চমার্ক টেস্টেও দেখা গেছে, Gemini 2.5 Flash বিতর্কিত প্রশ্নে উত্তর না দেওয়ার প্রবণতা Gemini 2.0 Flash-এর চেয়ে অনেক কম। TechCrunch নিজস্বভাবে OpenRouter প্ল্যাটফর্মে এই মডেল টেস্ট করে দেখে, এটি অনায়াসে এমন প্রবন্ধ লিখে দিতে পারে যেখানে মানব বিচারকের বদলে AI বসানোর পক্ষে যুক্তি দেওয়া হয়েছে, বা যুক্তরাষ্ট্রে বিনা পরোয়ানায় নজরদারির পক্ষে মতামত প্রকাশ করা হয়েছে।
Secure AI Project-এর সহ-প্রতিষ্ঠাতা থমাস উডসাইড বলেন, গুগল যে সীমিত পরিমাণে তথ্য দিয়েছে, তা আরো স্বচ্ছ পরীক্ষার প্রয়োজনীয়তাকে সামনে নিয়ে আসে।
তিনি বলেন:
“নির্দেশনা মানা এবং নীতি মানার মধ্যে একটা ভারসাম্য রক্ষা করতে হয়, কারণ অনেক ব্যবহারকারী এমন কিছু চাইতে পারেন যা নীতিমালা লঙ্ঘন করে। এই ক্ষেত্রে, গুগলের Flash মডেল নির্দেশ বেশি মেনে চলে, কিন্তু নীতিমালাও বেশি ভাঙে। গুগল খুব কম তথ্য দিয়েছে ঠিক কোন ক্ষেত্রে নিয়ম ভাঙা হয়েছে, যদিও তারা বলেছে সেগুলো খুব গুরুতর নয়। কিন্তু পর্যাপ্ত তথ্য ছাড়া স্বতন্ত্র বিশ্লেষকদের পক্ষে সমস্যা বোঝা কঠিন।”
এর আগেও গুগল তাদের মডেলের নিরাপত্তা রিপোর্টিং নিয়ে সমালোচিত হয়েছে। তাদের সবচেয়ে সক্ষম মডেল Gemini 2.5 Pro-এর রিপোর্ট প্রকাশ করতেও বেশ দেরি করেছিল গুগল, এবং প্রাথমিকভাবে সেই রিপোর্টে গুরুত্বপূর্ণ নিরাপত্তা তথ্য বাদ দেওয়া হয়েছিল।
তবে সোমবার, গুগল আরও বিস্তারিত নিরাপত্তা সংক্রান্ত তথ্যসহ একটি হালনাগাদ রিপোর্ট প্রকাশ করেছে।