
ফ্রান্সের বিখ্যাত কৃত্রিম বুদ্ধিমত্তা (AI) কোম্পানি Mistral সম্প্রতি একটি নতুন API উন্মোচন করেছে, যা যেকোনো PDF ডকুমেন্টকে সহজেই AI-রেডি Markdown ফাইলে রূপান্তর করতে পারে। নতুন এই API-এর নাম Mistral OCR, যা মূলত একটি অপটিক্যাল ক্যারেক্টার রিকগনিশন (OCR) প্রযুক্তি। এর মাধ্যমে জটিল ও বিস্তারিত PDF ফাইলগুলোর টেক্সট আলাদা করে AI মডেলের জন্য সহজবোধ্য করে তোলা সম্ভব।বর্তমানে বিভিন্ন জেনারেটিভ AI (GenAI) মডেল যেমন ChatGPT বা Mistral-এর Le Chat প্রধানত টেক্সট ডাটা ব্যবহার করে কাজ করে। এজন্য কোম্পানিগুলোকে তাদের তথ্যসমূহ পরিষ্কার এবং গুছানো ফরম্যাটে সংরক্ষণ ও ইনডেক্স করতে হয়, যাতে AI সহজেই এই তথ্য বিশ্লেষণ করতে পারে।অন্যান্য OCR API-গুলোর তুলনায় Mistral OCR অনেক বেশি উন্নত। এটি কেবলমাত্র টেক্সট চিহ্নিত করে না, বরং ছবি, গ্রাফ, বা অন্যান্য ভিজ্যুয়াল এলিমেন্টও সনাক্ত করতে পারে। APIটি ছবিগুলোর চারপাশে বাউন্ডিং বক্স তৈরি করে, যাতে এগুলো Markdown আউটপুটের অংশ হিসেবে অন্তর্ভুক্ত হয়। Mistral OCR শুধুমাত্র একটি বড় টেক্সট ফাইল তৈরি করে না, বরং এটি Markdown ফরম্যাটে আউটপুট দেয়, যা ডেভেলপাররা সহজেই ব্যবহার করতে পারেন। Markdown হলো এক ধরনের সহজ টেক্সট ফরম্যাট, যেখানে শিরোনাম, লিঙ্ক, বুলেট লিস্ট, টেবিল ইত্যাদি যুক্ত করা যায়। বর্তমানে LLM (Large Language Model)-গুলোর প্রশিক্ষণের জন্য Markdown ব্যবহার করা হয়। এজন্য AI-ভিত্তিক অ্যাসিস্ট্যান্ট যেমন ChatGPT বা Le Chat সাধারণত Markdown-এ লেখা আউটপুট তৈরি করে, যা পরবর্তীতে রিচ টেক্সট (ফরম্যাট করা লেখা) আকারে দেখানো হয়।

Mistral-এর অন্যতম প্রতিষ্ঠাতা এবং প্রধান বিজ্ঞানী Guillaume Lample জানিয়েছেন, “বছরের পর বছর ধরে বিভিন্ন কোম্পানি ও প্রতিষ্ঠান PDF বা স্লাইড আকারে প্রচুর তথ্য সংরক্ষণ করেছে, যা প্রচলিত LLM-গুলোর জন্য সরাসরি বোঝা কঠিন। Mistral OCR-এর মাধ্যমে এখন এই জটিল ডকুমেন্টগুলোকে সহজেই AI-এর জন্য পাঠযোগ্য করা সম্ভব।” এটি বিশেষভাবে সহায়ক হবে কোম্পানির অভ্যন্তরীণ ডকুমেন্টেশনের সহজ ব্যবস্থাপনার জন্য, যেখানে AI অ্যাসিস্ট্যান্ট ব্যবহার করে তথ্য খুঁজে বের করা যাবে। Mistral OCR এখন Mistral-এর API প্ল্যাটফর্মে বা AWS, Azure, Google Cloud Vertex-এর মতো ক্লাউড পার্টনারদের মাধ্যমে ব্যবহার করা যাবে। এছাড়া, যারা সংবেদনশীল বা গোপনীয় তথ্য নিয়ে কাজ করে, তাদের জন্য অন-প্রিমাইস (On-Premise) ব্যবহারের সুবিধাও রয়েছে।Mistral দাবি করেছে, তাদের OCR প্রযুক্তি Google, Microsoft এবং OpenAI-এর API-এর চেয়ে ভালো পারফর্ম করে। এই প্রযুক্তিটি বিশেষভাবে LaTeX-এ লেখা গণিতের সূত্র, জটিল লেআউট ও টেবিল বিশ্লেষণে দক্ষ এবং অ-ইংরেজি ডকুমেন্টের ক্ষেত্রেও উন্নত পারফরম্যান্স প্রদান করে। এই প্রযুক্তি এখন Mistral-এর নিজস্ব AI অ্যাসিস্ট্যান্ট Le Chat-এর সাথেও সংযুক্ত। ব্যবহারকারীরা যখন PDF আপলোড করেন, তখন Mistral OCR স্বয়ংক্রিয়ভাবে ডকুমেন্ট বিশ্লেষণ করে এবং AI-কে বুঝতে সাহায্য করে।Mistral OCR সাধারণত RAG (Retrieval-Augmented Generation) সিস্টেমের সাথে কাজ করে, যেখানে LLM-এর জন্য মাল্টিমডাল ডকুমেন্ট ইনপুট হিসেবে ব্যবহার করা হয়। এটি আইন প্রতিষ্ঠানসহ বিভিন্ন ক্ষেত্রে গুরুত্বপূর্ণ ভূমিকা রাখতে পারে, যেখানে দ্রুত ও বিশাল পরিমাণ ডকুমেন্ট বিশ্লেষণ করা প্রয়োজন। Mistral-এর এই নতুন API ব্যবসা, গবেষণা, এবং বিভিন্ন প্রযুক্তি প্রতিষ্ঠানকে তাদের গুরুত্বপূর্ণ ডকুমেন্টগুলোকে AI-বন্ধুত্বপূর্ণ ফরম্যাটে রূপান্তর করতে সাহায্য করবে। এটি LLM-ভিত্তিক অ্যাপ্লিকেশনগুলোর জন্য আরও কার্যকর তথ্য বিশ্লেষণের সুযোগ তৈরি করবে এবং কোম্পানিগুলোকে AI-এর মাধ্যমে আরও দক্ষভাবে কাজ করতে সাহায্য করবে।