يقدم Mistral واجهة برمجة تطبيقات OCR جديدة يمكنها تحويل مستندات PDF إلى تنسيق جاهز لـ AI

قدم MISTRAL واجهة برمجة تطبيقات تطبيق الأحرف الضوئية (OCR) (API) يوم الخميس. نموذج الذكاء الاصطناعي (AI) قادر على تحليل مستندات PDF ومعالجتها وتحويله إلى تنسيق نص جاهز لـ AI مثل Markdown أو File RAW. الأداة قادرة على استخراج البيانات من PDFs لجعلها قابلة للهضم لنماذج الذكاء الاصطناعى. ادعت شركة الذكاء الاصطناعى ومقرها باريس أن واجهة برمجة تطبيقات OCR Mistral ستسمح للمطورين ببناء تطبيقات AI لملفات PDF بالإضافة إلى السماح لهم بإنشاء مجموعات بيانات لتدريب نماذج AI الجديدة.
تم تقديم واجهة برمجة تطبيقات OPI Mistral OCR
تشكل وثائق PDF تحديًا فريدًا لنماذج الذكاء الاصطناعي. لا يمكن الوصول إلى المحتوى في تنسيق الملف بواسطة نماذج اللغة الكبيرة (LLMS) باستخدام تقنيات التوليد التقليدية (RAG) التي يتم التغلب عليها حيث لا يمكن معالجة البيانات. على سبيل المثال ، إذا طلبت تطبيق AI للمسح من خلال مستندات PDF في الكمبيوتر المحمول الخاص بك للعثور على جزء من المعلومات ، فقد يكافح من أجل القيام بذلك.
هذا يعني أن المطورين الذين يقومون ببناء تطبيقات الذكاء الاصطناعي سيكون محدودًا في تقديم قدرة التحليل PDF. على الرغم من أن NotebookLM من Google ، ومساعد AI AI ، والعديد من الأدوات الأخرى تستخدم أدوات المعرفة الضوئية المتخصصة للتغلب على هذا التحدي ، لا يمكن للمطورين في مجتمع المصدر المفتوح الوصول إلى أداة عالية الكفاءة.
يحل واجهة برمجة تطبيقات Mistral OCR هذا التحدي من خلال السماح للمطورين باستخراج بيانات PDF في تنسيق جاهز للانعدام الذكاء. تدعي الشركة في غرفة الأخبار بريد يمكن أن تفهم الأداة عناصر منفصلة في المستندات ، بما في ذلك الوسائط والنص والجداول والمعادلات ذات الدقة العالية. بمجرد تحليلها ، يمكنه استخراج المعلومات وتقديم المعلومات في تنسيق ملف نصي RAW.
يمكن أن تستخدم نماذج الذكاء الاصطناعى هذا النص المستخرج لأن أنظمة الإدخال والخرقة يمكنها الوصول إليها بسهولة والإجابة على استعلامات حولها. “يتفوق OCR الخاطئ في فهم عناصر المستندات المعقدة ، بما في ذلك الصور المتشابكة ، والتعبيرات الرياضية ، والجداول ، والتخطيطات المتقدمة مثل تنسيق اللاتكس. يمكّن النموذج من الفهم الأعمق للوثائق الغنية مثل الأوراق العلمية مع الرسوم البيانية والرسوم البيانية والمعادلات والأرقام “.
ادعت الشركة أن OCR الخاطئ يمكنه معالجة ما يصل إلى 2000 صفحة في الدقيقة على عقدة واحدة. يتيح API أيضًا للمطورين استخدام المستند كموجه موجه ، ومخرجات سلسلة لإنشاء أدوات استدعاء الوظائف ووكلاء الذكاء الاصطناعي.
استنادًا إلى الاختبار الداخلي ، تفوقت OCR Mistral على النماذج مثل Google Document AI و Azure OCR و GPT-4O الإصدار 2024-11-20 لمستندات “النص فقط”. كما تفوقت على Google و Azure في القدرات متعددة اللغات.
يمكن للمهتمين بتجربة إمكانية النموذج أن يذهب إلى منصة الدردشة في Mistral. يمكن الوصول إلى API من La Plateforme.
للحصول على أحدث الأخبار والمراجعات التقنية ، اتبع الأدوات 360 xو فيسبوكو Whatsappو المواضيع و أخبار جوجل. للحصول على أحدث مقاطع الفيديو على الأدوات والتكنولوجيا ، اشترك في لدينا قناة يوتيوب. إذا كنت تريد معرفة كل شيء عن أفضل المؤثرين ، اتبعنا في المنزل من هو 360 على Instagram و يوتيوب.
يضع دونالد ترامب احتياطي بيتكوين الاستراتيجي ، مخزون التشفير باستخدام الأصول المضبوطة