Home الأجهزة والإلكترونيات يطلق Mistral Voxtral ، أول نماذج من AI لتوليد الكلام مفتوح المصدر...

يطلق Mistral Voxtral ، أول نماذج من AI لتوليد الكلام مفتوح المصدر مع فهم اللغة الأم

2
0

أصدرت ميسترال أول نماذج لفهم خطابها يوم الثلاثاء. يُطلق عليه اسم Voxtral ، وهو نموذج ذكي صوتي مفتوح المصدر (AI) الذي لا يحول النص إلى الكلام فحسب ، بل يمكنه أيضًا فهم النص لتوليد الكلام كاستجابة أصليًا. هذه النماذج متوفرة في حجمين من 24 مليار معلمة وثلاثة مليارات المعلمة. أبرزت شركة الذكاء الاصطناعى ومقرها باريس أنه ليس فقط Voxtral متاحًا للتنزيل مجانًا ، ولكن الشركة توفرها أيضًا بسعر معقول عبر واجهة برمجة التطبيقات (API).

يجلب Mistral حلاً مفتوحًا لتوليد الكلام الأصلي

في غرفة الأخبار بريد، يصف Mistral Voice “الواجهة الأولى للبشرية” ، مع تسليط الضوء عليه كركن أساسي للتواصل. عندما تصبح نماذج الذكاء الاصطناعى أكثر قدرة ، قالت شركة AI الفرنسية إنه من المهم جلب تفاعلات الحاسوب البشرية إلى هذه الواجهة الطبيعية.

ومع ذلك ، هناك بعض الثغرات في هذا الجهد. ادعى Mistral أن نماذج الذكاء الاصطناعى التي تركز على الصوت اليوم يمكن تجميعها في فئتين: نماذج مفتوحة المصدر لها معدل خطأ في الكلمات العالي والفهم الدلالي المحدود ؛ ونماذج ملكية مغلقة باهظة الثمن ولا يمكن الوصول إليها للجميع.

وأضافت الشركة أن Voxtral ، نموذج مفتوح المصدر ذو الفهم الدلالي الأصلي ، يهدف إلى سد هذه الفجوة. هناك ثلاثة نماذج في المجموع – Voxtral صغير مع معلمات 24B ، Voxtral mini مع معلمات 3B ، و Voxtral mini نسخ مع المعلمات 3B. كل هذه النماذج متاحة للمجتمع المفتوح مع ترخيص Apache 2.0 الذي يسمح للاستخدام الأكاديمي والتجاري.

Voxtral Fleurs Performance Voxtral

تقدم مطالبات Mistral Voxtral أفضل توازن بين الأداء وكفاءة التكلفة
الصورة الائتمان: Mistral

والجدير بالذكر أن Voxtral Small هو نموذج الشركة المتميز الذي يهدف إلى تطبيقات على نطاق الإنتاج ، في حين تم تصميم Voxtral Mini للنشر المحلي والحافة. يركز نسخ Voxtral Mini على المهام المتعلقة بالنسخ ويقال إنه يتفوق على Openai Whisper.

تحتوي نماذج Voxtral على نافذة سياق تبلغ 32000 رمز ، والتي تترجم إلى ما يصل إلى 30 دقيقة من النسخ أو 40 دقيقة من فهم الصوت. يمكنه أيضًا الإجابة على أسئلة حول المحتوى الصوتي وإنشاء ملخصات أصلاً. بالإضافة إلى ذلك ، فإن Voxtral قادر أيضًا على اكتشاف لغات متعددة ، بما في ذلك اللغة الإنجليزية والإسبانية والفرنسية والبرتغالية والهندية والألمانية والهولندية والإيطالية والمزيد.

تم تصميم هذه النماذج على رأس Mistral Small 3.1 ، وتوفر نماذج Voxtral أيضًا استدعاء وظائف عبر Voice ، بحيث يمكن للمستخدمين قيادة نظام الذكاء الاصطناعى دون الاضطرار إلى كتابة أي شيء. يدعي Mistral أن النموذج الصغير Vostral يتفوق على نسخ GPT-4O Mini و Flash Gemini 2.5 عبر المهام ، ويتجاوز كاتب أحد عشر من الكاتب في إمكانات متعددة اللغات.

يمكن تنزيل نماذج Voxtral من وجه الشركة المعانقة قائمة، تم الوصول إليه عبر API بسعر بداية قدره 0.001 دولار (تقريبًا 1) في الدقيقة ، أو يمكن تجربته عبر دردشة Mistral’s Le منصة.

Source Link