وبحسب ما ورد أصدر بايدو نموذجًا جديدًا لتوليد الفيديو الذكاء الاصطناعي (AI) يوم الأربعاء. وفقًا للتقرير ، يمكن لنموذج Musestreamer AI أيضًا دمج الصوت الصيني في مقاطع الفيديو التي تم إنشاؤها ، مما يجعله النموذج الثاني بعد VEO 3. يدعي عملاق التكنولوجيا أنه أول نموذج منظمة العفو الدولية في العالم مع دعم توليد الصوت الصيني الأصلي. إلى جانب إدخال نموذج اللغة الكبير (LLM) ، قيل إن الشركة أطلقت أيضًا منصة جديدة لإنشاء محتوى الفيديو Dobbed Huixiang. والجدير بالذكر أنه لا يتوفر Musestreamer ولا Huixiang حاليًا خارج الصين.
يقال إن Musestreamer من Baidu يمكن أن يولد الصوت الصيني
تطور عالم توليد الفيديو من الذكاء الاصطناعي بشكل كبير في العامين الماضيين. لقد انتقلنا من النماذج التي ناضلت لتوليد أشخاص لديهم عدد ثابت من الأصابع إلى LLMS والتي يمكنها الآن تصوير الفيزياء والحركة الواقعة بدقة. ومع ذلك ، فإن أحد المجالات التي امتنعت عنها معظم لاعبي الذكاء الاصطناعي عن الدخول كان مقاطع الفيديو التي تدعم الصوت أيضًا.
في Google I/O 2025 ، أصبحت عملاق التكنولوجيا أول شركة قدم هذه القدرة مع VEO 3، التي أصبحت على الفور الحديث عن المدينة ، تاركًا أكبر منافسها ، سورا Openai ، خلفها. عملاق التكنولوجيا القائم على ماونتن فيو مؤخرا الموسع VEO 3 في جميع الدول الـ 154 عندما يتوفر تطبيق Gemini ، مع تسليط الضوء على الدفع العدواني للشركة لهذه الأداة.
ومع ذلك ، وفقا لتكنولوجيا في آسيا تقرير ((عبر قاعدة الذكاء الاصطناعى) ، دخلت عملاق التكنولوجيا الصينية Baidu أيضًا السباق مع نموذج Musestream AI. يقال إنه ينشئ مقاطع فيديو مع الصوت الصيني ، والنموذج الوحيد الذي لديه القدرة على القيام بذلك. والجدير بالذكر أن VEO 3 يمكن أن يولد الصوت فقط في اللغة الإنجليزية.
يقال إن Musestreamer لا يمكن أن ينشئ فقط حوارات متزامنة مع مقاطع الفيديو ، بل يمكنه أيضًا إضافة مؤثرات صوتية وضوضاء محيطة في مقاطع الفيديو. ويقال إن بايدو ادعى أن النموذج حقق درجة قدرها 89.38 في المائة على معيار VBENCH I2V ، حيث يحتل المرتبة الأولى. تقوم شركة Tech Giant بعرض LLM كأداة إنشاء محتوى للمستهلكين.
إلى جانب طراز الذكاء الاصطناعى ، قيل إن Baidu أطلقت أيضًا منصة جديدة لمحتوى الفيديو Dobbed Huixiang. يقال إن Huixiang بمثابة الواجهة الأمامية لنموذج الذكاء الاصطناعي ، حيث يمكن للمستخدمين مشاركة المطالبات وإنشاء مقاطع فيديو. وذكر التقرير أن المنصة تدعم حاليًا أجيال فيديو مدتها 10 ثوانٍ بدقة 1080 بكسل. وبالمقارنة ، يمكن لـ VEO 3 إنشاء مقاطع فيديو مدتها ثماني ثانية فقط. لا يوجد وضوح على نسبة العرض إلى الارتفاع الافتراضية للفيديو ، وإذا كان بإمكان المستخدمين إنشاء مقاطع فيديو في نسب عرضية مختلفة.