Stability AI تدخل مجال توليد الفيديو بالذكاء الاصطناعي

أصدرت شركة الذكاء الاصطناعي الناشئة Stability AI منتجًا جديدًا يسمى Stable Video Diffusion، يسمح للمستخدمين بإنشاء فيديو من صورة واحدة.

و"يعتمد نموذج توليد الفيديو بالذكاء الاصطناعي Stable Video Diffusion على نموذج توليد الصورة بالذكاء الاصطناعي Stable Diffusion"، ويعد النموذج الجديد خطوة مهمة نحو إنشاء نماذج للجميع من كل نوع".

ويوجد Stable Video Diffusion حاليًا فيما تصفه الشركة بأنه معاينة بحثية، ويجب على أولئك الذين يرغبون في تشغيل النموذج الموافقة على شروط استخدام معينة، التي تحدد التطبيقات المقصودة من Stable Video Diffusion، مثل الأدوات التعليمية أو الإبداعية، والتطبيقات غير المقصودة، مثل التمثيلات الواقعية أو الحقيقية للأشخاص أو الأحداث.

وأوضحت Stability AI أنه بإمكان المستخدمين المحتملين التسجيل ضمن قائمة الانتظار من أجل الوصول إلى تجربة الويب القادمة المتميزة بواجهة تحويل النص إلى الفيديو. وتعرض الأداة التطبيقات المحتملة في قطاعات تشمل الإعلان والتعليم والترفيه والمزيد. ويتاح منتج Stable Video Diffusion في هذه المرحلة لأغراض البحث فقط، وليس للتطبيقات الواقعية أو التجارية.

نماذج مختلفة
وأصدرت Stability AI الأداة الجديدة على شكل نموذجين لتحويل الصورة إلى فيديو، كل منهما قادر على توليد بين 14 إطارًا و 25 إطارًا بسرعات تتراوح بين 3 إطارات في الثانية و 30 إطارًا في الثانية وبدقة قدرها 576×1024 بكسل.

ويستطيع منتج Stable Video Diffusion تجميع طرق العرض المتعددة من إطار واحد مع الضبط الدقيق لمجموعات البيانات ذات طرق العرض المتعددة.

وقالت الشركة: "وجدنا من خلال التقييم الخارجي أن هذه النماذج تتفوق على النماذج المغلقة الرائدة في دراسات تفضيلات المستخدم"، وذلك عند مقارنتها بمنصات تحويل النص إلى فيديو Runway و Pika Labs.

وتنتج الأداة مقاطع فيديو ذات جودة عالية نسبيًا، وتتوافق مع الأنظمة التوليدية المنافسة، مع أن هناك بعض القيود، إذ يولد المنتج فيديو قصير نسبيًا مدته 4 ثوانٍ يفتقر إلى الواقعية المثالية، وغير قادر على تحريك الكاميرا، ولا يوجد تحكم في النص، أو إنشاء نص مقروء، وقد لا يولد الوجوه والأشخاص بشكل صحيح.

ويعد الفيديو هدفًا رئيسيًا للذكاء الاصطناعي التوليدي، نظرًا إلى قدرته على تبسيط عملية إنشاء المحتوى، مع أن هناك احتمال كبير لإساءة استخدامه عبر التزييف العميق وانتهاكات حقوق التأليف.