شاهکار جدید OpenAI؛ مدل هوش مصنوعی Sora برای تبدیل متن به ویدیو

شرکت OpenAI که به واسطه خلق ربات هوش مصنوعی ChatGPT بسیار خبرساز شده، اخیراً خبر از تولید یک مدل هوش مصنوعی جدید به نام Sora را داده که قابلیت تبدیل متن به ویدیو را دارد. این شرکت فعال در زمینه هوش مصنوعی می‌گوید که Sora قادر است صحنه‌های واقع گرایانه و تخیلی را بر اساس دستورالعمل‌های متنی ارائه شده به آن، ایجاد کند. مدل تبدیل متن به ویدیو به کاربران امکان می‌دهد ویدیوهایی بسیار واقع‌گرایانه با زمان حداکثر یک دقیقه را تنها با نوشتن دستورات خود ایجاد کنند. با دیجی رو همراه باشید.

بنا به پست وبلاگی که OpenAI برای معرفی Sora منتشر کرده، این ابزار هوش مصنوعی قادر است صحنه‌هایی پیچیده با چندین شخصیت، انواع خاصی از حرکات، و جزئیات دقیق سوژه و پس زمینه را خلق کند. این شرکت همچنین اشاره کرده که Sora می‌تواند نحوه عملکرد اشیاء در دنیای فیزیکی و همچنین تفسیر دقیق حرکات و ایجاد شخصیت‌های جذابی را که احساسات پر جنب و جوشی را از خود بروز می‌دهند، درک کند.

این مدل همچنین می تواند بر اساس یک تصویر ثابت نیز ویدیو تولید کند، یا فریم‌های ناقص در یک ویدیوی موجود را پر کرده و یا حتی زمان آن را بیشتر کند. نسخه‌های نمایشی تولید شده توسط Sora که در پست وبلاگ OpenAI درج شده‌اند، شامل یک صحنه هوایی از شهر کالیفرنیا در دوران اکتشاف طلا، یک ویدیو که به نظر می‌رسد از داخل یک قطار شهری توکیو گرفته شده باشد، و موارد دیگر می‌باشد. در بسیاری از این ویدیوها می‌توان نشانه‌هایی از هوش مصنوعی را دید، مانند حرکات عجیب کف ساختمان در ویدیوی مربوط به موزه. OpenAI می‌گوید که این مدل ممکن است در شبیه‌سازی دقیق فیزیک در صحنه‌های پیچیده و شلوغ مشکل داشته باشد، اما نتایج به طور کلی بسیار چشمگیر هستند.

چند سال پیش، هوش مصنوعی‌های مولد متن به تصویر مانند Midjourney در خط مقدم فناوری برای تبدیل کلمات به تصاویر قرار داشتند. اما به تازگی، مدل‌های تولید ویدیو نیز با سرعت قابل توجهی پیشرفت کرده‌اند و شرکت‌هایی مانند Runway و Pika مدل‌های متن به ویدیوی بسیار چشمگیری را رونمایی کرده‌اند. گوگل هم با عرضه Lumiere به یکی دیگر از رقبای اصلی OpenAI در این حوزه تبدیل شده است. مشابه Sora، مدل هوش مصنوعی Lumiere نیز امکان تبدیل متن به ویدیو را داشته و همچنین به کاربران امکان می‌دهد از یک تصویر ثابت ویدیو ایجاد کنند.

Sora در حال حاضر فقط برای گروه محدودی از تست کننده‌ها در دسترس است تا این مدل را برای یافتن آسیب‌ها و خطرات احتمالی ارزیابی کنند. OpenAI همچنین برای دریافت بازخورد به برخی از هنرمندان، طراحان و فیلمسازان نیز دسترسی داده است. این شرکت خاطرنشان کرده که مدل موجود ممکن است نتواند به طور دقیق فیزیک را در یک صحنه پیچیده شبیه‌سازی کند و همچنین، در برخی موارد احتمال دارد در تفسیر علت و معلول دچار مشکل شود.

اوایل این ماه، OpenAI اعلام کرد که به ابزار متن به تصویر خود با نام DALL-E 3 واترمارک اضافه کرده است، اما به این نکته هم اشاره کرده که این واترمارک‌]ا به راحتی قابل حذف کردن هستند. درست است که تولید ویدیوهای واقع‌گرایانه از متن ایده بسیار جذابی است، اما مانند سایر محصولات مبتنی بر هوش مصنوعی، OpenAI باید با عواقب سوء استفاده از ویدیوهای تولید شده به وسیله هوش مصنوعی نیز مقابله کند.