شرکت OpenAI که به واسطه خلق ربات هوش مصنوعی ChatGPT بسیار خبرساز شده، اخیراً خبر از تولید یک مدل هوش مصنوعی جدید به نام Sora را داده که قابلیت تبدیل متن به ویدیو را دارد. این شرکت فعال در زمینه هوش مصنوعی میگوید که Sora قادر است صحنههای واقع گرایانه و تخیلی را بر اساس دستورالعملهای متنی ارائه شده به آن، ایجاد کند. مدل تبدیل متن به ویدیو به کاربران امکان میدهد ویدیوهایی بسیار واقعگرایانه با زمان حداکثر یک دقیقه را تنها با نوشتن دستورات خود ایجاد کنند. با دیجی رو همراه باشید.
بنا به پست وبلاگی که OpenAI برای معرفی Sora منتشر کرده، این ابزار هوش مصنوعی قادر است صحنههایی پیچیده با چندین شخصیت، انواع خاصی از حرکات، و جزئیات دقیق سوژه و پس زمینه را خلق کند. این شرکت همچنین اشاره کرده که Sora میتواند نحوه عملکرد اشیاء در دنیای فیزیکی و همچنین تفسیر دقیق حرکات و ایجاد شخصیتهای جذابی را که احساسات پر جنب و جوشی را از خود بروز میدهند، درک کند.
این مدل همچنین می تواند بر اساس یک تصویر ثابت نیز ویدیو تولید کند، یا فریمهای ناقص در یک ویدیوی موجود را پر کرده و یا حتی زمان آن را بیشتر کند. نسخههای نمایشی تولید شده توسط Sora که در پست وبلاگ OpenAI درج شدهاند، شامل یک صحنه هوایی از شهر کالیفرنیا در دوران اکتشاف طلا، یک ویدیو که به نظر میرسد از داخل یک قطار شهری توکیو گرفته شده باشد، و موارد دیگر میباشد. در بسیاری از این ویدیوها میتوان نشانههایی از هوش مصنوعی را دید، مانند حرکات عجیب کف ساختمان در ویدیوی مربوط به موزه. OpenAI میگوید که این مدل ممکن است در شبیهسازی دقیق فیزیک در صحنههای پیچیده و شلوغ مشکل داشته باشد، اما نتایج به طور کلی بسیار چشمگیر هستند.
چند سال پیش، هوش مصنوعیهای مولد متن به تصویر مانند Midjourney در خط مقدم فناوری برای تبدیل کلمات به تصاویر قرار داشتند. اما به تازگی، مدلهای تولید ویدیو نیز با سرعت قابل توجهی پیشرفت کردهاند و شرکتهایی مانند Runway و Pika مدلهای متن به ویدیوی بسیار چشمگیری را رونمایی کردهاند. گوگل هم با عرضه Lumiere به یکی دیگر از رقبای اصلی OpenAI در این حوزه تبدیل شده است. مشابه Sora، مدل هوش مصنوعی Lumiere نیز امکان تبدیل متن به ویدیو را داشته و همچنین به کاربران امکان میدهد از یک تصویر ثابت ویدیو ایجاد کنند.
Sora در حال حاضر فقط برای گروه محدودی از تست کنندهها در دسترس است تا این مدل را برای یافتن آسیبها و خطرات احتمالی ارزیابی کنند. OpenAI همچنین برای دریافت بازخورد به برخی از هنرمندان، طراحان و فیلمسازان نیز دسترسی داده است. این شرکت خاطرنشان کرده که مدل موجود ممکن است نتواند به طور دقیق فیزیک را در یک صحنه پیچیده شبیهسازی کند و همچنین، در برخی موارد احتمال دارد در تفسیر علت و معلول دچار مشکل شود.
اوایل این ماه، OpenAI اعلام کرد که به ابزار متن به تصویر خود با نام DALL-E 3 واترمارک اضافه کرده است، اما به این نکته هم اشاره کرده که این واترمارک]ا به راحتی قابل حذف کردن هستند. درست است که تولید ویدیوهای واقعگرایانه از متن ایده بسیار جذابی است، اما مانند سایر محصولات مبتنی بر هوش مصنوعی، OpenAI باید با عواقب سوء استفاده از ویدیوهای تولید شده به وسیله هوش مصنوعی نیز مقابله کند.