در کنفرانس سالانه I/O، گوگل از مدلهای جدید جمینای (Gemini) خود پردهبرداری کرد و با معرفی جمینای 3.5 و به خصوص مدل شگفتانگیز جمینای امنی (Gemini Omni)، بار دیگر نشان داد که رقابت در دنیای هوش مصنوعی با تمام قدرت ادامه دارد. این دو خانواده جدید از مدلهای هوش مصنوعی گوگل، نه تنها سرعت و هوشمندی را به سطح جدیدی میرسانند، بلکه با قابلیت خلق ویدیو از هر نوع ورودی، درهای دنیای جدیدی از خلاقیت را به روی کاربران باز میکنند. با ما در دیجی رو همراه باشید.
جمینای 3.5 فلش: سریع، هوشمند و پیشفرض جدید شما
اولین و مهمترین عضو خانواده جمینای 3.5 که اکنون در دسترس عموم قرار گرفته، مدل «جمینای 3.5 فلش» (Gemini 3.5 Flash) است. این مدل از طریق اپلیکیشن جمینای و همچنین در حالت هوش مصنوعی در جستجوی گوگل (AI Mode in Google Search) قابل استفاده است. اما چرا این مدل اینقدر مهم است؟
به گفته گوگل، جمینای 3.5 فلش «هوشمندیای را ارائه میدهد که در ابعاد مختلف با مدلهای بزرگ پرچمدار رقابت میکند، آن هم با سرعتی که از سری فلش انتظار دارید.» این به آن معناست که شما عملکردی نزدیک به قویترین مدلهای هوش مصنوعی را با سرعتی بسیار بالا و تأخیر کم تجربه خواهید کرد.
جهشی بزرگ در برنامهنویسی و استدلال
جمینای 3.5 فلش قویترین مدل «عاملمحور» (Agentic) و کدنویسی در میان مدلهای جدید جمینای است. این مدل حتی از جمینای 3.1 پرو نیز در بنچمارکهای چالشبرانگیز کدنویسی و عاملمحوری عملکرد بهتری دارد و همزمان در درک «چندوجهی» (Multimodal) پیشتاز است. به همین دلیل، گوگل آن را به عنوان مدل پیشفرض جدید خود معرفی کرده است. اما این اصطلاحات به چه معنا هستند؟
- مدل عاملمحور (Agentic Model): این نوع از هوش مصنوعی فراتر از پاسخ دادن به یک سوال ساده عمل میکند. یک مدل عاملمحور میتواند یک هدف پیچیده را دریافت کند، آن را به مراحل کوچکتر و قابل اجرا تقسیم کند و به صورت خودکار برای رسیدن به آن هدف تلاش کند. برای مثال، به جای اینکه از او بپرسید «چگونه یک وبسایت بسازم؟»، میتوانید به او بگویید «برای من یک وبسایت فروشگاهی ساده با سه محصول بساز» و او خودش مراحل لازم را طی میکند.
- درک چندوجهی (Multimodal Understanding): این قابلیت به معنای توانایی هوش مصنوعی در درک و پردازش همزمان انواع مختلفی از دادههاست. جمینای 3.5 فلش میتواند به طور همزمان متن، تصویر، صدا و کد را درک کرده و ارتباط بین آنها را بفهمد. این ویژگی آن را به ابزاری فوقالعاده قدرتمند برای حل مسائل پیچیده تبدیل میکند.
جمینای امنی: شعبدهبازی با ویدیو
ستاره اصلی رویداد I/O بدون شک «جمینای امنی» (Gemini Omni) بود؛ مدلی که میتواند از هر نوع ورودی، ویدیو خلق کند. این یک گام بلند و پاسخی مستقیم به مدلهایی مانند Sora از شرکت OpenAI است. با جمینای امنی، شما میتوانید تصاویر، فایلهای صوتی، ویدیوهای دیگر و متن را با هم ترکیب کنید تا یک ویدیوی باکیفیت و کاملاً جدید تولید کنید.
به گفته گوگل، ویدیوهای تولید شده «ریشه در دانش دنیای واقعی جمینای دارند». این یعنی ویدیوها صرفاً یک ترکیب هنری از پیکسلها نیستند، بلکه با درک قوانین فیزیک و منطق دنیای ما ساخته شدهاند.
ویرایش ویدیو از طریق گفتگو: جادوی Gemini Omni Flash
اولین مدل از خانواده امنی که معرفی شد، «جمینای امنی فلش» (Gemini Omni Flash) نام دارد و یک قابلیت انقلابی را معرفی میکند: ویرایش ویدیو از طریق گفتگو. پس از اینکه یک ویدیو توسط هوش مصنوعی ساخته شد، شما میتوانید به سادگی با آن صحبت کنید و تغییرات مورد نظر خود را اعمال نمایید.
تصور کنید یک ویدیو از یک ماشین در حال حرکت در خیابان ساختهاید. میتوانید به جمینای امنی فلش بگویید:
- «رنگ ماشین را به قرمز تغییر بده.»
- «هوا را بارانی کن.»
- «سرعت ماشین را بیشتر کن.»
این مدل به شما اجازه میدهد تا جزئیترین بخشهای یک ویدیو یا کل آن را تغییر دهید و در چندین نوبت گفتگو، بدون اینکه رشته کلام از دست برود و صحنه اصلی به هم بریزد، به نتیجه دلخواه خود برسید.
درک عمیق از فیزیک و دنیای واقعی
برای اینکه ویدیوهای تولید شده باورپذیرتر و واقعیتر به نظر برسند، هوش مصنوعی باید درک درستی از قوانین فیزیک داشته باشد. جمینای امنی در این زمینه نیز پیشرفت چشمگیری داشته و درک شهودی بهبود یافتهای از نیروهایی مانند گرانش، انرژی جنبشی و دینامیک سیالات دارد.
- گرانش (Gravity): وقتی یک شیء در ویدیوی شما میافتد، به درستی و با شتاب مناسب به سمت زمین حرکت میکند.
- انرژی جنبشی (Kinetic Energy): برخورد اشیاء با یکدیگر، مانند برخورد دو توپ، کاملاً طبیعی و بر اساس قوانین فیزیکی به نظر میرسد.
- دینامیک سیالات (Fluid Dynamics): حرکت آب، دود، آتش یا هر سیال دیگری در ویدیو، روان و واقعگرایانه خواهد بود.
آواتارهای شخصی و واترمارک دیجیتال برای امنیت
با جمینای امنی میتوانید از صدای خود و «آواتارها» (Avatars) برای ساخت یک نسخه دیجیتال از خودتان استفاده کنید. این قابلیت میتواند کاربردهای فراوانی در تولید محتوا، آموزش و سرگرمی داشته باشد.
نکته بسیار مهم دیگر این است که تمام ویدیوهای تولید شده توسط این مدل، شامل واترمارک دیجیتال SynthID هستند. SynthID یک فناوری پیشرفته از گوگل است که یک واترمارک نامرئی را مستقیماً در پیکسلهای ویدیو جایگذاری میکند. این واترمارک به گونهای طراحی شده که در برابر فشردهسازی، برش یا تغییرات دیگر مقاوم باشد و به راحتی قابل حذف نیست. این کار به تشخیص محتوای تولید شده توسط هوش مصنوعی کمک کرده و ابزاری حیاتی برای مقابله با اخبار جعلی و اطلاعات نادرست است.
چه کسانی به مدلهای جدید جمینای دسترسی دارند؟
خبر خوب این است که گوگل دسترسی به این مدلها را برای طیف وسیعی از کاربران فراهم کرده است:
- جمینای 3.5 فلش: این مدل هماکنون برای تمام کاربران به صورت رایگان در اپلیکیشن جمینای و در حالت هوش مصنوعی جستجوی گوگل در دسترس است.
- جمینای امنی فلش:
- برای تمام مشترکین پلنهای Google AI Plus، Pro و Ultra در سراسر جهان، در اپلیکیشن جمینای و در Google Flow در دسترس است.
- همچنین به صورت رایگان برای کاربران YouTube Shorts و YouTube Create در حال عرضه است. این یعنی تولیدکنندگان محتوا در یوتیوب میتوانند به زودی از این ابزار قدرتمند برای ساخت ویدیوهای کوتاه و خلاقانه خود استفاده کنند.
نتیجهگیری: آینده خلاقیت در دستان همه
معرفی مدلهای جدید جمینای، به خصوص جمینای امنی، یک نقطه عطف در تاریخ هوش مصنوعی و تولید محتواست. گوگل با این اقدام، نه تنها قدرت رقابتی خود را به رخ کشید، بلکه ابزاری را ارائه داد که پتانسیل دموکراتیزه کردن خلاقیت را دارد. از این پس، برای ساخت یک ویدیوی باکیفیت و جذاب، دیگر نیازی به تجهیزات گرانقیمت یا دانش فنی پیچیده نخواهد بود؛ تنها کافی است ایدهای در ذهن داشته باشید و بتوانید آن را از طریق گفتگو به هوش مصنوعی منتقل کنید. آیندهای هیجانانگیز در انتظار ماست.

