جمینای امنی و جمینای 3.5 فلش معرفی شدند؛ قدرتمندترین ابزارهای هوش مصنوعی گوگل

در کنفرانس سالانه I/O، گوگل از مدل‌های جدید جمینای (Gemini) خود پرده‌برداری کرد و با معرفی جمینای 3.5 و به خصوص مدل شگفت‌انگیز جمینای امنی (Gemini Omni)، بار دیگر نشان داد که رقابت در دنیای هوش مصنوعی با تمام قدرت ادامه دارد. این دو خانواده جدید از مدل‌های هوش مصنوعی گوگل، نه تنها سرعت و هوشمندی را به سطح جدیدی می‌رسانند، بلکه با قابلیت خلق ویدیو از هر نوع ورودی، درهای دنیای جدیدی از خلاقیت را به روی کاربران باز می‌کنند. با ما در دیجی رو همراه باشید.

لیست

جمینای 3.5 فلش: سریع، هوشمند و پیش‌فرض جدید شما

اولین و مهم‌ترین عضو خانواده جمینای 3.5 که اکنون در دسترس عموم قرار گرفته، مدل «جمینای 3.5 فلش» (Gemini 3.5 Flash) است. این مدل از طریق اپلیکیشن جمینای و همچنین در حالت هوش مصنوعی در جستجوی گوگل (AI Mode in Google Search) قابل استفاده است. اما چرا این مدل اینقدر مهم است؟

به گفته گوگل، جمینای 3.5 فلش «هوشمندی‌ای را ارائه می‌دهد که در ابعاد مختلف با مدل‌های بزرگ پرچمدار رقابت می‌کند، آن هم با سرعتی که از سری فلش انتظار دارید.» این به آن معناست که شما عملکردی نزدیک به قوی‌ترین مدل‌های هوش مصنوعی را با سرعتی بسیار بالا و تأخیر کم تجربه خواهید کرد.

جهشی بزرگ در برنامه‌نویسی و استدلال

جمینای 3.5 فلش قوی‌ترین مدل «عامل‌محور» (Agentic) و کدنویسی در میان مدل‌های جدید جمینای است. این مدل حتی از جمینای 3.1 پرو نیز در بنچمارک‌های چالش‌برانگیز کدنویسی و عامل‌محوری عملکرد بهتری دارد و همزمان در درک «چندوجهی» (Multimodal) پیشتاز است. به همین دلیل، گوگل آن را به عنوان مدل پیش‌فرض جدید خود معرفی کرده است. اما این اصطلاحات به چه معنا هستند؟

مدل عامل‌محور (Agentic Model): این نوع از هوش مصنوعی فراتر از پاسخ دادن به یک سوال ساده عمل می‌کند. یک مدل عامل‌محور می‌تواند یک هدف پیچیده را دریافت کند، آن را به مراحل کوچک‌تر و قابل اجرا تقسیم کند و به صورت خودکار برای رسیدن به آن هدف تلاش کند. برای مثال، به جای اینکه از او بپرسید «چگونه یک وب‌سایت بسازم؟»، می‌توانید به او بگویید «برای من یک وب‌سایت فروشگاهی ساده با سه محصول بساز» و او خودش مراحل لازم را طی می‌کند.
درک چندوجهی (Multimodal Understanding): این قابلیت به معنای توانایی هوش مصنوعی در درک و پردازش همزمان انواع مختلفی از داده‌هاست. جمینای 3.5 فلش می‌تواند به طور همزمان متن، تصویر، صدا و کد را درک کرده و ارتباط بین آن‌ها را بفهمد. این ویژگی آن را به ابزاری فوق‌العاده قدرتمند برای حل مسائل پیچیده تبدیل می‌کند.

جمینای امنی: شعبده‌بازی با ویدیو

ستاره اصلی رویداد I/O بدون شک «جمینای امنی» (Gemini Omni) بود؛ مدلی که می‌تواند از هر نوع ورودی، ویدیو خلق کند. این یک گام بلند و پاسخی مستقیم به مدل‌هایی مانند Sora از شرکت OpenAI است. با جمینای امنی، شما می‌توانید تصاویر، فایل‌های صوتی، ویدیوهای دیگر و متن را با هم ترکیب کنید تا یک ویدیوی باکیفیت و کاملاً جدید تولید کنید.

به گفته گوگل، ویدیوهای تولید شده «ریشه در دانش دنیای واقعی جمینای دارند». این یعنی ویدیوها صرفاً یک ترکیب هنری از پیکسل‌ها نیستند، بلکه با درک قوانین فیزیک و منطق دنیای ما ساخته شده‌اند.

ویرایش ویدیو از طریق گفتگو: جادوی Gemini Omni Flash

اولین مدل از خانواده امنی که معرفی شد، «جمینای امنی فلش» (Gemini Omni Flash) نام دارد و یک قابلیت انقلابی را معرفی می‌کند: ویرایش ویدیو از طریق گفتگو. پس از اینکه یک ویدیو توسط هوش مصنوعی ساخته شد، شما می‌توانید به سادگی با آن صحبت کنید و تغییرات مورد نظر خود را اعمال نمایید.

تصور کنید یک ویدیو از یک ماشین در حال حرکت در خیابان ساخته‌اید. می‌توانید به جمینای امنی فلش بگویید:

«رنگ ماشین را به قرمز تغییر بده.»
«هوا را بارانی کن.»
«سرعت ماشین را بیشتر کن.»

این مدل به شما اجازه می‌دهد تا جزئی‌ترین بخش‌های یک ویدیو یا کل آن را تغییر دهید و در چندین نوبت گفتگو، بدون اینکه رشته کلام از دست برود و صحنه اصلی به هم بریزد، به نتیجه دلخواه خود برسید.

درک عمیق از فیزیک و دنیای واقعی

برای اینکه ویدیوهای تولید شده باورپذیرتر و واقعی‌تر به نظر برسند، هوش مصنوعی باید درک درستی از قوانین فیزیک داشته باشد. جمینای امنی در این زمینه نیز پیشرفت چشمگیری داشته و درک شهودی بهبود یافته‌ای از نیروهایی مانند گرانش، انرژی جنبشی و دینامیک سیالات دارد.

گرانش (Gravity): وقتی یک شیء در ویدیوی شما می‌افتد، به درستی و با شتاب مناسب به سمت زمین حرکت می‌کند.
انرژی جنبشی (Kinetic Energy): برخورد اشیاء با یکدیگر، مانند برخورد دو توپ، کاملاً طبیعی و بر اساس قوانین فیزیکی به نظر می‌رسد.
دینامیک سیالات (Fluid Dynamics): حرکت آب، دود، آتش یا هر سیال دیگری در ویدیو، روان و واقع‌گرایانه خواهد بود.

آواتارهای شخصی و واترمارک دیجیتال برای امنیت

با جمینای امنی می‌توانید از صدای خود و «آواتارها» (Avatars) برای ساخت یک نسخه دیجیتال از خودتان استفاده کنید. این قابلیت می‌تواند کاربردهای فراوانی در تولید محتوا، آموزش و سرگرمی داشته باشد.

نکته بسیار مهم دیگر این است که تمام ویدیوهای تولید شده توسط این مدل، شامل واترمارک دیجیتال SynthID هستند. SynthID یک فناوری پیشرفته از گوگل است که یک واترمارک نامرئی را مستقیماً در پیکسل‌های ویدیو جایگذاری می‌کند. این واترمارک به گونه‌ای طراحی شده که در برابر فشرده‌سازی، برش یا تغییرات دیگر مقاوم باشد و به راحتی قابل حذف نیست. این کار به تشخیص محتوای تولید شده توسط هوش مصنوعی کمک کرده و ابزاری حیاتی برای مقابله با اخبار جعلی و اطلاعات نادرست است.

چه کسانی به مدل‌های جدید جمینای دسترسی دارند؟

خبر خوب این است که گوگل دسترسی به این مدل‌ها را برای طیف وسیعی از کاربران فراهم کرده است:

جمینای 3.5 فلش: این مدل هم‌اکنون برای تمام کاربران به صورت رایگان در اپلیکیشن جمینای و در حالت هوش مصنوعی جستجوی گوگل در دسترس است.
جمینای امنی فلش:
- برای تمام مشترکین پلن‌های Google AI Plus، Pro و Ultra در سراسر جهان، در اپلیکیشن جمینای و در Google Flow در دسترس است.
- همچنین به صورت رایگان برای کاربران YouTube Shorts و YouTube Create در حال عرضه است. این یعنی تولیدکنندگان محتوا در یوتیوب می‌توانند به زودی از این ابزار قدرتمند برای ساخت ویدیوهای کوتاه و خلاقانه خود استفاده کنند.

نتیجه‌گیری: آینده خلاقیت در دستان همه

معرفی مدل‌های جدید جمینای، به خصوص جمینای امنی، یک نقطه عطف در تاریخ هوش مصنوعی و تولید محتواست. گوگل با این اقدام، نه تنها قدرت رقابتی خود را به رخ کشید، بلکه ابزاری را ارائه داد که پتانسیل دموکراتیزه کردن خلاقیت را دارد. از این پس، برای ساخت یک ویدیوی باکیفیت و جذاب، دیگر نیازی به تجهیزات گران‌قیمت یا دانش فنی پیچیده نخواهد بود؛ تنها کافی است ایده‌ای در ذهن داشته باشید و بتوانید آن را از طریق گفتگو به هوش مصنوعی منتقل کنید. آینده‌ای هیجان‌انگیز در انتظار ماست.

جمینای امنی و جمینای 3.5 فلش معرفی شدند؛ قدرتمندترین ابزارهای هوش مصنوعی گوگل