مدل Gemini 2.5 Computer Use گوگل؛ انقلابی در تعامل هوش مصنوعی با وب و رابط کاربری

گوگل اخیراً مدل جدیدی از هوش مصنوعی خود را با نام Gemini 2.5 Computer Use معرفی کرده است که توانایی تعامل با وب‌سایت‌ها و رابط‌های کاربری را مانند یک انسان دارد. این مدل که در حال حاضر در نسخه پیش‌نمایش عمومی از طریق Gemini API در Google AI Studio و Vertex AI در دسترس است، گامی بزرگ در جهت هوشمندسازی تعاملات دیجیتالی محسوب می‌شود. Gemini 2.5 Computer Use بر پایه قابلیت‌های درک بصری و استدلال مدل Gemini 2.5 Pro ساخته شده و می‌تواند اقدامات مختلفی مانند کلیک، تایپ، اسکرول، هاور کردن، باز کردن منوها و پیمایش در صفحات وب را انجام دهد. با دیجی رو همراه باشید.

لیست

برتری Gemini 2.5 Computer Use در مقایسه با رقبا

گوگل ادعا می‌کند که این مدل در بنچمارک‌های مختلف مانند Online-Mind2Web، WebVoyager و AndroidWorld عملکرد بهتری نسبت به ابزارهای مشابه دارد. علاوه بر این، Gemini 2.5 Computer Use با داشتن تاخیر کمتر، تجربه کاربری روان‌تری را ارائه می‌دهد. برخلاف مدل‌های سنتی هوش مصنوعی که به APIها وابسته هستند، این مدل از اسکرین‌شات‌های رابط کاربری برای تحلیل و تصمیم‌گیری در خصوص اقدامات بعدی خود استفاده می‌کند.

فرایند کار به این صورت است که مدل یک تسک (مأموریت)، یک اسکرین‌شات از محیط دیجیتال و تاریخچه اقدامات اخیر دریافت می‌کند. سپس با تحلیل رابط کاربری، اقدامی مانند کلیک روی یک دکمه یا تایپ در یک فیلد را پیشنهاد می‌دهد. این اقدام در سمت کلاینت اجرا شده و یک اسکرین‌شات جدید به مدل ارسال می‌شود تا فرایند ادامه یابد.

نمایش عملکرد مدل در عمل

گوگل با ارائه چند نمونه عملی، توانایی‌های این مدل را به نمایش گذاشته است. در یکی از دموها، یک عامل هوش مصنوعی یادداشت‌های چسبان دیجیتال را روی یک تخته سفید مرتب می‌کند. در نمونه دیگری، اطلاعات مربوط به یک حیوان خانگی از یک وب‌سایت به سیستم CRM منتقل می‌شود. این دموها با سرعت بیشتری نمایش داده می‌شوند تا فرایند را در زمان واقعی نشان دهند.

در حال حاضر، Gemini 2.5 Computer Use از 13 اقدام مختلف پشتیبانی می‌کند و بهترین عملکرد را در مرورگرهای وب دارد. گوگل اعلام کرده که این مدل هنوز برای وظایف سطح سیستم عامل دسکتاپ بهینه نشده است، اما در بنچمارک‌های موبایل پتانسیل خوبی از خود نشان داده است.

امنیت و پیشگیری از سوء استفاده‌های احتمالی

گوگل برای جلوگیری از سوء استفاده‌های احتمالی، اقدامات امنیتی مختلفی را پیاده‌سازی کرده است. هر اقدام پیشنهادی توسط مدل، قبل از اجرا توسط یک سرویس امنیتی بررسی می‌شود. توسعه‌دهندگان نیز می‌توانند اقدامات خاصی را محدود کنند یا برای وظایف پرخطر مانند تراکنش‌های مالی، تأیید صریح کاربر را الزامی نمایند.

کاربردهای عملی و استفاده‌های داخلی

در حال حاضر تعدادی از تیم‌های داخلی گوگل از این مدل در محیط داخلی شرکت استفاده می‌کنند. Gemini 2.5 Computer Use در وظایف مختلفی مانند تست رابط کاربری (UI) و اتوماسیون در پلتفرم‌هایی مانند Google Search و Firebase مورد استفاده قرار می‌گیرد. توسعه‌دهندگان خارجی که در برنامه دسترسی اولیه شرکت کرده‌اند، از این مدل برای ساخت ابزارهای اتوماسیون گردش کار و دستیارهای هوشمند استفاده می‌کنند.

توسعه‌دهندگان می‌توانند از طریق Google AI Studio یا Vertex AI به این مدل دسترسی پیدا کنند. گوگل همچنین یک محیط دموی مبتنی بر وب را نیز برای تست قابلیت‌های مدل جدید ارائه کرده است.

نتیجه‌گیری: آینده تعامل هوش مصنوعی با وب

مدل Gemini 2.5 Computer Use گوگل با قابلیت‌های مرور وب مانند انسان یک پیشرفت بزرگ در زمینه هوش مصنوعی و تعامل با رابط‌های کاربری است. این مدل با توانایی انجام اقدامات مختلف مانند کلیک، تایپ و پیمایش، می‌تواند در زمینه‌های مختلفی مانند اتوماسیون، تست رابط کاربری برنامه‌ها و دستیارهای هوشمند مورد استفاده قرار گیرد. با توجه به اقدامات امنیتی و پشتیبانی گوگل، انتظار می‌رود که این مدل در آینده نزدیک نقش مهمی در بهبود تعاملات دیجیتالی ایفا کند.

مدل Gemini 2.5 Computer Use گوگل؛ انقلابی در تعامل هوش مصنوعی با وب و رابط کاربری