گوگل اخیراً مدل جدیدی از هوش مصنوعی خود را با نام Gemini 2.5 Computer Use معرفی کرده است که توانایی تعامل با وبسایتها و رابطهای کاربری را مانند یک انسان دارد. این مدل که در حال حاضر در نسخه پیشنمایش عمومی از طریق Gemini API در Google AI Studio و Vertex AI در دسترس است، گامی بزرگ در جهت هوشمندسازی تعاملات دیجیتالی محسوب میشود. Gemini 2.5 Computer Use بر پایه قابلیتهای درک بصری و استدلال مدل Gemini 2.5 Pro ساخته شده و میتواند اقدامات مختلفی مانند کلیک، تایپ، اسکرول، هاور کردن، باز کردن منوها و پیمایش در صفحات وب را انجام دهد. با دیجی رو همراه باشید.
برتری Gemini 2.5 Computer Use در مقایسه با رقبا
گوگل ادعا میکند که این مدل در بنچمارکهای مختلف مانند Online-Mind2Web، WebVoyager و AndroidWorld عملکرد بهتری نسبت به ابزارهای مشابه دارد. علاوه بر این، Gemini 2.5 Computer Use با داشتن تاخیر کمتر، تجربه کاربری روانتری را ارائه میدهد. برخلاف مدلهای سنتی هوش مصنوعی که به APIها وابسته هستند، این مدل از اسکرینشاتهای رابط کاربری برای تحلیل و تصمیمگیری در خصوص اقدامات بعدی خود استفاده میکند.
فرایند کار به این صورت است که مدل یک تسک (مأموریت)، یک اسکرینشات از محیط دیجیتال و تاریخچه اقدامات اخیر دریافت میکند. سپس با تحلیل رابط کاربری، اقدامی مانند کلیک روی یک دکمه یا تایپ در یک فیلد را پیشنهاد میدهد. این اقدام در سمت کلاینت اجرا شده و یک اسکرینشات جدید به مدل ارسال میشود تا فرایند ادامه یابد.
نمایش عملکرد مدل در عمل
گوگل با ارائه چند نمونه عملی، تواناییهای این مدل را به نمایش گذاشته است. در یکی از دموها، یک عامل هوش مصنوعی یادداشتهای چسبان دیجیتال را روی یک تخته سفید مرتب میکند. در نمونه دیگری، اطلاعات مربوط به یک حیوان خانگی از یک وبسایت به سیستم CRM منتقل میشود. این دموها با سرعت بیشتری نمایش داده میشوند تا فرایند را در زمان واقعی نشان دهند.
در حال حاضر، Gemini 2.5 Computer Use از 13 اقدام مختلف پشتیبانی میکند و بهترین عملکرد را در مرورگرهای وب دارد. گوگل اعلام کرده که این مدل هنوز برای وظایف سطح سیستم عامل دسکتاپ بهینه نشده است، اما در بنچمارکهای موبایل پتانسیل خوبی از خود نشان داده است.
امنیت و پیشگیری از سوء استفادههای احتمالی
گوگل برای جلوگیری از سوء استفادههای احتمالی، اقدامات امنیتی مختلفی را پیادهسازی کرده است. هر اقدام پیشنهادی توسط مدل، قبل از اجرا توسط یک سرویس امنیتی بررسی میشود. توسعهدهندگان نیز میتوانند اقدامات خاصی را محدود کنند یا برای وظایف پرخطر مانند تراکنشهای مالی، تأیید صریح کاربر را الزامی نمایند.
کاربردهای عملی و استفادههای داخلی
در حال حاضر تعدادی از تیمهای داخلی گوگل از این مدل در محیط داخلی شرکت استفاده میکنند. Gemini 2.5 Computer Use در وظایف مختلفی مانند تست رابط کاربری (UI) و اتوماسیون در پلتفرمهایی مانند Google Search و Firebase مورد استفاده قرار میگیرد. توسعهدهندگان خارجی که در برنامه دسترسی اولیه شرکت کردهاند، از این مدل برای ساخت ابزارهای اتوماسیون گردش کار و دستیارهای هوشمند استفاده میکنند.
توسعهدهندگان میتوانند از طریق Google AI Studio یا Vertex AI به این مدل دسترسی پیدا کنند. گوگل همچنین یک محیط دموی مبتنی بر وب را نیز برای تست قابلیتهای مدل جدید ارائه کرده است.
نتیجهگیری: آینده تعامل هوش مصنوعی با وب
مدل Gemini 2.5 Computer Use گوگل با قابلیتهای مرور وب مانند انسان یک پیشرفت بزرگ در زمینه هوش مصنوعی و تعامل با رابطهای کاربری است. این مدل با توانایی انجام اقدامات مختلف مانند کلیک، تایپ و پیمایش، میتواند در زمینههای مختلفی مانند اتوماسیون، تست رابط کاربری برنامهها و دستیارهای هوشمند مورد استفاده قرار گیرد. با توجه به اقدامات امنیتی و پشتیبانی گوگل، انتظار میرود که این مدل در آینده نزدیک نقش مهمی در بهبود تعاملات دیجیتالی ایفا کند.