اخیراً شرکت OpenAI در رویداد معرفی محصولات خود، از بهروزرسانی عظیم نسخه رایگان چتجیپیتی (ChatGPT) رونمایی کرد. این نسخه جدید با نام GPT-4o شناخته میشود و همانطور که از اسمش پیداست، نسخهای ارتقا یافته از GPT-4 با قابلیتهای چندرسانهای است.
در مورد GPT-4o، حرف o که بعد از عدد 4 آمده است، حرف اول اومنی (Omni)، پیشوندی به زبان لاتین و به معنای «همه» است، و OpenAI به نشانه فراگیر و جهانی بودن این محصول آن را به کار برده است. در واقع، نام “اومنی” به قابلیتهای چندرسانهای این مدل اشاره دارد. به عبارت دیگر، GPT-4o میتواند با انواع مختلف دادهها، از جمله متن، تصویر و صدا، کار کند. این موضوع باعث میشود که این مدل به یک ابزار قدرتمند و همهکاره برای طیف وسیعی از کاربردها تبدیل شود.
خانم میرا مراتی (Mira Murati)، مدیر ارشد فناوری OpenAI، در جریان پخش زنده این رویداد اعلام کرد که این مدل بهروزرسانی شده، سرعت و تواناییهای خود را در زمینه متن، تصویر و صدا به طور قابل توجهی بهبود بخشیده است. این مدل جدید برای همه کاربران رایگان خواهد بود و البته، کاربران با پرداخت هزینه میتوانند تا پنج برابر ظرفیت بیشتری نسبت به کاربران رایگان در اختیار داشته باشند.
با توجه به توضیحات وبلاگ OpenAI، فعلاً قابلیتهای متن و تصویر GPT-4o فعال شده و سایر قابلیتها به صورت مرحلهای و در بهروزرسانیهای بعدی ارائه خواهند شد.
مدیر عامل OpenAI، سام آلتمن (Sam Altman)، در این رویداد اعلام کرد که برخلاف GPT-3.5، نسخه GPT-4o کاملاً چندرسانهای است. این بدان معناست که این مدل میتواند محتوا را بر اساس ورودیهای متنی، صوتی و تصویری تولید کند. او همچنین اشاره کرد که توسعه دهندگان علاقمند به آزمایش GPT-4o به یک رابط کاربری برنامهنویسی (API) دسترسی خواهند داشت که دو برابر سریعتر از GPT-4 Turbo و نصف آن قیمت دارد.
با افزوده شدن قابلیتهای صوتی، ChatGPT به یک دستیار صوتی شبیه به “سامانتا” در فیلم سینمایی “Her” (محصول سال 2013) تبدیل خواهد شد. این دستیار میتواند به صورت آنی و در لحظه به هر سؤالی که کاربر میپرسد پاسخ دهد و از طریق دوربین دستگاه نیز محیط اطراف را مشاهده خواهد کرد. در حال حاضر، قابلیت صوتی دارای محدودیتهایی است؛ زیرا به صورت تکفرمانه عمل کرده و تنها به ورودیهای صوتی وابسته است.
تصمیم OpenAI برای ارائه رایگان GPT-4o اقدامی قابل تحسین و پیشروانه محسوب میشود و این موضوع میتواند دسترسی به این فناوری قدرتمند را برای طیف وسیعتری از کاربران و توسعهدهندگان فراهم کند.