چند وقتی است که GPT-5 به سوژهای داغ در بین اهالی فناوری تبدیل شده و سم آلتمن، مدیرعامل OpenAI، اخیراً در پادکست لکس فریدمن در مورد آینده مدل هوش مصنوعی GPT صحبت کرده است. وی در این پادکست گفته که GPT-4 در حال حاضر “تا حدودی ضعیف” است و او مشتاق است تا ببیند در آینده چه چیزی پیش خواهد آمد. با اینکه آلتمن از اشاره مستقیم به نام “GPT-5” خودداری کرده، اما گزارش اخیر Business Insider مدل هوش مصنوعی جدید OpenAI را با همین نام معرفی کرده و افرادی که با این مدل آشنایی دارند آن را از نظر عملکرد “به طور قابل توجهی بهتر” از GPT-4 توصیف کردهاند.
به هر حال، دیر یا زود شاهد عرضه GPT-5 خواهیم بود و انتظار داریم که بار دیگر رقابت در حوزه مدلهای هوش مصنوعی را به سطحی بالاتر ارتقاء داد. با این مقدمه، در ادامه قصد داریم 5 انتظار مهمی را که از GPT-5 داریم، بیان کرده و دلایل خود را نیز برای هر کدام توضیح دهیم. با ما در دیجی رو همراه باشید.
پنجره زمینه بزرگتر
یکی از چیزهایی که جمینی را بسیار قدرتمند کرده است
منظور از پنجره زمینه یا Context Window در یک مدل زبانی، محدودهای از کلمات یا توکنها در یک متن است که برای درک معنای یک کلمه یا عبارت خاص مورد استفاده قرار میگیرد. اندازه پنجره زمینه میتواند متفاوت باشد، اما معمولاً شامل چندین کلمه قبل و بعد از کلمه یا عبارت مورد نظر میشود. برای مثال، اگر پنجره زمینه 5 کلمه باشد، برای درک معنای کلمه “کتاب” در جمله “من به فروشگاه رفتم تا یک کتاب بخرم”، مدل زبانی 5 کلمه قبل و بعد از آن را در نظر میگیرد، یعنی “من”، “به”، “فروشگاه” ، “رفتم”، “تا”، “یک”، “کتاب” و “بخرم”. در اینجا کلمات “فروشگاه” و “خرید” به هوش مصنوعی نشان میدهند که “کتاب” به احتمال زیاد یک کالای فیزیکی است و یا کلمه “یک” نشان میدهد که فقط یک کتاب خریداری شده است و …
پنجره زمینه بزرگ یکی از ویژگیهایی است که باعث شده هوش مصنوعی گوگل یعنی جمینی (Gemini) بسیار قدرتمند ظاهر شود. این مدل زبانی توانایی داشتن پنجره زمینه تا 10 میلیون توکن را دارا است! با اینکه مقدار حافظه مورد نیاز برای چنین پنجره زمینهای عملاً غیرمنطقی است، اما همچنان شگفت انگیز خواهد بود. GPT-4 دارای پنجره زمینه 32 هزار تایی است و GPT-4 Turbo آن را تا 128 هزار افزایش داده است. این مقدار قابل توجه است، اما گوگل با نسخه 1.5 از جمینی این عدد را به طور قابل توجهی پشت سر گذاشته است.
همانطور که قبلاً گفته شد، در اینجا محدودیتهای حافظهای وجود دارد که شرکت باید در بخش سرور آنها را حل کند، اما اخیراً پیشرفتهایی انجام شده که میتواند انجام این کار را برای کاربران نهایی ممکن سازد.
ورودی ویدیو
چندوجهی واقعی
GPT-4 با قابلیت پردازش تصویر، مدلی است که در حال حاضر وجود دارد و میتواند دادههای بصری را تفسیر کرده و سپس از آنها در تصمیمگیریهای خود استفاده کند. مشکل این است که روند این پردازش بسیار کند است و نمیتواند به درستی و با سرعت مناسب، چندین تصویر را همزمان تفسیر کند. این یعنی امکان تفسیر ویدیو (که متشکل از تصاویر پیوسته است) در حال حاضر غیرممکن است.
بنابراین، عالی میشود اگر OpenAI در این زمینه پیشرفتهایی انجام داده و به GPT-5 اجازه دهد تا ورودیهای ویدیویی را نیز به شکل واقعی و کاربردی در نظر بگیرد. به خصوص با توجه به اینکه این شرکت به طور کلی در زمینه هوش مصنوعی ویدیویی پیشرفتهای خوبی داشته و با معرفی سورا (Sora)، این موضوع را به خوبی نشان داده است، امیدوارهای زیادی برای اضافه شدن قابلیت ورودی ویدیو به GPT-5 وجود دارد. بد نیست اشاره کنیم که گوگل نیز روی ورودی ویدیو در جمینی 1.5 کار میکند و نتایج کار به نظر امیدوار کننده هستند.
پاسخهای سریعتر
GPT-4 بسیار کندتر از رقبای خود است
GPT-4 در ابتدای عرضه خود بسیار هیجانانگیز بود اما با گذشت زمان، به نظر میرسد که در ارائه پاسخ بیش از حد کند شده است. در حالی که بخشی از این موضوع به طور قطع به دلیل حجم بالای ترافیکی است که OpenAI به صورت روزانه دریافت میکند، اما رقبایی مانند گوگل و Anthropic موفق به پاسخگویی بسیار سریعتر در مدلهای هوش مصنوعی خود شدهاند. OpenAI نیاز به بهبود زمان تولید پاسخ دارد و امیدواریم GPT-5 بتواند یک مدل کارآمدتر باشد و این کار را انجام دهد.
به اعتقاد بسیاری از افراد، در حال حاضر این بزرگترین مشکل در رابطه با GPT-4 است. به طور خاص، مدل جمینی گوگل به طرز چشمگیری سریعتر از چیزی است که OpenAI میتواند ارائه دهد و در نتیجه این شرکت برای عقب نماندن در میدان رقابت ناچار به افزایش سرعت مدل خود است.
بیشتر بخوانید:
استدلال منطقی بهبود یافته
GPT-4 در حال عقب افتادن است
استدلال منطقی سختترین کار برای مدل زبانی بزرگ (LLM) است، به ویژه به این دلیل که آنها صرفاً الگوریتمهای مدیریت الگوی پیشرفته هستند. این مدلها میتوانند پاسخهایی را بر اساس چیزهایی که قبلاً دیدهاند بسازند، اما هر چیزی به جز آن تنها یک حدس است. در مورد ریاضیات، LLM ها با مشکل بیشتری مواجه میشوند زیرا اگر سوالی در مجموعه آموزشی آنها نباشد، ناچار هستند تا حدس بزنند پاسخ چه باید باشد!
استدلال منطقی چیزی است که برای اینکه OpenAI بتواند مزیت قابل توجه دیگری کسب کند، نیاز به بهبود قابل توجه آن دارد، زیرا مدلهایی مانند جمینی پیشرفته گوگل و کلود 3 اوپوس توانستهاند در این زمینه پیشرفتهای چشمگیری داشته باشند.
ادغام در ابزارهای بیشتر
مایکروسافت و گوگل به ترتیب سرویسهای 365 و G Suite را دارند، اما OpenAI چه؟
اگر از Microsoft Copilot Pro یا Google Gemini Advanced استفاده میکنید، احتمالاً با یکپارچهسازی ابزاری که این سرویسها ارائه میدهند آشنا هستید. Copilot Pro ادغام کامل با بسته نرم افزاری مایکروسافت 365 دارد و Gemini Advanced هم به طور کامل در گوگل سوئیت ادغام شده اتس. اینها مزیتهای بسیار بزرگی نسبت به رقبا هستند، تا جایی که Copilot Pro برای اکثر افراد نسبت به ChatGPT Plus خرید بهتر و منطقیتری محسوب میشود.
با معرفی GPT-5، امیدواریم این وضعیت با ادغام هوش مصنوعی OpenAI در سرویسهای بیشتر، تغییر کند. این امر میتواند به افزایش مزیت رقابتی OpenAI و گسترش کاربردهای مدلهای زبانی GPT کمک کند. با توجه به اینکه به نظر میرسد پشتیبانی از افزونهها نیز به واسطه پررنگتر شدن مدلهای GPT سفارشی در حال کاهش است، انتظار میرود لیست مزیتهای رقابتی OpenAI شروع به کم شدن کند، به ویژه با در نظر گرفتن اینکه Copilot نیز دارای مدلهای GPT سفارشی است. به نظر میرسد OpenAI باید برای معرفی ویژگیهای انحصاری با سایر شرکتها همکاری کند تا همچنان بتواند به ارائه خدمات نوآورانهتر به کاربران خود ادامه دهد.
امیدها به موفقیت GPT-5 زیاد است
اینها برخی از مهمترین نکاتی هستند که در مورد نسل بعدی GPT به آنها امیدواریم، اما صادقانه بگوییم، OpenAI میتواند آن را به هر مسیری هدایت کند. با توجه به صحبتهای آلتمن که ظاهراً نشان میدهد GPT-5 یک ارتقاء عمده خواهد بود، قطعاً امیدواریم، اما هیچ تضمینی وجود ندارد که این شرکت بتواند برتری عظیمی را که در زمان راهاندازی اولیه ChatGPT نسبت به سایر بخشهای صنعت داشت، دوباره به دست آورد.