تحقیقات جدید هشدار میدهند که سیستمهای هوش مصنوعی (AI) ممکن است تا سال 2026 تمام دانش رایگان اینترنت را ببلعند! مدلهای هوش مصنوعی مانند GPT-4 یا Claude 3 Opus برای باهوشتر شدن به حجم عظیمی از کلمات که به صورت آنلاین به اشتراک گذاشته میشوند، وابسته هستند. اما پیشبینیهای جدید حاکی از آن است که این مدلها جمعآوری منابع دادههای در دسترس عموم را در بازه زمانی بین 2026 تا 2032 تمام خواهند کرد.
این بدان معناست که شرکتهای فناوری برای ساخت مدلهای بهتر، باید به دنبال منابع دیگری برای داده باشند. این منابع میتواند شامل تولید دادههای مصنوعی، روی آوردن به منابع با کیفیت پایینتر، یا نگرانکنندهتر از همه، دسترسی به دادههای خصوصی در سرورهایی باشد که حاوی پیامها و ایمیلهای شخصی کاربران هستند! یافتههای این تحقیق در تاریخ 4 ژوئن (15 خرداد) در سرور پیشچاپ arXiv منتشر شده است.
پابلو ویلالوبوس (Pablo Villalobos)، سرپرست این مطالعه و یکی از محققان موسسه تحقیقاتی Epoch AI به لایو ساینس گفت:
اگر چتباتها تمام دادههای موجود را مصرف کنند و هیچ پیشرفت دیگری در زمینه بهرهوری داده وجود نداشته باشد، انتظار رکود نسبی در این حوزه (هوش مصنوعی) را دارم. مدلها تنها به واسطه کشف شدن بینشهای الگوریتمی جدید و تولید طبیعی دادههای جدید، به آرامی در طول زمان بهبود مییابند.
دادههای آموزشی، سوخت اصلی سیستمهای هوش مصنوعی هستند و به آنها امکان میدهند تا الگوهای پیچیدهتری را برای ریشه کردن در شبکههای عصبی خود بیابند. به عنوان مثال، ChatGPT با استفاده از تقریباً 570 گیگابایت داده متنی، یعنی معادل حدود 300 میلیارد کلمه برگفته از کتاب، مقالات آنلاین، ویکیپدیا و سایر منابع آنلاین آموزش دیده است.
الگوریتمهایی که با دادههای ناکافی یا کمکیفیت آموزش داده میشوند، خروجیهای نامناسبی تولید میکنند. هوش مصنوعی جِمینی (Gemini AI) گوگل که به خاطر توصیههای عجیب و غریبش مانند اضافه کردن چسب به پیتزا یا خوردن سنگ بدنام است، برخی از پاسخهای خود را از پستهای ردیت و مقالات وبسایت طنز The Onion به دست آورده است! از همین رو بعضی اوقات چنین نتایج عجیبی را ارائه میدهد.
برای تخمین میزان متن موجود در فضای آنلاین، محققان از فهرست وب گوگل استفاده کردند و محاسبه کردند که در حال حاضر حدود 250 میلیارد صفحه وب وجود دارد که هر صفحه حاوی 7000 بایت متن است. سپس، آنها با استفاده از تحلیلهای بعدی ترافیک پروتکل اینترنت (IP) – جریان داده در سراسر وب – و فعالیت کاربران آنلاین، به پیشبینی رشد این ذخیره دادههای در دسترس پرداختند.
نتایج نشان داد که اطلاعات باکیفیت، که از منابع قابل اعتماد به دست آمده است، حداکثر تا قبل از سال 2032 تمام خواهد شد و دادههای با کیفیت پایین نیز بین سالهای 2030 تا 2050 به اتمام خواهند رسید. در همین حال، دادههای تصویری نیز بین سالهای 2030 تا 2060 به طور کامل توسط چتباتها مصرف خواهند شد.
شبکههای عصبی به طور قابل پیشبینی با افزایش مجموعه دادههایشان بهبود مییابند و این پدیدهای است که از آن با عنوان قانون مقیاس عصبی یاد میشود. بنابراین، این یک سوال باز است که آیا شرکتها میتوانند کارایی مدلهای خود را برای جبران کمبود دادههای جدید بهبود بخشند، یا اینکه خاموش شدن شیر اطلاعات باعث توقف پیشرفت مدلهای هوش مصنوعی خواهد شد؟
با این حال، ویلالوبوس معتقد است که به نظر نمیرسد کمبود دادهها به طور چشمگیری مانع رشد مدلهای هوش مصنوعی آینده شود. زیرا چندین رویکرد بالقوه وجود دارد که شرکتها میتوانند برای حل این مشکل از آنها استفاده کنند.
وی افزود:
شرکتها به طور فزایندهای در تلاش هستند تا از دادههای خصوصی برای آموزش مدلها استفاده کنند. برای مثال میتوان به تغییر سیاست آتی متا اشاره کرد که بر اساس آن، این شرکت اعلام کرده است از تاریخ 26 ژوئن (۶ تیر) از تعاملات انجام شده با چتباتها در سراسر پلتفرمهایش برای آموزش هوش مصنوعی مولد خود استفاده خواهد کرد.
گزینه دیگر استفاده از دادههای مصنوعی و تولید شده به وسیله هوش مصنوعی برای تغذیه مدلهای تشنه اطلاعات است! البته، این روش تاکنون فقط در سیستم آموزش در بازیها، کدگذاری و ریاضیات با موفقیت به کار گرفته شده است.
از طرف دیگر، اگر شرکتها بدون اجازه اقدام به استفاده از محصولات تحت مالکیت افراد یا اطلاعات خصوصی کنند با چالشهای حقوقی مواجه خواهند شد. در حال حاضر نیز نویسندگان و هنرمندان نسبت به استفاده بدون اجازه از آثارشان برای آموزش مدلهای هوش مصنوعی اعتراض کردهاند و برخی از آنها علیه شرکتهایی مانند مایکروسافت، OpenAI و Stability AI شکایت قضایی نیز مطرح نمودهاند. یک استاد حقوق مالکیت فکری معتقد است که جبران مالی برای این آثار میتواند تا حدودی عدم توازن قدرت بین هنرمندان و شرکتهای هوش مصنوعی را جبران کند.
مسئله مهم دیگری که باید به آن توجه داشت این است که بر اساس گزارش آژانس بینالمللی انرژی، جستجوهای گوگل که از ChatGPT نیرو میگیرند، تقریباً ده برابر بیشتر از جستجوی سنتی انرژی مصرف میکنند. این موضوع باعث شده تا مدیران شرکتهای فناوری به دنبال راهحلهایی مانند راهاندازی شرکتهای نوپای انرژی هستهای همجوشی باشند، اما این روش تولید انرژی هنوز در مراحل اولیه است و به مرحله عملیاتی نرسیده است.
در مجموع، به نظر میرسد کمبود دادههای در دسترس عموم، چالش قابل توجهی برای توسعه هوش مصنوعی است. شرکتها باید برای غلبه بر این چالش، راهکارهای خلاقانهای مانند دریافت رضایت، ناشناسسازی دادهها و استفاده از دادههای مصنوعی پیدا کنند. علاوه بر این، آنها باید برای کاهش خطرات تعصب و عدم تعمیمپذیری در مدلهای هوش مصنوعی نیز اقداماتی انجام دهند. منظور از تعصب این است که اگر مدلهای هوش مصنوعی با دادههای ناکافی یا مغرضانه آموزش ببینند، ممکن است نتایج مغرضانه یا نادرست تولید کنند. همچنین، عدم تعمیمپذیری به این موضوع اشاره دارد که مدلهایی که با دادههای خاص آموزش دیدهاند، ممکن است در هنگام مواجهه با دادههای جدید که با دادههای آموزشی آنها متفاوت است، به خوبی عمل نکنند.