تحقیقات علمی جدید نشان میدهند که مدلهای پیشرفته و برتر هوش مصنوعی، در هنگام ارزیابی با آزمون استاندارد MoCA (ارزیابی شناختی مونترال)، اختلالات شناختی مشابه با علائم اولیه بیماری زوال عقل در انسان را از خود بروز میدهند! این یافتههای مهم و قابل توجه، محدودیتهای کاربرد هوش مصنوعی در زمینههای بالینی و پزشکی، به ویژه در انجام وظایفی که نیازمند مهارتهای بصری دقیق و عملکردهای اجرایی پیچیده هستند را به وضوح برجسته و آشکار میسازد. با ما در دیجی رو همراه باشید.
اختلالات شناختی مشاهده شده در هوش مصنوعی
بر اساس نتایج یک مطالعه علمی و دقیق که در شماره ویژه کریسمس نشریه معتبر BMJ به چاپ رسیده است، تقریباً تمامی مدلهای زبانی بزرگ پیشرو و شناخته شده، که اغلب با عنوان «چتباتها» شناخته میشوند، در هنگام انجام آزمایشها و ارزیابیهایی که به طور معمول برای تشخیص زودهنگام بیماری زوال عقل در انسان مورد استفاده قرار میگیرند، نشانههایی از اختلال شناختی خفیف و اولیه را از خود نشان میدهند.
این مطالعه علمی همچنین به این نکته مهم اشاره دارد که نسخههای قدیمیتر و اولیه این چتباتهای هوشمند، درست مانند بیماران انسانی مسن و سالخورده، در انجام این آزمونهای شناختی عملکرد به مراتب ضعیفتر و نامطلوبتری را از خود به نمایش گذاشتهاند. نویسندگان این مطالعه تخصصی پیشنهاد میکنند که این یافتههای جدید و حائز اهمیت، به طور جدی «فرضیه جایگزینی قریبالوقوع و احتمالی پزشکان و متخصصان انسانی توسط سیستمهای هوش مصنوعی را به چالش میکشد و آن را زیر سوال میبرد.»
پیشرفتهای حاصل شده و گمانهزنیهای موجود در مورد هوش مصنوعی
پیشرفتهای چشمگیر و قابل توجهی که اخیراً در زمینه هوش مصنوعی حاصل شده است، هم موجی از هیجان و اشتیاق و هم نگرانیها و دغدغههایی را در مورد این موضوع که آیا چتباتهای هوشمند ممکن است در انجام وظایف پزشکی و درمانی از پزشکان و متخصصان انسانی پیشی بگیرند و عملکرد بهتری داشته باشند، در بین عموم مردم و متخصصان برانگیخته است.
در حالی که تحقیقات و مطالعات قبلی به طور واضح نشان داده بودند که مدلهای زبانی بزرگ (LLM) در انجام وظایف مختلف تشخیصی در زمینه پزشکی و درمان، از توانایی و برتری قابل توجهی برخوردار هستند، اما آسیبپذیری احتمالی و بالقوه آنها در برابر اختلالات شناختی مشابه با انسان، مانند زوال شناختی و کاهش تواناییهای ذهنی، تا به امروز تا حد بسیار زیادی ناشناخته بوده و مورد بررسی قرار نگرفته بود که این مطالعه جدید به این موضوع پرداخته است.
ارزیابی دقیق تواناییهای شناختی هوش مصنوعی
به منظور پر کردن این شکاف مهم در دانش و اطلاعات موجود، محققان و پژوهشگران متخصص، به ارزیابی دقیق و جامع تواناییهای شناختی مدلهای زبانی بزرگ پیشرو، از جمله نسخههای 4 و 4o چت جیپیتی (که توسط شرکت OpenAI توسعه داده شده است)، کلود 3.5 «سونت» (که توسط شرکت Anthropic توسعه داده شده است) و همچنین نسخههای 1 و 1.5 جمینی (که توسط شرکت Alphabet توسعه داده شده است) با استفاده از آزمون استاندارد و شناخته شده ارزیابی شناختی مونترال (MoCA) پرداختند.
آزمون MoCA به طور گسترده و وسیع برای تشخیص دقیق اختلال شناختی و همچنین علائم اولیه بیماری زوال عقل، به طور معمول در انسانهای مسن و کهنسال، مورد استفاده قرار میگیرد. این آزمون از طریق انجام تعدادی وظایف کوتاه و پرسشهای هدفمند، تواناییهای مختلف فرد از جمله توجه و تمرکز، حافظه کوتاه مدت و بلند مدت، مهارتهای زبانی و گفتاری، مهارتهای فضایی-دیداری و همچنین عملکردهای اجرایی مغز را به طور دقیق ارزیابی میکند. حداکثر امتیازی که در این آزمون میتوان کسب کرد 30 امتیاز است و کسب امتیاز 26 یا بالاتر به طور کلی به عنوان عملکرد طبیعی و نرمال در نظر گرفته میشود.
عملکرد سیستمهای هوش مصنوعی در آزمونهای شناختی
دستورالعملها و راهنماییهایی که به LLMها برای انجام هر یک از وظایف داده میشد، کاملاً مشابه با دستورالعملهایی بود که به بیماران انسانی داده میشد. نحوه نمرهدهی نیز دقیقاً از دستورالعملهای رسمی و استاندارد پیروی میکرد و توسط یک متخصص مغز و اعصاب با تجربه و در حال طبابت به طور کامل ارزیابی و بررسی شد.
در نهایت، ChatGPT 4o موفق به کسب بالاترین امتیاز در آزمون MoCA (یعنی 26 از 30) شد و پس از آن به ترتیب چت ChatGPT 4 و کلود با کسب امتیاز 25 از 30 قرار گرفتند و مدل جمینی 1.0 نیز کمترین امتیاز (یعنی 16 از 30) را به خود اختصاص داد.
چالشها و مشکلات موجود در عملکردهای بصری و اجرایی
تمامی چتباتهای مورد بررسی در این مطالعه، عملکرد ضعیف و نامطلوبی را در مهارتهای فضایی-دیداری و همچنین وظایف اجرایی، مانند آزمون مسیرسازی (که شامل اتصال اعداد و حروف محصور شده به ترتیب صعودی است) و آزمون ترسیم ساعت (که شامل کشیدن صفحه ساعتی است که زمان مشخصی را نشان میدهد) از خود نشان دادند. مدلهای جمینی نیز به طور کامل در آزمون یادآوری تأخیری (که شامل به خاطر سپردن یک توالی پنج کلمهای است) با شکست مواجه شدند.
اکثر وظایف و آزمونهای دیگر، از جمله نامگذاری اشیاء، توجه و تمرکز، مهارتهای زبانی و گفتاری و همچنین انتزاع به خوبی توسط تمامی چتباتها انجام شد و عملکرد مطلوبی داشتند.
با این حال، در انجام آزمونهای فضایی-دیداری بیشتر و پیچیدهتر، چتباتها نتوانستند به درستی همدلی و همدردی از خود نشان دهند یا صحنههای بصری پیچیده و دشوار را به طور دقیق و صحیح تفسیر و تحلیل کنند. در بین تمامی مدلهای مورد بررسی، تنها چت ChatGPT 4o توانست در مرحله ناهمگون آزمون استروپ، که از ترکیبی از نام رنگها و رنگ فونت برای اندازهگیری چگونگی تأثیر تداخل بر زمان واکنش فرد استفاده میکند، موفق عمل کند.
پیامدهای استفاده از هوش مصنوعی در محیطهای بالینی و پزشکی
این تحقیقات و نتایج آن، یافتههای مشاهدهای هستند و نویسندگان این مطالعه به طور کامل تفاوتهای اساسی و بنیادین بین مغز پیچیده انسان و مدلهای زبانی بزرگ را تصدیق و تأیید میکنند.
با این وجود، آنها به این نکته مهم اشاره میکنند که شکست یکنواخت و مشابه تمامی مدلهای زبانی بزرگ در انجام وظایفی که نیاز به انتزاع بصری و عملکرد اجرایی دقیق و پیچیده دارند، یک ضعف قابل توجه و مهم را در این سیستمها برجسته و آشکار میکند که میتواند به طور جدی مانع از استفاده مؤثر و کارآمد آنها در محیطهای بالینی و پزشکی شود.
به این ترتیب و با توجه به موارد ذکر شده، محققان به این نتیجه مهم میرسند که:
نه تنها بعید و دور از انتظار است که متخصصان و پزشکان مغز و اعصاب به این زودیها توسط مدلهای زبانی بزرگ و سیستمهای هوش مصنوعی جایگزین شوند، بلکه یافتههای این مطالعه نشان میدهد که آنها ممکن است به زودی خود را در حال درمان بیماران مجازی جدید – یعنی مدلهای هوش مصنوعی که دچار اختلال شناختی هستند – ببینند!