ابزارهای هوش مصنوعی در مقابل چشمان ما با سرعتی ترسناک در حال تکامل یافتن هستند، اما همچنان نقصهایی دارند. مشاهده برخی جزئیات عجیب و غریب در تصاویر تولید شده توسط هوش مصنوعی یکی از این نقصهاست که گاهی اوقات میتواند بسیار خندهدار هم باشد. اما یکی از چیزهایی که انواع مختلف هوش مصنوعی با آن مشکل دارند، شبیهسازی و ایجاد تصویری واقعی از دست انسان است! ناتوانی هوش مصنوعی در درک صحیح دست، یکی از سوژههای داغ این روزها شده و زیاد در مورد آن صحبت میشود.
اما دلیل یک چنین نقص عجیبی چیست و چرا دستها تا این حد برای ابزارهای تولید تصویر مبتنی بر هوش مصنوعی چالش برانگیز هستند؟ در ادامه قصد داریم به بررسی این موضوع بپردازیم. با ما در دیجی رو همراه باشید.
چرا دستهای تولید شده توسط هوش مصنوعی به هم ریختهاند؟
هر کسی که از ابزارهای هوش مصنوعی برای ایجاد تصاویر استفاده کرده، ممکن است متوجه شده باشد که دستها به ندرت درست از آب در میآیند. با این حال، شاید کسی زیاد اهمیت نداده بود تا اینکه مجموعهای از «عکسها» در توییتر منتشر و این مشکل را به یک سوژه داغ تبدیل کرد.
با بررسی دقیقتر و مشاهده دستهای عجیب و غریب افراد داخل عکس، به سرعت میتوان متوجه شد که تصویر مورد نظر توسط هوش مصنوعی تولید شده است. اما هوش مصنوعی هنری میدجرنی (Midjourney) این مشکل را به شکل واضح و غیرقابل انکاری در تصاویر خود دارد که مسئله را جالبتر میکند.
میدجرنی که یکی از بهترین ابزارهای هوش مصنوعی موجود است، نمیتوانست با پیچیدگی دست انسان مقابله کند، بنابراین تواناییهای این ابزار و همتایان آن مورد شک و تردید قرار گرفتند. حتی DALL-E هم نمیتواند انگشتان و ناخنها را به شکل واقعی ترسیم کند.
با توجه به تبلیغات وسیعی که در مورد ناتوانی هوش مصنوعی در ترسیم دست انجام شد، توسعهدهندگان میدجرنی تلاش کردند تا با عرضه نسخه پنجم این ابزار، ایراد را تا حد ممکن برطرف کنند.
در نسخه جدید سیستم طراحی دست به شکل قابل توجهی بهبود پیدا کرد که نشانگر این بود که مهندسان هوش مصنوعی به این مسئله توجه کرده و تصمیم گرفتند تا قابلیتهای نرم افزار خود را ارتقا دهند.
با این حال، موتورهای هوش مصنوعی دیگر در پیروی از میدجرنی کمی کند هستند و از همین رو، انجام اصلاحات بر روی تصاویر هوش مصنوعی توسط فتوشاپ همچنان یک مهارت ارزشمند به شمار میرود. در واقع، مانع اصلی پیش روی برنامهنویسان این است که آموزش دادن هوش مصنوعی برای کشیدن دستهای طبیعی، فرآیند بسیار پیچیدهای است.
چرا ابزارهای تولید تصویر مبتنی بر هوش مصنوعی با دستها مشکل دارند؟!
موتورهای هوش مصنوعی از شبکههای متخاصم مولد (GAN) یا Stable Diffusion برای تولید تصاویر استفاده میکنند. هر دو فناوری برای ایجاد حتی ابتداییترین آثار هنری نیز به منابع گسترده، آموزش و قدرت پردازش بالا نیاز دارند.
از آنجایی که تصاویر از قبل موجود، در آموزش هوش مصنوعی نقش اساسی دارند، برنامه نویسان باید هزاران و حتی میلیونها تصویر را به نرم افزار خود وارد کرده و فرآیند پرسش و پاسخ را بارها و بارها تکرار کنند تا زمانی که هوش مصنوعی بفهمد یک کلمه خاص به چه چیزی اشاره دارد و چگونه باید آن را نشان دهد.
اما تصاویر مرجعی که هوش مصنوعی از آنها آموزش میبیند عمدتاً دو بعدی هستند و دستها در آنها در موقعیتها و فرمهای مختلف به تصویر کشیده میشوند. مثلاً دست در یک عکس باز است، در عکس دیگر مشت شده، در دیگری علامت پیروزی را نشان میدهد و … . بنابراین، در نهایت هوش مصنوعی واقعاً مفهوم دستها را درک نمیکند، و تصاویری که از آنها یاد میگیرد همیشه دستها را به وضوح یا به اندازه کافی ثابت نشان نمیدهند. به همین دلیل است که دستهای تولید شده توسط میدجرنی میتوانند بسیار زشت باشند و این مسئله ناشی از سردرگمی هوش مصنوعی است.
بنابراین، هر قدر هم که افرادی مانند ایلان ماسک در مورد توسعه شگقتانگیز هوش مصنوعی نگران باشند، کاملاً مشخص است که برخی از بخشهای این فناوری هنوز راه زیادی در پیش دارد و چیزهای زیادی باید یاد بگیرد.
بیشتر بخوانید:
چرا ابزارهای هوش مصنوعی به کندی بهبود مییابند؟
درست است که نسخه پنجم میدجرنی هماهنگی بهتری بین پیامهای متنی و تصاویر تولید شده داشته، و همچنین وضوح بالاتر و ابزارهای اضافی را ارائه میدهد. اما رسیدن به چنین دستاوردهایی اصلاً راحت و ارزان نیست.
آموزش هوش مصنوعی برای انجام بهتر کارها و در این مورد خاص، ترسم واقعی دست مستلزم ارائه تصاویر بهتر به آن، به ویژه در حالت سهبعدی است. این بدان معناست که زمان و نیروی انسانی زیادی صرف فرآیند آموزش میشود. فرآیندی که شامل این موارد میشود: ارائه تصاویر منبع کافی، بهبود کدنویسیها و تکرار چند باره آموزش تا زمانی که هوش مصنوعی آن را به درستی انجام دهد.
حتی پس از طی این مراحل نیز، نرم افزار هوش مصنوعی ممکن است در تولید کارهای هنری خاص و برجسته، اشتباهات زیادی باشد. بنابراین، منطقی نیست که انتظار داشته باشیم که مبدلهای متن به تصویر رایگان مبتنی بر هوش مصنوعی به سرعت بتوانند خود را در حد میدجرنی پیشرفت و بهبود دهند.
به بیان سادهتر، مشکل موتورهای هوش مصنوعی فقط ناتوانی آنها در درک درست ظواهر یا عملکردهای انسانی مانند دستها و پاها نیست. بلکه، تأمین هزینه آموزش و دسترسی به تصاویر مرجع سهبعدی و همچنین تکنیکهای یادگیری ماشین نیز یکی از چالشهای بزرگ بر سر پیشرفت هوش مصنوعی هستند.
ابزارهای هوش مصنوعی بالاخره این مشکل را هم حل خواهند کرد
دستها سوژه بسیار دشوار و پیچیده برای هوش مصنوعی هستند، اما در شرایط فعلی هم راهحلهایی برای آن ارائه شده است. DALL-E 2، میدجرنی 5 و دیگر پلتفرمهای پیشرفته در نهایت توانستهاند، تولید انگشتهای عجیب و غریب در تصاویر خود را به حداقل برسانند، هر چند که هنوز به طور کامل مشکل را برطرف نکردهاند.
بنابراین، پیشرفتها در زمینههای مختلف هوش مصنوعی تضمین میکند که این فناوری دائماً در حال تکامل است و توسعهدهندگان آن همیشه راههای جدیدی برای آموزش دادن و بهبود آن میآموزند.