چرا ابزارهای تولید تصویر هوش مصنوعی با دست انسان مشکل دارند؟!

ابزارهای هوش مصنوعی در مقابل چشمان ما با سرعتی ترسناک در حال تکامل یافتن هستند، اما همچنان نقص‌هایی دارند. مشاهده برخی جزئیات عجیب و غریب در تصاویر تولید شده توسط هوش مصنوعی یکی از این نقص‌هاست که گاهی اوقات می‌تواند بسیار خنده‌دار هم باشد. اما یکی از چیزهایی که انواع مختلف هوش مصنوعی با آن مشکل دارند، شبیه‌سازی و ایجاد تصویری واقعی از دست انسان است! ناتوانی هوش مصنوعی در درک صحیح دست، یکی از سوژه‌های داغ این روزها شده و زیاد در مورد آن صحبت می‌شود.

اما دلیل یک چنین نقص عجیبی چیست و چرا دست‌ها تا این حد برای ابزارهای تولید تصویر مبتنی بر هوش مصنوعی چالش برانگیز هستند؟ در ادامه قصد داریم به بررسی این موضوع بپردازیم. با ما در دیجی رو همراه باشید.

چرا دست‌های تولید شده توسط هوش مصنوعی به هم ریخته‌اند؟

هر کسی که از ابزارهای هوش مصنوعی برای ایجاد تصاویر استفاده کرده، ممکن است متوجه شده باشد که دست‌ها به ندرت درست از آب در می‌آیند. با این حال، شاید کسی زیاد اهمیت نداده بود تا اینکه مجموعه‌ای از «عکس‌ها» در توییتر منتشر و این مشکل را به یک سوژه داغ تبدیل کرد.

با بررسی دقیق‌تر و مشاهده دست‌های عجیب و غریب افراد داخل عکس، به سرعت می‌توان متوجه شد که تصویر مورد نظر توسط هوش مصنوعی تولید شده است. اما هوش مصنوعی هنری میدجرنی (Midjourney) این مشکل را به شکل واضح و غیرقابل انکاری در تصاویر خود دارد که مسئله را جالب‌تر می‌کند.

میدجرنی که یکی از بهترین ابزارهای هوش مصنوعی موجود است، نمی‌توانست با پیچیدگی دست انسان مقابله کند، بنابراین توانایی‌های این ابزار و همتایان آن مورد شک و تردید قرار گرفتند. حتی DALL-E هم نمی‌تواند انگشتان و ناخن‌ها را به شکل واقعی ترسیم کند.

با توجه به تبلیغات وسیعی که در مورد ناتوانی هوش مصنوعی در ترسیم دست انجام شد، توسعه‌دهندگان میدجرنی تلاش کردند تا با عرضه نسخه پنجم این ابزار، ایراد را تا حد ممکن برطرف کنند.

در نسخه جدید سیستم طراحی دست به شکل قابل توجهی بهبود پیدا کرد که نشانگر این بود که مهندسان هوش مصنوعی به این مسئله توجه کرده و تصمیم گرفتند تا قابلیت‌های نرم افزار خود را ارتقا دهند.

با این حال، موتورهای هوش مصنوعی دیگر در پیروی از میدجرنی کمی کند هستند و از همین رو، انجام اصلاحات بر روی تصاویر هوش مصنوعی توسط فتوشاپ همچنان یک مهارت ارزشمند به شمار می‌رود. در واقع، مانع اصلی پیش روی برنامه‌نویسان این است که آموزش دادن هوش مصنوعی برای کشیدن دست‌های طبیعی، فرآیند بسیار پیچیده‌ای است.

چرا ابزارهای تولید تصویر مبتنی بر هوش مصنوعی با دست‌ها مشکل دارند؟!

موتورهای هوش مصنوعی از شبکه‌های متخاصم مولد (GAN) یا Stable Diffusion برای تولید تصاویر استفاده می‌کنند. هر دو فناوری برای ایجاد حتی ابتدایی‌ترین آثار هنری نیز به منابع گسترده، آموزش و قدرت پردازش بالا نیاز دارند.

از آنجایی که تصاویر از قبل موجود، در آموزش هوش مصنوعی نقش اساسی دارند، برنامه نویسان باید هزاران و حتی میلیون‌ها تصویر را به نرم افزار خود وارد کرده و فرآیند پرسش و پاسخ را بارها و بارها تکرار کنند تا زمانی که هوش مصنوعی بفهمد یک کلمه خاص به چه چیزی اشاره دارد و چگونه باید آن را نشان دهد.

اما تصاویر مرجعی که هوش مصنوعی از آن‌ها آموزش می‌بیند عمدتاً دو بعدی هستند و دست‌ها در آن‌ها در موقعیت‌ها و فرم‌های مختلف به تصویر کشیده می‌شوند. مثلاً دست در یک عکس باز است، در عکس دیگر مشت شده، در دیگری علامت پیروزی را نشان می‌دهد و … . بنابراین،‌ در نهایت هوش مصنوعی واقعاً مفهوم دست‌ها را درک نمی‌کند، و تصاویری که از آن‌ها یاد می‌گیرد همیشه دست‌ها را به وضوح یا به اندازه کافی ثابت نشان نمی‌دهند. به همین دلیل است که دست‌های تولید شده توسط میدجرنی می‌توانند بسیار زشت باشند و این مسئله ناشی از سردرگمی هوش مصنوعی است.

بنابراین، هر قدر هم که افرادی مانند ایلان ماسک در مورد توسعه شگقت‌انگیز هوش مصنوعی نگران باشند، کاملاً مشخص است که برخی از بخش‌های این فناوری هنوز راه زیادی در پیش دارد و چیزهای زیادی باید یاد بگیرد.

بیشتر بخوانید:

آموزش خلق تصاویر هنری با هوش مصنوعی بینگ (Bing Image Creator)

چرا ابزارهای هوش مصنوعی به کندی بهبود می‌یابند؟

درست است که نسخه پنجم میدجرنی هماهنگی بهتری بین پیام‌های متنی و تصاویر تولید شده داشته، و همچنین وضوح بالاتر و ابزارهای اضافی را ارائه می‌دهد. اما رسیدن به چنین دستاوردهایی اصلاً راحت و ارزان نیست.

آموزش هوش مصنوعی برای انجام بهتر کارها و در این مورد خاص، ترسم واقعی دست مستلزم ارائه تصاویر بهتر به آن، به ویژه در حالت سه‌بعدی است. این بدان معناست که زمان و نیروی انسانی زیادی صرف فرآیند آموزش می‌شود. فرآیندی که شامل این موارد می‌شود: ارائه تصاویر منبع کافی، بهبود کدنویسی‌ها و تکرار چند باره آموزش تا زمانی که هوش مصنوعی آن را به درستی انجام دهد.

حتی پس از طی این مراحل نیز، نرم افزار هوش مصنوعی ممکن است در تولید کارهای هنری خاص و برجسته، اشتباهات زیادی باشد. بنابراین، منطقی نیست که انتظار داشته باشیم که مبدل‌های متن به تصویر رایگان مبتنی بر هوش مصنوعی به سرعت بتوانند خود را در حد میدجرنی پیشرفت و بهبود دهند.

به بیان ساده‌تر، مشکل موتورهای هوش مصنوعی فقط ناتوانی آن‌ها در درک درست ظواهر یا عملکردهای انسانی مانند دست‌ها و پاها نیست. بلکه، تأمین هزینه آموزش و دسترسی به تصاویر مرجع سه‌بعدی و همچنین تکنیک‌های یادگیری ماشین نیز یکی از چالش‌های بزرگ بر سر پیشرفت هوش مصنوعی هستند.

ابزارهای هوش مصنوعی بالاخره این مشکل را هم حل خواهند کرد

دست‌ها سوژه بسیار دشوار و پیچیده برای هوش مصنوعی هستند، اما در شرایط فعلی هم راه‌حل‌هایی برای آن ارائه شده است. DALL-E 2، میدجرنی 5 و دیگر پلتفرم‌های پیشرفته در نهایت توانسته‌اند، تولید انگشت‌های عجیب و غریب در تصاویر خود را به حداقل برسانند،‌ هر چند که هنوز به طور کامل مشکل را برطرف نکرده‌اند.

بنابراین، پیشرفت‌ها در زمینه‌های مختلف هوش مصنوعی تضمین می‌کند که این فناوری دائماً در حال تکامل است و توسعه‌دهندگان آن همیشه راه‌های جدیدی برای آموزش دادن و بهبود آن می‌آموزند.