هوش مصنوعی گوگل می‎تواند گفته‎های افراد را تقلید کند

2 دقیقه

هنوز هم فاصله زیادی بین صحبت‎های یک فرد معمولی و ماشین‎های تبدیل متن به گفتار وجود دارد و هر کاربر عادی می‎تواند تفاوت میان آن دو را تشخیص دهد. اما ممکن است در آینده‎ای نزدیک روباتی عرضه شود که بتواند همانند انسان‎ها صحبت کند. تیم DeepMind گوگل به تازگی هوش مصنوعی جدیدی به نام WaveNet را توسعه دادند که می‎تواند گفته‎های افراد را تقلید کند. این تیم که بر روی ساخت شبکه‎های عصبی تمرکز دارد چندی قبل نیز توانست با توسعه هوش مصنوعی AlphaGo برترین بازیکن Go جهان را شکست دهد.

در حال حاضر دو روش برای تبدیل متون به گفتار وجود دارد. در روش اول مجموعه‎ای عظیم از کلمات و عبارات گفته شده توسط انسان جمع‎آوری می‎شود و سپس ماشین آن‎ها را در کنار هم قرار می‎دهد. در این روش کنترل لحن صدا بسیار مشکل خواهد بود. در روش دوم کلمات بر اساس آوایی که تولید می‎کنند توسط ماشین به صدا تبدیل می‎شوند اما نتیجه این روش بسیار روباتیک و ماشینی خواهد بود.

برای ساخت برنامه‎ای که بتواند همانند انسان متون را به گفتار تبدیل کند تیم DeepMind از صداهای ضبط شده افراد استفاده کرده است. موج‎های صوتی گوناگون به صورت خام به شبکه عصبی هوش مصنوعی داده شده است تا بتواند با تغییر آن‎ها صدایی نزدیک به انسان را تولید کند. ابن شبکه عصبی هم‎چنین می‎تواند موارد بیشتری را نیز تقلید کند. برای مثال تیم توسعه دهنده به آن تعدادی قطعات کلاسیک پیانو ارائه دادند و خود ماشین چندین قطعه جدید را ساخت!

در آزمایش‎های انجام شده نمونه صداهای تولید شده توسط هوش مصنوعی گوگل بسیار بیشتر از دیگر برنامه‎ها به گفتار انسان شباهت داشته است. در حال حاضر این پروژه در دو زبان انگلیسی و چینی در حال توسعه است و تیم سازنده آن ادعا دارد می‎تواند در آینده تا 50 درصد از تفاوت میان گفتار انسان و ماشین بکاهد. می‎توانید به برخی از نمونه‎ها در سایت DeepMind دسترسی داشته باشید.