هنوز هم فاصله زیادی بین صحبتهای یک فرد معمولی و ماشینهای تبدیل متن به گفتار وجود دارد و هر کاربر عادی میتواند تفاوت میان آن دو را تشخیص دهد. اما ممکن است در آیندهای نزدیک روباتی عرضه شود که بتواند همانند انسانها صحبت کند. تیم DeepMind گوگل به تازگی هوش مصنوعی جدیدی به نام WaveNet را توسعه دادند که میتواند گفتههای افراد را تقلید کند. این تیم که بر روی ساخت شبکههای عصبی تمرکز دارد چندی قبل نیز توانست با توسعه هوش مصنوعی AlphaGo برترین بازیکن Go جهان را شکست دهد.
در حال حاضر دو روش برای تبدیل متون به گفتار وجود دارد. در روش اول مجموعهای عظیم از کلمات و عبارات گفته شده توسط انسان جمعآوری میشود و سپس ماشین آنها را در کنار هم قرار میدهد. در این روش کنترل لحن صدا بسیار مشکل خواهد بود. در روش دوم کلمات بر اساس آوایی که تولید میکنند توسط ماشین به صدا تبدیل میشوند اما نتیجه این روش بسیار روباتیک و ماشینی خواهد بود.
برای ساخت برنامهای که بتواند همانند انسان متون را به گفتار تبدیل کند تیم DeepMind از صداهای ضبط شده افراد استفاده کرده است. موجهای صوتی گوناگون به صورت خام به شبکه عصبی هوش مصنوعی داده شده است تا بتواند با تغییر آنها صدایی نزدیک به انسان را تولید کند. ابن شبکه عصبی همچنین میتواند موارد بیشتری را نیز تقلید کند. برای مثال تیم توسعه دهنده به آن تعدادی قطعات کلاسیک پیانو ارائه دادند و خود ماشین چندین قطعه جدید را ساخت!
در آزمایشهای انجام شده نمونه صداهای تولید شده توسط هوش مصنوعی گوگل بسیار بیشتر از دیگر برنامهها به گفتار انسان شباهت داشته است. در حال حاضر این پروژه در دو زبان انگلیسی و چینی در حال توسعه است و تیم سازنده آن ادعا دارد میتواند در آینده تا 50 درصد از تفاوت میان گفتار انسان و ماشین بکاهد. میتوانید به برخی از نمونهها در سایت DeepMind دسترسی داشته باشید.