به گزارش روزپلاس، دیپمایند یک شرکت تابعه گوگل و متخصص در هوش مصنوعی، برنامه سنتز گفتار (فناوری تبدیل متن و سیگنالهای صوتی به گفتار) را طوری توسعه داده که بازتولید گفتار انسان با طبیعتی منحصر به فرد امکانپذیر باشد. این شرکت برنامهای را به نام ویونت «WaveNet»توسعه داده که سیستمی است که به طور قابل توجهی نسبت به فناوریهای سنتز گفتار یا سخنرانی که تاکنون تولید شدهاند بسیار کارآمدتر و طبیعیتر است.
ویونت برنامهای جدید با قابلیت تقلید گفتار انسان با راندمانی 50درصد بالاتر از فناوریهای موجود در این زمینه است. این سیستم مبتنی بر یادگیری و بازسازی امواج صوتی تولید کننده صدای انسان است. در آزمایشی که برروی چند نابینا انجام شد، ارزیابی شد که ویونت درخصوص راهحلهای سنتز گفتار همچنین در الحاق و تسلسل زنجیرهوار اصوات و سیگنالهای صوتی به وسیله مدلسازی پارامتری که امروزه رایجترین شیوه است، بسیار پیشرفتهتر است.
سنتز گفتار به شیوه الحاقی (که همان کنار هم قرار دادن امواج صوتی تولید شده در طول واحدی صحیح است)، تاکنون توسط دستیاران مجازی همچون «سیری»، «کورتانا» و دیگر دستیارهای گوگل بر روی گوشیهای هوشمند نصب میشدند و ازپیش وجود داشتند. شاید هم دستیار شخصی اپل «سیری در آیآواس10» بسیار هوشمندتر عمل کند؛ اما همچنان صدایی شبیه کامپیوتر خواهد داشت. اما در مقایسه ویونت، از ضبط سیگنالهای صوتی با توالیهای بسیار کوتاه از منشأ صدایی انسانی حاصل میشود که برای شکل دادن به جملات با هم ترکیب میشوند. در نتیجه کاملا طبیعی و صدایش مانند انسان به نظر میرسد؛ اما مشکل موجود برای اجرای این پروژه آن است که هرگونه تغییر سیستمی نیاز به ضبط توالیهای جدید و بسیار دقیق دارد.
گوگل به صدا گوش میدهد و تقلید میکند.
در واقع سنتز گفتار توسط مدلسازی پارامتری بر تولید یک صدای مصنوعی توسط یک کامپیوتر بر اساس قواعد گرامری و تلفظی تأکید دارد. مزیتش این است که نیازی به یک منبع انسانی ندارد. اما نتیجه آن تولید صدایی غیرطبیعی مانند آنچه که از یک روبات میشنویم میباشد.
در مقایسه ویونت با استفاده از منشأ صدایی انسانی به عنوان یک مرجع عمل میکند و هوش مصنوعی با استفاده از عصاره امواج صوتی به عنوان یک الگو در ایجاد صداهای مختلف عمل میکند. هوش مصنوعی در این روند با گوش دادن و سپس تقلید کردن، امواج صوتی را تولید میکند. فناوری این شاخه از گوگل، بر اساس شبکههای عصبی بنیانگذاری شده است؛ یعنی همان فناوری که همه جا حضور دارد؛ از اتومبیلهای خودران گرفته تا تشخیص بیماری و غیره. مزیت ویونت آن است که تنها به تقلید برخی از صداهای خاص محدود نشده است؛ بنابراین میتوان انتظار داشت که انواع موسیقی را هم تقلید کند و حتی پیانو بنوازد.
به هر حال اجرایی شدن ویونت نیاز به یک توان رایانشی و قدرت محاسباتی بیش از حد دقیق دارد؛ اما میتوان اطمینان داشت که بهرهبرداری گوگل از این فناوری چندان دور نخواهد بود.
منبع: ایران آنلاین