گوگل به زودی با ما هم صحبت می شود!

به‌زودی آن روز خواهد رسید که شما می‌توانید با یک روبات تلفنی مکالمه کنید بدون آنکه حتی متوجه شوید. به همین دلیل نگاهی اجمالی به آخرین نوآوری شرکت بریتانیایی دیپ‌مایند می‌اندازیم. پس از شسکت قهرمان جهانی بازی GO«لی‌سدول» به برنامه هوش مصنوعی (آلفاگو-AlphaGo) این بار این شرکت تابعه گوگل به برنامه ترکیب اصوات و سیگنال‌ها یا سنتز گفتار هجوم آورده است.

کد خبر: ۸۶۲۱

به گزارش روزپلاس، دیپ‌مایند یک شرکت تابعه گوگل و متخصص در هوش مصنوعی، برنامه سنتز گفتار (فناوری تبدیل متن و سیگنال‌های صوتی به گفتار) را طوری توسعه داده که بازتولید گفتار انسان با طبیعتی منحصر به فرد امکان‌پذیر باشد. این شرکت برنامه‌ای را به نام ویونت «WaveNet»توسعه داده که سیستمی است که به طور قابل توجهی نسبت به فناوری‌های سنتز گفتار یا سخنرانی که تاکنون تولید شده‌اند بسیار کارآمدتر و طبیعی‌تر است.

ویونت برنامه‌ای جدید با قابلیت تقلید گفتار انسان با راندمانی 50درصد بالاتر از فناوری‌های موجود در این زمینه است. این سیستم مبتنی بر یادگیری و بازسازی امواج صوتی تولید کننده صدای انسان است. در آزمایشی که برروی چند نابینا انجام شد، ارزیابی شد که ویونت درخصوص راه‌حل‌های سنتز گفتار همچنین در الحاق و تسلسل زنجیره‌وار اصوات و سیگنال‌های صوتی به وسیله مدلسازی پارامتری که امروزه رایج‌ترین شیوه است، بسیار پیشرفته‌تر است.

سنتز گفتار به شیوه الحاقی (که همان کنار هم قرار دادن امواج صوتی تولید شده در طول واحدی صحیح است)، تاکنون توسط دستیاران مجازی همچون «سیری»، «کورتانا» و دیگر دستیارهای گوگل بر روی گوشی‌های هوشمند نصب می‌شدند و ازپیش وجود داشتند. شاید هم دستیار شخصی اپل «سیری در آی‌آو‌اس10» بسیار هوشمندتر عمل کند؛ اما همچنان صدایی شبیه کامپیوتر خواهد داشت. اما در مقایسه ویو‌نت، از ضبط سیگنال‌های صوتی با توالی‌های بسیار کوتاه از منشأ صدایی انسانی حاصل می‌شود که برای شکل دادن به جملات با هم ترکیب می‌شوند. در نتیجه کاملا طبیعی و صدایش مانند انسان به نظر می‌رسد؛ اما مشکل موجود برای اجرای این پروژه آن است که هرگونه تغییر سیستمی نیاز به ضبط توالی‌های جدید و بسیار دقیق دارد.

گوگل به صدا گوش می‌دهد و تقلید می‌کند.

در واقع سنتز گفتار توسط مدل‌سازی پارامتری بر تولید یک صدای مصنوعی توسط یک کامپیوتر بر اساس قواعد گرامری و تلفظی تأکید دارد. مزیتش این است که نیازی به یک منبع انسانی ندارد. اما نتیجه آن تولید صدایی غیرطبیعی مانند آنچه که از یک روبات می‌شنویم می‌باشد.

در مقایسه ویونت با استفاده از منشأ صدایی انسانی به عنوان یک مرجع عمل می‌کند و هوش مصنوعی با استفاده از عصاره امواج صوتی به عنوان یک الگو در ایجاد صداهای مختلف عمل می‌کند. هوش مصنوعی در این روند با گوش دادن و سپس تقلید کردن، امواج صوتی را تولید می‌کند. فناوری این شاخه از گوگل، بر اساس شبکه‌های عصبی بنیانگذاری شده است؛ یعنی همان فناوری که همه جا حضور دارد؛ از اتومبیل‌های خودران گرفته تا تشخیص بیماری و غیره. مزیت ویو‌نت آن است که تنها به تقلید برخی از صداهای خاص محدود نشده است؛ بنابراین می‌توان انتظار داشت که انواع موسیقی را هم تقلید کند و حتی پیانو بنوازد.

به هر حال اجرایی شدن ویونت نیاز به یک توان رایانشی و قدرت محاسباتی بیش از حد دقیق دارد؛ اما می‌توان اطمینان داشت که بهره‌برداری گوگل از این فناوری چندان دور نخواهد بود.

منبع: ایران آنلاین

گزارش خطا

پسندها:

اشتراک گذاری

فیسبوک سروش واتس‌اپ لینکدین توییتر تلگرام