Google Assistant、DeepMind開発「WaveNet」の音声合成を採用!

AI音声アシスタントがテキストから音声に変換して「発話する」仕組みを「音声合成」と呼んでいるが、この領域の進化も目覚ましいものがある。

以前、「「人間の喋り声と見分けつかなくね?」 アップル「Siri」の音声合成品質が向上」でApple Siriの音声合成の改善について紹介したが、今回は、Google傘下のDeepMindが開発した音声合成技術について紹介する。




DeepMindのWaveNet

DeepMindブログにて、新しい音声合成システムのWaveNetが、最新版のGoogle Assistantに搭載されると発表された。





WaveNetとは、今までの技術にくらべてよりリアルで鮮明な音声を生成するため、新しい深層ニューラルネットワークを使った音声合成のシステム。開発当初はこの処理に時間がかかっており実用的ではなかったが、1年間かけてシステムを大幅に高速化・高品質化させたという。これにより実用できるようになり、英語・日本語のGoogle Assistantの音声に実装されたという発表につながったわけだ。





初期のプロトタイプに比べて1,000倍高速化された。結果、1秒のスピーチを作成するにわずか50ミリ秒しかからないという。




WaveNetのサンプル音声を聴いてみよう

英語、日本語それぞれWaveNetではないもの、WaveNetによるものを聴き比べてみればその差は誰もがわかるはずだ。



英語
 WaveNetではない音声合成

  

 WaveNetによる音声合成

  



日本語
 WaveNetではない音声合成

  

 WaveNetによる音声合成

  


僕はこう思った:

日本語版Google Homeを使うのが楽しみになりますね!




ABOUT THE AUTHOR / 

中橋 義博

1970年生まれ。中央大学法学部法律学科卒。大学時代、月刊ASCII編集部でテクニカルライターとして働く。大学卒業後、国内生命保険会社本社において約6年間、保険支払業務システムの企画を担当。その後、ヤフー株式会社で約3年間、PCの検索サービス、モバイルディレクトリ検索サービスの立ち上げに携わる。同社退社後、オーバーチュア株式会社にてサービス立ち上げ前から1年半、サーチリスティングのエディトリアル、コンテントマッチ業務を担当する。2004年に世界初のモバイルリスティングを開始したサーチテリア株式会社を創業、同社代表取締役社長に就任。2011年にサーチテリア株式会社をGMOアドパートナーズ株式会社へ売却。GMOサーチテリア株式会社代表取締役社長、GMOモバイル株式会社取締役を歴任。2014年ロボットスタート株式会社を設立し、現在同社代表取締役社長。著書にダイヤモンド社「モバイルSEM―ケータイ・ビジネスの最先端マーケティング手法」がある。

PR

連載・コラム