Google Assistant、DeepMind開発「WaveNet」の音声合成を採用!
AI音声アシスタントがテキストから音声に変換して「発話する」仕組みを「音声合成」と呼んでいるが、この領域の進化も目覚ましいものがある。
以前、「「人間の喋り声と見分けつかなくね?」 アップル「Siri」の音声合成品質が向上」でApple Siriの音声合成の改善について紹介したが、今回は、Google傘下のDeepMindが開発した音声合成技術について紹介する。
DeepMindのWaveNet
DeepMindブログにて、新しい音声合成システムのWaveNetが、最新版のGoogle Assistantに搭載されると発表された。
WaveNetとは、今までの技術にくらべてよりリアルで鮮明な音声を生成するため、新しい深層ニューラルネットワークを使った音声合成のシステム。開発当初はこの処理に時間がかかっており実用的ではなかったが、1年間かけてシステムを大幅に高速化・高品質化させたという。これにより実用できるようになり、英語・日本語のGoogle Assistantの音声に実装されたという発表につながったわけだ。
初期のプロトタイプに比べて1,000倍高速化された。結果、1秒のスピーチを作成するにわずか50ミリ秒しかからないという。
WaveNetのサンプル音声を聴いてみよう
英語、日本語それぞれWaveNetではないもの、WaveNetによるものを聴き比べてみればその差は誰もがわかるはずだ。
英語
WaveNetによる音声合成
日本語
WaveNetによる音声合成
僕はこう思った:
日本語版Google Homeを使うのが楽しみになりますね!
ABOUT THE AUTHOR /
中橋 義博1970年生まれ。中央大学法学部法律学科卒。大学時代、月刊ASCII編集部でテクニカルライターとして働く。大学卒業後、国内生命保険会社本社において約6年間、保険支払業務システムの企画を担当。その後、ヤフー株式会社で約3年間、PCの検索サービス、モバイルディレクトリ検索サービスの立ち上げに携わる。同社退社後、オーバーチュア株式会社にてサービス立ち上げ前から1年半、サーチリスティングのエディトリアル、コンテントマッチ業務を担当する。2004年に世界初のモバイルリスティングを開始したサーチテリア株式会社を創業、同社代表取締役社長に就任。2011年にサーチテリア株式会社をGMOアドパートナーズ株式会社へ売却。GMOサーチテリア株式会社代表取締役社長、GMOモバイル株式会社取締役を歴任。2014年ロボットスタート株式会社を設立し、現在同社代表取締役社長。著書にダイヤモンド社「モバイルSEM―ケータイ・ビジネスの最先端マーケティング手法」がある。