Google、まるで人間のような自然な音声合成を実現する技術「Tacotron 2」を発表

2017年12月20日 By 中橋義博

AI音声アシスタントがテキストから音声に変換して「発話する」仕組みを「音声合成」と呼んでいるが、この領域に新しい技術がまた一つ登場した。

今回は、Googleが自社ブログにて発表した、まるで人間のような自然な音声合成を実現する技術「Tacotron 2」を紹介する。

Tacotron 2とは？

外部リンク
Google Research Blog / Tacotron 2: Generating Human-like Speech from Text

もともとGoogleが使っていたTacotronやWaveNetなどの技術と取り入れつつ、新しいシステム「Tacotron 2」を完成させたという。

いままでのアプローチと異なる点は、複雑な言語機能や音響機能を入力として使用せず、スピーチ例とそれに対応するテキストだけを使ってニューラルネットワークを訓練することにある。

詳しいことは論文を参照いただくとして、ここでは以下音声サンプルでそのリアルさを体感してみてほしい。

音声合成サンプル

Tacotron 2を使って生成された、さまざまなバリエーションのサンプル音声集は以下で公開されている。

外部リンク
Audio samples from “Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions”

サンプルの中で興味深いのは、人間とTacotron 2が同じ文章を読み上げたサンプルだ。聴き比べて、どちらが人間で、どちらがTacotron 2かわかるだろうか？

“That girl did a video about Star Wars lipstick.”

1
2

“She earned a doctorate in sociology at Columbia University.”

1
2

“George Washington was the first President of the United States.”

1
2

“I’m too busy for romance.”

1
2

もはや普通に聴き比べても区別はつかないレベルにあるといってもいいのではないだろうか。

僕はこう思った：

これらの技術がいずれ日本語Google Assistantに搭載されるのが楽しみですね。

関連記事（スマートスピーカー / AIスピーカー関連）
ロボスタ / Google Assistant

ロボスタ / Google Home

ロボスタ / 音声アシスタント特集

関連Facebookコミュニティ
Google Home fan club japan

ABOUT THE AUTHOR /

中橋義博

1970年生まれ。中央大学法学部法律学科卒。大学時代、月刊ASCII編集部でテクニカルライターとして働く。大学卒業後、国内生命保険会社本社において約6年間、保険支払業務システムの企画を担当。その後、ヤフー株式会社で約3年間、PCの検索サービス、モバイルディレクトリ検索サービスの立ち上げに携わる。同社退社後、オーバーチュア株式会社にてサービス立ち上げ前から1年半、サーチリスティングのエディトリアル、コンテントマッチ業務を担当する。2004年に世界初のモバイルリスティングを開始したサーチテリア株式会社を創業、同社代表取締役社長に就任。2011年にサーチテリア株式会社をGMOアドパートナーズ株式会社へ売却。GMOサーチテリア株式会社代表取締役社長、GMOモバイル株式会社取締役を歴任。2014年ロボットスタート株式会社を設立し、現在同社代表取締役社長。著書にダイヤモンド社「モバイルSEM―ケータイ・ビジネスの最先端マーケティング手法」がある。