【米国】アレクサの音声合成がコンテンツに合わせてより自然に。ニュースはニュースキャスターのように読み上げる。

2019年1月17日 By 中橋義博

2019年1月16日、Amazon公式ブログでAlexaの最新の音声合成システム「Neural text-to-speech (NTTS)」の音声サンプルと既存の「text-to-speech (TTS)」の音声サンプルの比較が紹介された。

ディープニューラルネットワークにより、イントネーションの改善、文中の正しい単語の強調、セグメント品質向上など技術的に音声合成の精度が上がっただけではなく、コンテンツの内容に応じて発話のスタイルを変えて、より自然な声を実現しているのが最大のポイントだ。

ニュース読み上げ

ニュースを読み上げるときにはニュースキャスターのような読み上げ方になる。どちらも同じ原稿を読み上げているものだが、SoundCloud上の波形の見た目も違うし、NTTSの方がよりニュースとして聞き取りやすい。ネイティブでなくても聞けばその違いは明らかだろう。

TTS：現在のAlexaの声

NTTS：新しいAlexaのニュースキャスターの声

Wikipedia読み上げ

WIkipediaの読み上げの場合はニュートラルな読み上げ方になる。こちらもNTTSのほうがメリハリがあって聞きやすい。

TTS：現在のAlexaの声

NTTS：新しいAlexaのニュートラルの声

日本語の読み上げもいずれこの技術が取り入れられることを期待したい。

Source：The Amazon Blog – day one

Amazon Echo fan club japan

ABOUT THE AUTHOR /

中橋義博

1970年生まれ。中央大学法学部法律学科卒。大学時代、月刊ASCII編集部でテクニカルライターとして働く。大学卒業後、国内生命保険会社本社において約6年間、保険支払業務システムの企画を担当。その後、ヤフー株式会社で約3年間、PCの検索サービス、モバイルディレクトリ検索サービスの立ち上げに携わる。同社退社後、オーバーチュア株式会社にてサービス立ち上げ前から1年半、サーチリスティングのエディトリアル、コンテントマッチ業務を担当する。2004年に世界初のモバイルリスティングを開始したサーチテリア株式会社を創業、同社代表取締役社長に就任。2011年にサーチテリア株式会社をGMOアドパートナーズ株式会社へ売却。GMOサーチテリア株式会社代表取締役社長、GMOモバイル株式会社取締役を歴任。2014年ロボットスタート株式会社を設立し、現在同社代表取締役社長。著書にダイヤモンド社「モバイルSEM―ケータイ・ビジネスの最先端マーケティング手法」がある。