「人間の喋り声と見分けつかなくね？」アップル「Siri」の音声合成品質が向上

2017年8月24日 By 中橋義博

Appleが「Siri」の音声合成の品質向上についての論文を自社サイトで公開した。音声合成とは、喋りたい言葉を発話する能力のことである。もちろん喋らせるだけであれば、どんな音声合成ソフトでもいいかもしれない。しかし、それがより自然に聞こえるようにと考えると話は別だ。イントネーションやスピード、間など微妙な違いで、自然に聞こえたり、不自然に聞こえたりする。

ぜひ聴き比べて欲しい

8月6日、Apple Machine Learning Journalに「Deep Learning for Siri’s Voice: On-device Deep Mixture Density Networks for Hybrid Unit Selection Synthesis」という論文が掲載された。ここでは、いかにAI技術を活用してSiriの音声合成の質が向上したかについて、詳細にまとめられている。

目標と連結コストに基づくユニット選択方法の図。

MDNの出力はガウス確率分布の形式のため、ターゲットコストと連結コストのコスト関数として尤度を使用可能。

・・・などなど原文は技術者向けの内容であり、非常に難しい話である。

中でも私たちが注目したいのは、その結果、どの程度音声合成の質が向上したかだ。

この論文の後半で、iOS 9、iOS 10、iOS 11での音声合成サンプルが用意されており、向上の様子を確認できる。

実際にサイトに訪れて、新しいSiriの声を聴き比べて欲しい。表現力の違いを体感できるくらい、質が向上していることがわかる。もはや人間の声との違いがわからないレベルだ。

HomePodの最新情報

蛇足ながら、Apple HomePodのセットアップの様子がリークされたので合わせて紹介しておく。

This is how the HomePod setup will look like on an iPhone. pic.twitter.com/SARqsYslL6

— Guilherme Rambo (@_inside) 2017年8月22日

Apple HomePodのセットアップの動画

国（言語）の選択、シリアル4桁番号入力、Apple ID表示、「使う部屋の設定」などを行うという。使う場所の設定を行うのは新鮮だ。ただのアンケートではないはずであり、使う場所によって提供する何かが変わってくるはずである。

この「HomePod」に搭載される「Siri」には最新の音声合成が使用されるはずであり、音声合成がより自然になったことはユーザーにとっては嬉しいニュースとなった。

僕はこう思った：

日本ではiPhoneユーザー、Apple Musicユーザーの比率が他国に比べて高いこともあり、HomePodとSiriの今後はとても気になりますね。ちょっとぐらい値段が高くても欲しくなってしまうApple製品の魅力がスマートスピーカーにもあるのか、楽しみです。日本語の音声合成の質も向上していくことでしょう。

外部リンク
Apple Machine Learning Journal / Deep Learning for Siri’s Voice: On-device Deep Mixture Density Networks for Hybrid Unit Selection Synthesis

Twitter / Guilherme Rambo‏

関連記事
ロボスタ / Siri

ロボスタ / 音声アシスタント特集

ABOUT THE AUTHOR /

中橋義博

1970年生まれ。中央大学法学部法律学科卒。大学時代、月刊ASCII編集部でテクニカルライターとして働く。大学卒業後、国内生命保険会社本社において約6年間、保険支払業務システムの企画を担当。その後、ヤフー株式会社で約3年間、PCの検索サービス、モバイルディレクトリ検索サービスの立ち上げに携わる。同社退社後、オーバーチュア株式会社にてサービス立ち上げ前から1年半、サーチリスティングのエディトリアル、コンテントマッチ業務を担当する。2004年に世界初のモバイルリスティングを開始したサーチテリア株式会社を創業、同社代表取締役社長に就任。2011年にサーチテリア株式会社をGMOアドパートナーズ株式会社へ売却。GMOサーチテリア株式会社代表取締役社長、GMOモバイル株式会社取締役を歴任。2014年ロボットスタート株式会社を設立し、現在同社代表取締役社長。著書にダイヤモンド社「モバイルSEM―ケータイ・ビジネスの最先端マーケティング手法」がある。