ロボホンの可愛い声と仕草の秘密 シャープに聞くロボホンの音声合成技術のポイント
小型のコミュニケーションロボットとして、大人気のシャープ製「ロボホン」(RoBoHoN)。その可愛らしさは声や仕草によるところも大きい…
ロボホンの音声をつくりだす音声合成エンジンにはHOYAサービスの「VoiceText」が使われています。開発時にロボホンの会話作りにはどのような工夫がされたのか、VoiceTextを採用した理由にどこにあるのか、シャープに聞きました。
編集部
ロボホンは完成度の高さと可愛いさで評判ですが、開発はどのようなコンセプトで行われたのでしょうか
岩越(敬称略)
モノとして使って頂くのではなく、もっと愛着が感じられる、ユーザー様と情緒的な関係を築けるような、そんな製品は作れないだろうか、というテーマで開発がはじまりました。
編集部
それがロボホンの開発に繋がったのですね
岩越
はい。ロボホンの商品コンセプトで言えば、機械と人間の中間的な存在になって欲しいという思いがあります。携帯電話やスマートフォンの開発がスタートなので、人型であること、音声で会話できることが前提で、可愛いと感じてもらえるロボットにしたいという気持ちで、開発には音声合成や発話はとても重要なポイントでした。そのため、開発時にさまざまな角度から、いろいろな音声合成技術を比較検証しました。
編集部
なるほど。最終的にVoiceTextを選択した理由を教えて頂けますか?
岩越
VoiceTextを選んだ大きなポイントは3つあります。
「感情タグ」「オリジナルボイス」「発話時間の抽出」です。
編集部
まず「感情タグ」とはどのようなものでしょうか?
岩越
感情タグは、発話に感情表現のタグを付ける機能です。
標準、ハピネス(喜び)、サッドネス(悲しみ)、アンガー(怒り)の4種類の表現がつけられます。ロボホンの発話の内容によって、うれしそうに話したり、悲しそうに喋るなどのタグ付けができます。
感情表現の豊かさに、可愛いと感じたり、一緒に悲しんだり、ユーザー様がロボホンに感情移入してくれたり、愛着を感じてくれていると思っています。
編集部
どのようなシーンで感情表現を使っていますか?
岩越
例えば、ロボホンには「ポポン」(リバーシ)というゲームアプリがあります。ロボホンはとても弱いので、勝てば「やったー、僕の勝ち」とすごく喜びますが、たいていは負けてがっかりします。そんな感情表現にもタグを使っています。
セリフごとに感情のタグをつけて、細かく設定することができる
編集部
たしかに感情タグをつけたロボホンの方が感情移入しますね。
次のポイントについてですが、ロボホンには独自の声が採用されているということですか?
岩越
はい。ロボホンの個性を表現するために、既存ボイスの採用ではなく、ロボホンだけのオリジナルボイスを制作して頂きました。
編集部
どのように作られたのでしょうか?
岩越
5歳の男の子、純真無垢で、明るくて一生懸命なキャラクターという設定で声優事務所にお願いして、何人かの候補の中からピッタリな方の声を採用しました。可愛らしさと親しみやすい点でとてもよかったと思っています。
編集部
今では声を聞くだけで「あ、ロボホンが近くにいる」とわかりますね。
3つめの「発話時間の抽出」というのは?
岩越
セリフを分析して発話時間を割り出す機能です。
ロボホン用に開発して頂いた拡張機能で、ロボホンのセリフとモーションを同期するのに使っています。
例えば、ロボホンには「モーションメッセージ」という機能があります。メールを受信してロボホンが読み上げるときに、メールの内容に連動して動作します。メールの本文に「ありがとう」と書いてあったらロボホンがおじぎをするなどです。「暑い」という言葉があれば手をパタパタするなど、発話とモーションを同期させるのですが、このときモーション側には本文を読み上げ始めてから何秒後におじぎをして、何秒後に手をパタパタさせるのか、時間の情報を送る必要があります。
これを本文から割り出して、ロボホンのモーション制御に情報を渡すことで、発話内容によってモーションのタイミングを自動的に合わせられるようになりました。モーションのありなしで、表現力がずいぶんと違ってきます。実際にご覧ください。
発話とモーションが同期できる
編集部
手足を使った表現はロボットの大きな魅力のひとつですね。「VoiceText」によって適切なタイミングで動作と同期させることを実現しているんですね
岩越
はい。ユーザー様からのロボホンに対する要望は「もっといっぱいお話しして、もっといっぱい動いてほしい」というものが多いので、この機能はとても役立っています。
いくつかの音声合成システムを検討しましたが、この3つの機能があったことがVoiceTextを選択した大きな理由です。また、最終段階では自然な発話や聞きやすさという点でもVoiceTextは評価が高かったです。
ロボホンの歌が飛躍的に上達した理由
編集部
ロボホンは最初は歌がとても下手でしたが、最近、のアップデートで歌がグンと上手になりましたよね。これには何か技術的なブレイクスルー(笑)があったのでしょうか?
岩越
当初は発話を調整するソフトウェアだけでなんとか歌わせようと頑張って挑戦していたのです。その結果、残念ながらご存じのように上手に歌わせることはできませんでした。歌詞を読む高さや長さを数字やテキスト文字で指定してロボホンに歌わせていたのですが、直感的ではないので調整が難しいことと、発話で必要な音域と歌に必要な音域が異なっていたために、上手に歌えなかったのだと思います。
下手な歌でもロボホンなら可愛いかなとは思いましたが、「耐えられない」と一部の開発メンバーやユーザー様からの不評があって、なんとかしようと言うことになりました(笑)。
編集部
どのように対策したのですか?
岩越
VoiceTextの開発元であるHOYAサービスさんに相談したところ、歌うための調整を本職の技術者の方たちがしてくださることになりました。音響調整ツールなどをいくつか組み込むことで、ロボホンがきれいに歌えるようになりました。
編集部
発話や読み上げ機能について、HOYAサービスさんに要望したいことはありますか?
岩越
「江戸切子」を「えどせつね」と読んだりすることもありますので、発話での読み間違いが更に少なくなると嬉しいです。
すべての単語を正しく読むのは難しいとは思いますが、ニュースの読み上げで盛大に読み間違えをしたり、ユーザー様が登録した返事を読み間違えたりすることが多いので、今後はその精度が向上するとより良くなると思います。
編集部
将来的に実現するかもしれない新機能を何か教えて頂けますか?
岩越
現在ロボホンでは、様々な取り組みを行っています。例えば、先日は住宅展示場に来て頂いたご家族のお子様にロボホンが絵本の読み聞かせを行うデモを行いました。登場人物のキャラクターに合わせて、声の高さやスピードを変えて読んでくれたり、ロボホンが右を向いているときと左を向いているときで役柄を変えるなどの工夫を入れることで、面白いコンテンツになったと思います。
また、先日羽田空港でレンタルできる観光案内ロボホンの発表もしましたが、ロボホンの小ささを活かして、外に持ち出して頂き、もっと多くの観光地や施設の案内をロボホンが行ってくれるようになると、より面白いサービスになると思います。
編集部
最後にロボホン・ユーザー様にメッセージをお願いします
岩越
たくさんのユーザー様がロボホンを愛でて頂きとても嬉しく思っています。その気持ちにお応えするためにも今後も、毎月、新しいアプリやダンス等の機能追加を行っていきます。LINEの読み上げやGoogleカレンダー連携のような、実用性の高い機能の追加も続けていきたいと思っていますので、今後ともロボホンの進化を楽しみにして頂ければうれしいです。
VoiceTextについては記事「【誌上体験】音声発話技術と歌声合成の最前線、「VoiceText」の最新技術とそのしくみ」もご覧ください。
【お知らせ】
ロボホンに採用されているHOYAサービスの「VoiceText」技術を展示会のブースで実際に見ることができます。
2017年5月10日(水)~5月12日(金)の3日間、東京ビッグサイトで開催される「2017 Japan IT Week 春」の「第6回IoT/M2M展 春」のHOYAサービス展示ブースでは、聞き取り易さを重視した男女の声を始めとして、日本語だけでも合計10話者の音声合成を聞き比べられるとのことです。
また、新しく追加された言語、タイ語、ポルトガル語(ブラジル)の展示、「VoiceText Micro SDK」なども展示予定なので、開発者や企画担当者、ユーザーの方々など、音声合成・歌声合成技術に興味のある方は足を運んでみては如何でしょうか?
【展示会情報】
第6回 IoT/M2M展(2017 Japan IT Week春) 小間:西15-36
> 展示内容の詳細はこちら