【誌上体験】音声発話技術と歌声合成の最前線、「VoiceText」の最新技術とそのしくみ
テキスト文字から音声を作りだして発話する技術「音声合成」(Text To Speech)の市場が急成長しています。
駅や空港等の構内放送、防災放送、コールセンターの自動応答など、私達は機械が話す言葉を実はとても身近なところで頻繁に耳にしています。天気や気象情報、金融、交通・渋滞情報など、刻々と変わる状況を音声で伝えるシーンでも多用されています。もちろんロボットの発話にも使われている重要な技術です。
例えば、この放送も機械が発話しています。
HOYAサービスは1,300社以上の導入実績を持つ、音声合成技術のトップランナーです。音声合成だけでなく歌声合成の開発も着手していて、両方の技術に長けている企業はあまり類を見ません。
今回は、同社にお伺いして音声技術の最前線を聞きました。
HOYAサービスの音声合成技術「VoiceText」は、多くの分野で活用されています。例えばロボットでは、シャープの「ロボホン」や講談社の「ATOM」、ユカイ工学の「BOCCO」、宇宙に行ったロボット「KIROBO」、大阪大学 石黒研究室が開発したヒューマノイドロボット「ERICA」などでも使われています。
編集部
「VoiceText」はどのようなシーンで活用されていますか?
HOYA
構内放送や防災放送、ロボットのほかにも、動画マニュアル、スマートフォンやパソコンのアプリケーション、映像コンテンツやeラーニング等のナレーション、目の不自由な方向けにホームページの画面などを読み上げるスクリーンリーダーなど、音声を発するものであればどんなシーンでも幅広く利用されています。また、ワープロソフトの「一太郎」では入力した文章を校正用に読み上げる機能として活用されています。
珍しいところではテレビ東京様の「モヤモヤさまぁ〜ず2」のナレーションもVoiceTextが担当しています。この場合は、番組のテイストに合わせて、むしろ機械っぽい発話でナレーションを展開していますが、最近の音声ガイダンスや情報提供では機械っぽさを感じない例も多数あります。
編集部
VoiceTextは音声を作って話す技術だと思いますが、どのような特徴がありますか?
HOYA
VoiceTextの最も大きな特長は「肉声感」と「豊かな感情」です。滑らかに、明瞭に、自然な肉声に近い声で発話できることが特徴です。
例えば、感情の豊かさでは、同じセリフの発話でもこのように感情の変化をつけることができます。
編集部
感情による表現の違いは明らかですね。機械に言われているのに、こちらもうれしくなってきますね(笑)
音声合成の技術にはいくつかの方式や種類があるんですか?
HOYA
現在よく利用されている音声合成の技術としては「波形接続型」と「HMM型」の2種類があります。波形接続型は人間の声に近くて自然です。HMM型は開発がしやすく、感情表現が豊かなことが利点です。
「波形接続型」(VoiceText)と「HMM型」(VoiceText Micro)
VoiceTextは、現在主流となっている「波形接続型」(VoiceText)と「HMM型」(VoiceText Micro)の両方を製品化し、用途に合わせてサービス提供されています。どちらも録音した人間の音声を素にしていますが、その音声をそのままつなぎ合わせて発話する方法と、機械が計算によって音声を作り出し発話するという大きな違いがあります。
まずは聞き比べてみてください。
波形接続型
HMM型
聞き比べると違いがわかりますよね。
では、次に技術的な違い、それぞれのメリットと課題を見てみましょう。
波形接続型のメリットと課題
波形接続型は読んで字のごとく、実際の音声の波形をつなぎ合わせて発話をする技術です。ただ、単に単語や文字ごとにつなぎ合わせただけでは人はとても違和感を感じるので、膨大な音声データベースの中から違和感を感じないものを瞬時につなぎ合わせるアルゴリズムが技術のポイントになります。うまく繋がればまさに人が話しているのと変わりがない「自然感・肉声感」のある発話が実現します。
課題としては、素となる音声データが膨大に必要なため収録が長期間になることと、淡々としたしゃべり方になりがちな点が挙げられます。
このような理由からオリジナルの「波形接続型」の音声合成器を作るためには時間とコストがかかります。また、音声データの容量も大きくなりがちです。
HMM型のメリットと課題
HMM型では、まず録音した音声データから人間のしゃべり方・声質といった特徴を機械に学習させます。合成時には人間のしゃべり方・声質を模倣するように計算して音声を作ります。
素になる音声は波形接続型と同様に録音しますが、必要な音声データはずっと少なく済むのが特徴です。
また計算して声を作るため、柔軟性が高く、様々な応用が可能です。例えば、先ほどの「本当にうれしい!」の感情表現もHMM型の特徴の一つで、その他の感情表現や発話スタイルなどにも応用ができます。
こうしたことから現在のオリジナルの音声合成器を作る際の主流はHMM型で、ロボットでもほとんどの製品でこちらが採用されています。
編集部
HMM型音声合成「VoiceText Micro」のしくみがわかりました。特徴をまとめて教えて頂けますか
HOYA
VoiceText Microの音声合成の特徴は大きく3つあります。
「豊かな感情音声表現」「様々な個性のキャラクターボイス」「ひとつだけのオリジナルボイス」です。
「感情表現」は「普通」「喜び」「悲しみ」「怒り」の4パターンで、4段階の強弱が設定できます。
次の様々な個性のキャラクターボイスについてですが、お爺さん、お婆さん、女の子、猫や熊、ロボット、マルチリンガルなど、様々なキャラクターに合わせて音声を用意しています。
小さな女の子
「音声合成の声優事務所」というキャラクターボイスを体験して頂けるホームページを用意していますので、ぜひ視聴して体感してください(リンクは次ページ)。
3つめの「ひとつだけのオリジナルボイス」は、お客様ご指定のナレーター・声優からオリジナルの音声合成器を作成するサービスです。個性的なキャラクター作りにとても役立ちます。ロボットでは特に声の個性は重要とされていますね。
編集部
音声合成技術以外にも特徴はありますか?
HOYA
多言語対応も特徴のひとつです。11種類の言語に対応していて、すべての言語をHOYAグループ内で開発しています。今後30種類以上の言語に対応予定です。
英語もアメリカ英語、イギリス英語など数種類に対応します。それぞれの言語はネイティブ・スピーカーの録音した音声データを素に生成が行われています。
マルチリンガルの方の声を録音すれば、ロボットが同じ声でマルチリンガルで発話するといったこともできます。
編集部
開発中の新しい技術もご紹介頂けますか?
HOYA
「歌声合成」「方言」「話し言葉」等を目標に開発中です。まず「歌声合成」を聞いてみてください。