マイクロソフト研究者による、周りに聞かれずに音声入力可能なシステム「サイレントボイス」がすごい

2018年10月17日、Microsoft Researchの福本雅朗氏がサイレントボイスについての論文「SilentVoice: Unnoticeable Voice Input by Ingressive Speech」を発表した。



サイレントボイスは、周りに音が聞かれずに音声認識による音声制御を可能にするコンセプト。息を吐き出しながら発話する(Egressive speech)のが通常だが、息を吸いながら発話する(Ingressive speech)を使うことで実現するというもの。

これにより、例えば満員電車で声を出しにくい状況での音声制御、静かな図書館での音声制御といった今まで音声が使いにくい場所での利用ができるようになる。



通常の発話、小声によりささやき、サイレントボイスを比較すると音の漏れは圧倒的にサイレン度ボイスは少ない。このぐらい音量が少ないと周りの雑音とほど同じレベルなので、結果的にほぼ周りの人には聞こえない状態になる。



またこの息を吸いながら発話する仕組みは、息を吐き出すのと比べてマイクを近づけて使っても、ポップノイズや周りからの雑音の影響も少ないというメリットがある。またサイレントボイス特有の波形を検知できるため、ウェイクワードなしで音声アシスタントに直接命令を伝えるようなことも実現できるという。



またサイレントボイスのために必要なマイクは小型化もできるため、応用例として、腕輪、ペンダント、スマートウオッチ、ヘッドセット、テレビリモコン、スマートフォン、サイレントフォン、インプラントの歯などにマイクを埋め込むイメージも紹介された。



このサイレントボイスを発話するためには論文によれば、15分程度練習すれば誰でも息を吸いながら発話できるようになるという。


これは実用化が楽しみな技術だ。



Source:Microsoft

ABOUT THE AUTHOR / 

中橋 義博

1970年生まれ。中央大学法学部法律学科卒。大学時代、月刊ASCII編集部でテクニカルライターとして働く。大学卒業後、国内生命保険会社本社において約6年間、保険支払業務システムの企画を担当。その後、ヤフー株式会社で約3年間、PCの検索サービス、モバイルディレクトリ検索サービスの立ち上げに携わる。同社退社後、オーバーチュア株式会社にてサービス立ち上げ前から1年半、サーチリスティングのエディトリアル、コンテントマッチ業務を担当する。2004年に世界初のモバイルリスティングを開始したサーチテリア株式会社を創業、同社代表取締役社長に就任。2011年にサーチテリア株式会社をGMOアドパートナーズ株式会社へ売却。GMOサーチテリア株式会社代表取締役社長、GMOモバイル株式会社取締役を歴任。2014年ロボットスタート株式会社を設立し、現在同社代表取締役社長。著書にダイヤモンド社「モバイルSEM―ケータイ・ビジネスの最先端マーケティング手法」がある。

PR

連載・コラム