Siriが位置情報を使った音声モデルを採用、地元のマイナーなお店の名前でも正しく認識可能に

Apple Machine Learning JournalにてSiriの最新音声認識技術が紹介された。

自動音声認識システムの精度は、ディープラーニングの普及により近年驚異的に改善された。しかしパフォーマンスの改善は、主に一般的な発言の認識であり、小規模な地方の企業名や店舗名などの認識を正確に行うことは仕組み上難しいのだという。確かに大手チェーン店の店名なら確実に認識するが、地元の小さなお店の名前は認識されにくい。これが実用面でネックの一つになっているのは間違いないだろう。

この解決策として、Appleはユーザーの位置情報を音声認識システムに組み込んだという。



この位置情報を使う仕組みをジオロケーションベース言語モデル (Geo-LM)と呼び、一般的な音響モデルと組み合わせた仕組みとなっている。

結果、地域の特定の固有名詞を認識するSiriの能力を向上させることができた。公開された論文のテスト結果では識別エラーが18%〜40%低下したことがわかる。

モバイルデバイスで多く利用されるSiriにおいては、非常に有効なやり方だろう。



Source:Apple Machine Learning Journal

ABOUT THE AUTHOR / 

中橋 義博

1970年生まれ。中央大学法学部法律学科卒。大学時代、月刊ASCII編集部でテクニカルライターとして働く。大学卒業後、国内生命保険会社本社において約6年間、保険支払業務システムの企画を担当。その後、ヤフー株式会社で約3年間、PCの検索サービス、モバイルディレクトリ検索サービスの立ち上げに携わる。同社退社後、オーバーチュア株式会社にてサービス立ち上げ前から1年半、サーチリスティングのエディトリアル、コンテントマッチ業務を担当する。2004年に世界初のモバイルリスティングを開始したサーチテリア株式会社を創業、同社代表取締役社長に就任。2011年にサーチテリア株式会社をGMOアドパートナーズ株式会社へ売却。GMOサーチテリア株式会社代表取締役社長、GMOモバイル株式会社取締役を歴任。2014年ロボットスタート株式会社を設立し、現在同社代表取締役社長。著書にダイヤモンド社「モバイルSEM―ケータイ・ビジネスの最先端マーケティング手法」がある。

PR

連載・コラム