アマゾン、Amazon Alexaのエンドポインティングの課題に取組む〜ユーザー発話終了の検知方法とは?
AmazonがAlexa BlogにてAlexaの「エンドポインティング」に関する記事を掲載した。
そもそもエンドポインティングとはなんだろうか。音声区間検出における、出だしがウェイクワードの検出であり、終わりが「end-pointing(終点)」である。エンドポインティングは「end-of-utterance detection(発声終了検出)」「end-of-query detection(質問終了検出)」「end-of-turn detection(ターン終了検出)」などとも言う。
つまり、ユーザーが発話による指示を完了したことを検知する機能である。音声でやりとりするデバイスにおいて重要かつ基本的な機能のひとつだ。この検知は、当然ユーザーの話の途中で打ち切らないようにする必要があり、かつ長時間終了せずに待ち続けるならばレスポンスが低下してしまう。適切な指示の終了を判断するのはなかなか難しい性質のものだ。
この問題への取り組みをAmazonのチームが論文を公開して解説している。
基本的な考え方は、入力されたテキストが完全なクエリーとなっているか、まだ途中と判断されるかを機械学習モデルをトレーニングすることで精度を上げていくというものだ。
音響のパターンを分類するモデル、自動音声認識のテキストを元に次に指示がつながる可能性が高いかを判断するモデル、さらに音声認識のアイドル時間を測定するモデル、これらの3つのモデルを組み合わせて、エンドポインティングを判断し、ユーザーへ応答を始めるようになっているという。
僕はこう思った:
興味のある方は元の論文をご覧いただければと思います。
ABOUT THE AUTHOR /
中橋 義博1970年生まれ。中央大学法学部法律学科卒。大学時代、月刊ASCII編集部でテクニカルライターとして働く。大学卒業後、国内生命保険会社本社において約6年間、保険支払業務システムの企画を担当。その後、ヤフー株式会社で約3年間、PCの検索サービス、モバイルディレクトリ検索サービスの立ち上げに携わる。同社退社後、オーバーチュア株式会社にてサービス立ち上げ前から1年半、サーチリスティングのエディトリアル、コンテントマッチ業務を担当する。2004年に世界初のモバイルリスティングを開始したサーチテリア株式会社を創業、同社代表取締役社長に就任。2011年にサーチテリア株式会社をGMOアドパートナーズ株式会社へ売却。GMOサーチテリア株式会社代表取締役社長、GMOモバイル株式会社取締役を歴任。2014年ロボットスタート株式会社を設立し、現在同社代表取締役社長。著書にダイヤモンド社「モバイルSEM―ケータイ・ビジネスの最先端マーケティング手法」がある。