スマートスピーカー(AIスピーカー)に指示を伝える時に呼びかけるワードをウェイクワードと呼ぶ。
Amazon Echoであれば「Alexa」、Google Homeであれば「OK, Google」、そしてLINE Wave/Friednsであれば「Clova」がウェイクワードとなる。
今回はそんなウェイクワードと音声データの録音との関係についてみていきたい。
LINE WAVE / Friendsの場合
まずTwitterで行われた以下のやりとりに注目だ。
Line CLOVAがウェイクワード言う前から音声拾ってるという噂。「音楽かけて、クローバ」で音楽かかるらしい。
これって危険じゃないかな。— しゅみれったー (@teeeeemp) 2018年3月20日
ウェイクワード言う前のコマンドが拾われている? と話題になった。
まさかと思いFriendsで試したら、確かに「音楽をかけて、Clova」で音楽がかかりましたね。WAVEと比べてFriendsの方がレスポンス速いのはこの辺に秘密があるのかも。
— Rydeen (@Rydeen) 2018年3月21日
Friendsで検証でき、かつWAVEとは違う動きだという。
検証ありがとうございます
ウェイクワード以前の言葉も実は聞かれているというのは
気分の良いものじゃないですね#clova— しゅみれったー (@teeeeemp) 2018年3月21日
何も説明がなければ、ウェイクワード以降からの録音・サーバーへの転送されると考えるのが自然だろう。
まぁ、スマートスピーカー全般において、ウェイクワードのリスニングは常時行われてますからねぇ。ウェイクワードの判定自体はローカルでやってるにして、その後どこからの音声をサーバに送ってるかが気になるところでしょうか。
— Rydeen (@Rydeen) 2018年3月21日
もちろん、仕組み上ウェイクワードの検出は随時行われている。ただこれはデバイスの中に閉じたローカルでの話。ウェイクワードなければ録音もサーバーへの転送もされていないのが基本的なルールだ。
@LINE_Clova friendsにおいて、ウェイクワードの前に言った命令を解して実行しているようです。サーバーに送られる音声データはウェイクワードの何秒前分から送られているのでしょうか。この辺挙動を明らかにして透明性を高めていただければと思います。よろしくおねがいします。 https://t.co/YOMY2bc6H8
— Rydeen (@Rydeen) 2018年3月21日
ここでRydeen氏がLine Clova公式アカウントに公開質問を行った。
お問い合わせありがとうございます。
Clova Friendsにおいて3月5日のアップデート時より、音声認識率向上の試みとして、「クローバ」の「バ」から(現在の仕様で)1.5秒前の音声データを取得する設定になっています。ご心配をおかけしてしまい、申し訳ございません(続く) https://t.co/AgRmYNAsax— LINE Clova (@LINE_Clova) 2018年3月28日
(続き)こちらの秒数については、ユーザーさまの利便性の向上と、プライバシー保護の双方を最大限考慮に入れ、引き続き調整を行っております。
今後もより良い体験を提供できるよう改善に努めてまいりますので、またお気づきの点がありましたらリプライいただけますと幸いです。 #Clova— LINE Clova (@LINE_Clova) 2018年3月28日
少し日数が経ってから、Clova公式アカウントが回答を行った。3月5日のアップデート以降、ウェイクワードの末尾から1.5秒前の音声データを取得する設定になっているという。またこの1.5秒という秒数は利便性とプライバシー保護の両面を踏まえて今後も調整されていくという。
1.5秒前は少し長すぎる気もするし、そもそも公式ヘルプページやFAQでこういったプライバシーに関わる情報はわかりやすく公開されていて欲しいと思う。(公式情報が存在していたら申し訳ないが、私には見つけることができなかった。)
Amazon Alexaの場合
Amazonは「Amazon Echo、Amazon Echo PlusおよびAmazon Echo Dotに関するFAQ」にて音声処理のルールについて解説している。Amazonの場合、ストリーミングするデータは「ウェイクワードの数分の一秒前のデータが含まれる」という。数分の一秒とLINEの1.5秒ではかなりの差がある。
Amazon Echo、 Echo Plusおよび Echo Dotは、ウェイクワードを検出するために、端末に搭載されたキーワードスポッティング機能を使用しています。それらの端末がウェイクワードを検出した時、クラウドに音声をストリーミングします。音声には、ウェイクワードが発話される数分の一秒前の音声が含まれます。
2. Amazon Echo、 Echo Plusまたは Echo Dotがいつ私の音声をクラウドにストリーミングしているか、どのように分かりますか?
Amazon Echo、 Echo PlusまたはEcho Dotがウェイクワードを検出した時、またはお客様が端末上部にあるアクションボタンを押した際、お客様の端末の上部にあるライトリングの色が青に変わり、端末から音声をクラウドにストリーミングしていることをお知らせします。
お客様がウェイクワードを発すると、ウェイクワードが発話される数分の一秒前の音声を含みAlexaが質問やリクエストを処理するクラウドへとストリーミングを開始し、お客様の質問やリクエストがクラウドにて処理された後にストリーミングが終了します。
Google Homeの場合
Googleの場合、「数秒のウェイクワードの録音を含む」と記載されている。数秒が何秒なのかはわからないが、ウェイクワードの冒頭以降からの録音と理解できる。少なくともウェイクワード前の音声データを送信するとは明記されてはいない。
いいえ。Google Home は数秒程度の長さの音声サンプル(スニペット)から、外部に情報を送信することなく、デバイスだけで起動ワードを認識します。起動ワードが認識されなかった場合、このスニペットがデバイス上に保存されることも、Google のサーバーに送信されることもありません。ユーザーが「OK Google」と言ったこと、または、ユーザーがGoogle Home デバイス上面を長押ししたことが Google Home で検出されると、録音が行われていることを示すためにデバイス上部の LED が点灯し、Google Home で会話の録音が行われ、録音された内容(数秒の起動ワードの録音を含む)がリクエスト処理のために Google に送信されます。録音データは [マイ アクティビティ] からいつでも削除できます。
僕はこう思った:
ウェイクワードや音声指示が実際どのように理解されたのか、AlexaアプリやGoogle Homeアプリの場合、発話ログが確認できます。たまに見ると面白いです。
ロボスタ / Clova
ABOUT THE AUTHOR /
中橋 義博1970年生まれ。中央大学法学部法律学科卒。大学時代、月刊ASCII編集部でテクニカルライターとして働く。大学卒業後、国内生命保険会社本社において約6年間、保険支払業務システムの企画を担当。その後、ヤフー株式会社で約3年間、PCの検索サービス、モバイルディレクトリ検索サービスの立ち上げに携わる。同社退社後、オーバーチュア株式会社にてサービス立ち上げ前から1年半、サーチリスティングのエディトリアル、コンテントマッチ業務を担当する。2004年に世界初のモバイルリスティングを開始したサーチテリア株式会社を創業、同社代表取締役社長に就任。2011年にサーチテリア株式会社をGMOアドパートナーズ株式会社へ売却。GMOサーチテリア株式会社代表取締役社長、GMOモバイル株式会社取締役を歴任。2014年ロボットスタート株式会社を設立し、現在同社代表取締役社長。著書にダイヤモンド社「モバイルSEM―ケータイ・ビジネスの最先端マーケティング手法」がある。