「どこでもAlexa」の実現へ!Amazon Echo / Alexaがユーザの会話を正確に聴き取る最新技術、Alexa対応デバイス開発キットの概要

新年が明けて、さまざまな場所で今後のトレンドが語られているが、その中に「音声インタフェース」をあげる識者も少なくない。音声インタフェースにはiPhoneでお馴染みの「Siri」、「OK、Google」のGoogleアシスタント、そしてAmazonの「Alexa」(アレクサ)等、いわゆるAIエージェントが知られている。

Amazon Alexaはいよいよ新しいフェーズに入ったことは明らかだ。
それを示す理由のひとつは先行する米国に続いて、日本でもAlexaスキルのビジネス活用がはじまったこと。Alexaスキルをビジネス利用する方法、特に決済を含めて実際の販売や売上げに繋がるしくみをAlexaとそのエコシステムが装備したことは大きな進歩だと言える。

これはインターネットの黎明期の感じに似ている。インターネットの凄みは多くの人がすぐに理解したものの、ビジネスマンの多くは決済手段が完備されていない「インターネットで収益を上げる方法」を長い期間、見いだすことができなかった。しかし今では、インターネットでは収益を上げられないなどと言う経営者は皆無に近いだろう。

もうひとつは、日本でも「Alexa Dev Summit Tokyo 2018」のようなスキルやAlexa対応デバイスの開発者向けカンファレンスが開催され、エコシステムとしての展開が本格的になってきたことだ。「Alexa Dev Summit Tokyo 2018」のセッション「Alexa搭載デバイスの新しい世界」では、アマゾンジャパンからデバイスメーカー向けに音声インタフェースとAmazon Alexaの進化についてが語られた。また、そこでは音声インタフェースによってユーザーにストレスを感じさせないようにする数々の技術がAmazon Echoなどで活用されていることが解説された。その中からAlexa Everywhere構想、Alexa開発キットの概要、Alexaの会話を支える最新技術を抜粋して紹介したい。

「Alexa搭載デバイスの新しい世界」セッションに登壇したアマゾンジャパン合同会社 Alexa Voice Service本部 ソリューションアーキテクチャ部 シニア ソリューションアーキテクト 北迫清訓氏


Alexa Everywhere構想

Amazon AlexaはAI音声エージェントとエコシステムの名称だ。Alexa対応デバイスと言えば、まずはAmazon Echoに代表されるスマートスピーカーが挙げられる。スマートスピーカーは言わば、従来のホームオーディオを音声でコントロールするもの。曲や歌手を声で指定して楽曲を掛けたり、自分または誰かが作成したプレイリストをBGMとしてかけることも声だけで指示することができる。天気予報やニュースを聞いたり、タイマー機能も便利だ。
スマートスピーカーの次は、スマートホームとの連携だ。テレビやエアコンをリモコンの代わりにAlexaを通じて声でコントロールすることができる。
そのつぎはモバイル環境でも利用すること。スマートフォン、時計、ヘッドホン(イヤホン)などに組み込むことで外出先でも利用することができる。また、運転中に視線や手を離すことができない自動車とも音声インタフェースの親和性は高い。

Amazonは、さまざまなデバイスを通じてユーザーがAlexaのエコシステムを活用する「Alexa Everywhere」構想を掲げる

こうした状況により、Amazonは自社のAlexaを様々なデバイスに組み込むように、機器メーカーなどに呼びかけを行っている。
では、機器メーカーはどのようにAlexaと自社製品を連携したり、Alexa対応の製品を開発するのか。

機器メーカーにとって重要なのはユーザーが話した言葉を聞き取ることと、Alexaの回答を発話すること、これを「オーディオ・フロントエンド」と呼ぶ。技術的に言うと、「オーディオ・フロントエンド」はマイクアレイ(複数のマイク)を活用してユーザーの声を遠くからでも正確に聴き取る入力インターフェース部分、ノイズを除去してAlexaに発話内容を渡す処理部分、ユーザーの発話を受けてAlexaが返す回答をユーザーに伝えるスピーカー部分で構成される。


Amazon Echoの場合、マイクアレイは頭頂部の7つのマイクで構成されている。中心にひとつと周辺に6つのが配置され、音声の方向を特定する。マイクが装備できる数はデバイスによって異なるため、開発メーカーが持つ自社のデバイスに合わせて最適にマイクを配置することが望まれる。マイクが聴き取った音声はDSPでノイズを除去したり、必要な音声データだけをクリアに抽出する変換技術が使われる。デバイスメーカーはリファレンス設計に合わせて簡単にオーディオ・フロントエンドを実装することができ、バックエンドのAlexaとの連携が可能になる。



Alexa対応デバイスを開発するためのAPIやツール群

AlexaではデバイスとAlexa(クラウド)がやりとりするAPIやツール群は予め用意されている。代表的な開発ツールとその役割はこうだ。
Alexa自身のAPIは「AVS API」、デバイス自身に搭載するためのソフトウェア開発キット「AVS Device SDK」(C++ベースでAndroidにも対応)、そしてオーディオ・フロントエンドの開発キット「AVS開発キット」はデバイスの分野や業界ごとに特殊技術を提供するものだ。これらのツールを使って、メーカーは自社のデバイスに手軽にAlexaと連携してみてテストや実証実験を行うことができる。



Amazon Echo/Alexaが正確に聴き取るための最新技術

音声インタフェースは手軽である反面、初めて体験したり操作に慣れていないユーザーに対してはストレスを与える可能性も高い。その点を解消するのにAlexaではいくつかの技術が導入されている。まずは聴き取りを正確に行うこと。
代表的な技術は「ビームフォーミング」。話者の方向を特定し、人間で言えば話している人に耳を傾ける技術だ。
次に「エコーキャンセリング」。自身が流している楽曲の音で、ユーザーの発話が聴き取りにくくならないように、自身が発している楽曲や音声をノイズとして除去し、話者の話した内容だけをクラウドに届ける技術だ。
そして「ボリュームダッキング」。ユーザーが「アレクサ」といったウェイクワードで話しかけた際、瞬時に自身の楽曲や音声のボリュームを下げることで、ユーザーの声を聴き取りやすくする。ユーザーにとっても楽曲等のボリュームが抑えられるため、大声で発話する必要がなくなる。


これらの技術を使い、ユーザーの声をクリアに正確にクラウドのAlexaに届けることで、ユーザーが「聴き取りにくい」というストレスを持たないように工夫している。


ユーザーの呼びかけだけに反応

ほかにも興味深い技術がある。
そのひとつが「アレクサ」などの「ウェイクワードの二重チェック」だ。Alexa対応デバイスはそれぞれウェイクワードに反応して起動することになっているものの、デバイスの処理能力や搭載メモリによっては正確性が劣るケースも考えられる。そのためデバイスがウェイクワードと判断した後、クラウドでも二重チェックをかけて、ユーザーが本当にウェイクワードを発話したのかを解析するしくみを導入し、どんなデバイスであってもユーザーが必要としていない(ウェイクワードを発話していない)ときに不用意に起動することを回避している。
その例のひとつが、テレビなどから流れてくる「アレクサ」というウェイクワードには反応しないこと。それに気づいたユーザーも多いことだろう。CMの「アレクサ」という声自体にはデバイスが反応してLEDが点灯し、一度は聴き取るものの、クラウドでその声を照合してそれがCMの声であったり、デジタルデバイスから発せられた音声と判断すれば、それはユーザーの呼びかけではないとしてスルーする。


複数のAlexa端末があっても答えるのは一台

また、「Alexa Everywhere」構想では、Alexaは一家に一台どころか、一部屋に一台、一部屋に複数台のAlexaが共存することが想定されている(Amazon EchoとAlexa電子レンジ、Alexaウォッチなど)。その場合、ユーザーの呼びかけにすべてのAlexa対応デバイスが反応するとユーザーは煩わしく感じる。そこで、複数台のAlexaデバイスがあっても、呼びかけにはひとつのデバイスのみしか対応しない工夫がされている。筆者も自室でAmazon EchoとEcho Spotの2台を使用しているが、「アレクサ」と呼びかけたときはSpotのみが反応する。



音楽再生は常に高音質のデバイスでしたい

また、楽曲を再生するデバイスを指定することができる。筆者の場合、楽曲は音質がよいAmazon Echoで聴きたいので、「アレクサ、DA PUMPを”書斎のEcho”でかけて」と呼びかけると、うちではSpotが応対するものの、楽曲はAmazon Echoで再生される(Amazon Echoの名前を”書斎のEcho”と登録してあるため)。また、再生したいEchoデバイスを音声で指定しなくても、楽曲を優先的に再生するEchoデバイスを予め登録しておける「Preferred Speaker」機能というものもある。これは複数のAlexa対応のデバイスをグループ化することで役割分担できる機能でとても便利だ。



画面付きデバイスでAlexaの活用が劇的に広がる

音声インタフェースによるユーザーのストレスを解消する、という意味ではディスプレイの助けを借りることはとても有効だ。Alexaスキルはやりとりは音声主体であるものの、ユーザーがディスプレイ付きのAlexa対応デバイスを使っていることがわかれば、画面に画像やテキストで補足情報を表示する機能がある。画面に情報表示することで、ユーザーの理解度が向上することが期待できる。

例えば、出前館スキルではAlexaで注文から決済までできるが、注文する賞品をメニューから選ぶときも画像は有効だし、注文の確認や決済情報も画面で確認できた方が安心で早い。Alexaでは、画面付きのデバイスには画像やテキスト情報を表示するためのツールとして「Alexa Presentation Package」(APL)や「Alexa Smart Screen & TV SDK」を用意し、画面付きデバイスではユーザーのストレスをより感じないシステム作りを支援している。

「Alexa Presentation Package」(APL)や「Alexa Smart Screen & TV SDK」を用意


こうしたことを鑑みると、Alexaに対応したリモコンが付属する「Fire TV Stick 4K」は、大画面でメニューや決済情報が確認できるため、案外ビジネス向けAlexaスキル普及の鍵になるかもしれないと著者は感じた。

ABOUT THE AUTHOR / 

神崎 洋治

神崎洋治(こうざきようじ) TRISEC International,Inc.代表 「Pepperの衝撃! パーソナルロボットが変える社会とビジネス」(日経BP社)や「人工知能がよ~くわかる本」(秀和システム)の著者。 デジタルカメラ、ロボット、AI、インターネット、セキュリティなどに詳しいテクニカルライター兼コンサルタント。教員免許所有。PC周辺機器メーカーで商品企画、広告、販促、イベント等の責任者を担当。インターネット黎明期に独立してシリコンバレーに渡米。アスキー特派員として海外のベンチャー企業や新製品、各種イベントを取材。日経パソコンや日経ベストPC、月刊アスキー等で連載を執筆したほか、新聞等にも数多く寄稿。IT関連の著書多数(アマゾンの著者ページ)。

PR

連載・コラム