NTTドコモが「音声会話技術」と「AIエージェント」をオープン化!(1) 音声機能をデバイスやサービスに組み込む「AIエージェント基盤」

NTTドコモやNTTグループが長年培ってきた音声対話技術やAIエージェントの技術をオープン化し、クラウド・プラットフォームとしての提供を本格化する。
当面、利用料金は無料、デベロッパー向けの説明会も開催し、普及を促進する考えだ。


これにより、NTTの音声会話エンジンを搭載したスマートスピーカー、ロボット、音声家電、自動車などが開発しやすくなり、ソフトウェアベンダーも音声会話を使ったアプリの開発やビジネス化が容易になる。
日本語による高精度な音声会話デバイスやサービスの普及が、一気に加速する可能性が出てきた。


名称は「AIエージェント基盤」

NTTドコモが提供するクラウド・プラットフォームの名称は「AIエージェント基盤」。通称「PROJECT:SEBASTIEN」(プロジェクト・セバスチャン)と呼ばれている。
プロジェクトを牽引する責任者のNTTドコモ 秋永氏と、開発を担当する山崎氏に話を聞いた。

編集部

「AIエージェント基盤」について教えてください

秋永(敬称略)

「AIエージェント基盤」がプロジェクトとして始まったのは2016年6月です。スマートスピーカーが海外でヒットしているというニュースが入ってきて、これからはいよいよ音声会話を使ったデバイスが急速に注目されていく、という流れを感じていました。
私達NTTドコモは長年、音声会話システムを研究開発してきて、「しゃべってコンシェル」等、自社のサービスに導入して活用してきました。また、「OHaNAS」(オハナス:タカラトミー)や「ATOM」(アトム:講談社)等のロボットにも音声会話システムとして供給もしています。

NTTドコモの会話技術は「しゃべってコンシェル」や成田空港の施設案内アプリ、玩具、ロボット製品などで利用されてきた。

今後、音声会話を使ったデバイスが更に急速に注目されていく、その流れに対応するには、この技術をオープン化していく必要があると感じていました。多くの開発者(デベロッパー)や企業に、私達の音声会話技術をもっと有効活用して欲しいという思いからです。

株式会社NTTドコモ イノベーション統括部 クラウドソリューション担当 担当課長 秋永和計氏




NTTの音声会話技術とAIエージェント機能を提供

編集部

NTTドコモがNTTの音声会話技術とAIエージェント機能を誰でも利用できるプラットフォームとして提供していく、ということですね。では、音声会話技術について教えて頂けますか

秋永

音声会話技術を私達は「多目的対話エンジン」と表現しています。
スマートスピーカーでは、会話の機能として音声入力と音声出力が基本になっています。今までは指で画面をタッチして操作するデバイスが主流でしたが、これからは音声入力が今まで以上に求められる傾向にあることを踏まえ、どちらにも対応できる基盤を作っていこう、と進めてきました。

山崎(敬称略)

「多目的対話エンジン」は、約6年に渡り、18億回以上の利用実績がある「しゃべってコンシェル」等で培った自然言語処理技術です。この技術をプラットフォームで提供することで、様々なデバイスメーカーやサービス事業者が音声機能を利用することができるようになります。

株式会社NTTドコモ イノベーション統括部 クラウドソリューション担当 山崎光司氏

編集部

NTTの音声会話技術と言えば、真っ先に「しゃべってコンシェル」を思い浮かべました。

秋永

「しゃべってコンシェル」は、羊のキャラクターを起用した、NTTドコモが開発して提供しているエージェントサービスです。スマートフォンの中のキャラクターに話しかけるだけで、ユーザーの意図を理解し、対話やアプリが利用できる音声エージェントです。要素技術で言えば、音声会話技術とエージェント機能を合わせて、そこにコンテンツを乗せてサービスとして提供しています。ユーザーごとにパーソナライズ化された乗換検索や占いもできます。

NTTドコモのAIエージェントサービス「しゃべってコンシェル」。スマートフォン等で音声会話形式で利用できる

例えば、ほかの企業や開発者の方々が「しゃべってコンシェル」と同様のアプリやサービスを開発したいと思った場合、「AIエージェント基盤」を利用して比較的簡単に開発することができます。開発したサービスはエンドユーザーに提供してビジネス展開をすることができます。
また、スマートスピーカーやロボット等、音声対話機能付きデバイスの開発はもちろん、冷蔵庫や掃除機、クルマなどを喋らせたい、会話機能を持たせたいというメーカーもまた、「AIエージェント基盤」を使うと、「しゃべってコンシェル」と音声会話サービスを容易に開発することができます。



音声認識や言語解析など、日本語会話技術についていえば、NTTドコモは知見とデータを豊富に持っていることは明らかだ。しかし、従来、この最先端の技術はNTTドコモの自社製品やサービス(NTTドコモ製のスマホや「しゃべってコンシェル」など)のほか、NTTドコモと提携したごく一部の企業の製品に限って導入されてきた。
昨年、この方針を変更し、「AIエージェント基盤」をリリースすることで、誰もが音声会話技術を利用できるよう、オープン化への舵を切ることに決めた。


音声会話とAIエージェント機能を提供するクラウド・プラットフォーム

「AIエージェント基盤」の実体はクラウド・プラットフォームだ。クラウド・プラットフォームにはAmazonのAWS、GoogleのGCP、Microsoft Azure等が知られているが、「AIエージェント基盤」も同様にPaaS(Platform as a Service)やIaaS(Infrastructure as a Service)の形態を取る。
サービス提供者やデベロッパーは「AIエージェント基盤」を利用し、その上に自社のサービスを作って自由に提供することができる。

一般のスマートスピーカーを例にすると、大きく2つの要素で構成されている。

音声アシスタント(メインエージェント)

ひとつは音声アシスタント(音声エージェント)。ユーザーが話した言葉に適した回答を音声で返す機能だ。

スマートスピーカーの例。ユーザーの発話に対して音声で回答する「音声アシスタント」機能がメイン

ロボットや家電、自動車、通常のスピーカーを開発するメーカー等は、この技術が提供されることによって、自社製品に短期間で音声アシスタント機能を導入することができる。NTTドコモの「AIエージェント基盤」は音声アシスタントの機能を「メインエージェント」という名称で提供する。「メインエージェント」は、デバイスメーカーが自社製品で利用しやすいように提供していき、パートナーを募っていく。


なお、「メインエージェント」は、開発時にキャラクターを各社が比較的自由に設定できるのも大きな魅力のひとつとなっている(次回に詳細を解説)。


アプリやサービス(エキスパートエージェント)

音声アシスタントが専門的な質問に対して回答したり、音楽や朗読などのコンテンツを提供するには連携したサービスが必要になる。スマートフォンで言えばアプリ、一般的なスマートスピーカーでは「スキル」や「アクション」と呼ばれるものだ。「今日の天気は?」と聞かれれば、音声アシスタントは天気予報情報サービスと連携して地域の天気情報を得て回答するし、「音楽を聞かせて」と言われれば、音楽配信サービスと連携して音楽を再生する。連携するサービスが増えるほど、ユーザーの利便性は向上する。


「AIエージェント基盤」では「メインエージェント」と連携して動作するアプリやサービスを「エキスパートエージェント」と呼ぶ。


NTTドコモはソフトウェア・デベロッパーやサービス提供者が「エキスパートエージェント」を開発しやすいようにダッシュボード機能やSDKなどの開発に関わる環境や情報を提供していく。


また、デベロッパーが開発した「エキスパートエージェント」を登録・提供できるマーケットプレイスも用意されている。スマートフォンのアプリと同様、デベロッパーが開発したアプリやサービスが利用されることで、ビジネス展開ができるようになると見られている。メインエージェント対応デバイスが増えるほど、デベロッパーが開発したエキスパートエージェントは多くのユーザーに利用される可能性がある。既に登録申請の受付が開始されている。

秋永

「AIエージェント基盤」は、音声認識や音声合成など、会話に関する機能や制御、さまざまな要素技術をパッケージにして、簡単で使いやすいカタチで提供しようというプラットフォームです。今まで何かしゃべるデバイスやアプリを開発しようとすると、それらを要素技術から開発したり、様々なモジュールをかき集め、各機能ごとにケアしていく必要がありました。「AIエージェント基盤」をご利用頂ければ、繋いでシナリオを設定するだけで、デバイスやアプリがしゃべり出す、そんな環境を提供したいと思っています。

洗濯機や冷蔵庫を音声会話で操作(画像の写真左)。運転中でも音声操作でクルマのエージェント機能を利用できる(画像の写真右)


会話エージェントの精度を高める3つのエンジン

秋永

NTTドコモは中期戦略2020「beyond宣言」で、お客さまのライフスタイルを革新する新AIエージェントの実現を掲げています。その基盤の中核となるツールとして「AIエージェントAPI」を2017年6月に発表しました。
「私達は3つの先端技術をオープン化して、APIとして提供していきますので、一緒に開発し、ビジネスやサービスを協創していきましょう」という意図で「ドコモAIエージェント・オープンパートナーイニシアティブ」を推進しています。

ユーザーの「○○して欲しいな」と言う発話をロボットや家電、クルマなどのデバイスが理解し、さまざまなサービスと連携して、最適な回答をAIエージェントがユーザーに返す。この役割を持ったAIエージェントを手軽に開発できる環境を提供していく



AIエージェントAPIを構成する3つのエンジンとは「多目的対話エンジン」と「先読みエンジン」、「IoTアクセス制御エンジン」だ。

この3つの技術は、対話型多目的エンジンを「Speak」、先読みエンジンを「Sense」、IoTアクセス制御エンジンを「Shymphony」と呼んでいる。

「Sense(先読みエンジン)」はユーザーの現在位置、その場所の天気、スケジュール、行動、好みなどを考慮した情報の提供やアドバイスを行う、エージェントの気が利く頭脳の部分を担う。また、「Shymphony(IoTアクセス制御エンジン)」はIoT対応機器や家電の操作と連携する。これらを含めて、APIとして提供される。


当面は無料で利用できる

編集部

音声アシスタントを組み込みたいデバイスメーカーや、サービスやアプリを開発してビジネスに繋げたいデベロッパーは多いと思います。気になるのは料金です。AIエージェント基盤を利用するのには、いくらかかるのでしょうか

秋永

まずは活性化を目指していて、現時点で利用料金を決めていません。当面、少なくとも2018年秋までは無料でお使い頂くことができます。また、このビジネスの考え方としては「AIエージェント基盤」の運営費用は近い将来、NTTドコモがこの基盤を使って提供するサービスから基本的にはまかなっていこうと思っています。更には、将来的にもし膨大なトラフィックが発生するほど、頻繁にご利用頂くような状況になった場合は、利用量に応じて料金をお支払いただくビジネスモデルにしたいと考えています。
音声対話機能は「AIエージェント基盤」を使って気軽に組み込んで頂いて、デベロッパーの皆さんはそれぞれの分野で有用なアプリやサービスの構築に注力して頂きたい、それによってWin – Winのビジネスが協創できるのではないか、と考えています。



NTTドコモでは、今後「AIエージェント基盤」を解説するデベロッパー向け説明会を予定している。ロボットスタート主催の「AI音声アシスタント勉強会」(3月8日開催)でも紹介される予定だ。
「AIエージェント基盤」についての詳細は公式ホームページを参照。

なお後編は、AIエージェント基盤が提供する機能や、「シナリオ対話」と「意図解釈」、音声合成技術などにも触れていきたいと思う。
> 後編「NTTドコモが「音声会話技術」と「AIエージェント」をオープン化!(2) 「AIエージェント基盤」の自由度が高い理由」に続く

【お知らせ】(追記)
NTTドコモとロボットスタート主催の「ドコモのAIエージェント基盤「セバスチャン」勉強会【#1】(2018/03/19 19:00〜)」と「【#2】 (2018/03/27 19:00〜)」でAIエージェント基盤について紹介と解説が行われます。

ABOUT THE AUTHOR / 

ロボスタ編集部

ロボスタ編集部では、ロボット業界の最新ニュースや最新レポートなどをお届けします。是非ご注目ください。

PR

連載・コラム