【NTT R&Dフォーラム2016】「人と人、人とモノのコミュニケーションをよくするNTTのAI技術」を見てきました。

2016年2月18日、19日にNTT武蔵野研究開発センタで開催された「NTT R&Dフォーラム2016」に行ってきました。

 NTT R&Dフォーラム2016
 https://labevent.ecl.ntt.co.jp/forum2016/info/



その中でもサービスロボットに関連しそうな展示を何回かに分けて紹介します。


■人と人、人とモノのコミュニケーションをよくするNTTのAI技技術



日本電信電話株式会社 メディアインテリジェンス研究所 小澤英昭所長によるワークショップ「人と人、人とモノのコミュニケーションをよくするNTTのAI技術」です。





■「なぜ今、人工知能なのか?」



人工知能という言葉が使われだしてから60年。最初に使われたのが1956年のダートマス会議でした。

1980年代「知識のデータベース化」、1990年代「Internet・Webの普及」、2000年代「知識のビッグデータか」、2010年代「Iot」という時代のトピックと共に、人工知能の歴史も歩みます。

 1997年:IBM DeepBlueがチェス世界チャンピョンに勝利
 1998年:Google設立
 2011年:IMB Watsonがクイズ番組Jeopardy!で優勝
 2011年:AppleがSiriを発表
 2012年:GoogleBrain、DNNが猫の概念を獲得と発表



どうして人工知能が注目されるようになったのか。それは、計算量の増大が人工知能の能力を向上させたからです。

60年の間にコンピュータの計算力は約10の12乗倍と大幅に向上し、Deep Neural Networkなどの計算力が必要な仕組みが現実化しました。

膨大なデータと大幅に向上した計算力により、Google Brainは画像1,000万枚の学習を3日〜1週間で行えるようになりました。その際に使用するマシンパワーは、CPU16,000個です。



これにより「人間が頭で考えたモデル・ルールに基づく人工知能」から、「世の中の状況・状態を実データとして表し、分析処理に基づく人工知能へ」となりました。

ここから、実用に耐えうる人工知能の領域が見えてきました。





■人工知能ってなんだ?



AIサービス、AI要素技術、AI処理技術の俯瞰図です。



「コンピュータに人間のような知性を持たせる」という方向では、人工知能・画像認識・意思決定・Deep Neural Networkが必要となります。

一方で「知識を活用して、私たちの生活に役立つ機械やシステム」という方向では、音声対話、自然言語処理、知識データベース等が必要となります。

NTTが考える人工知能は、コンピュータと人間が協創する人工知能です。

例えば、コールセンターでは会話を聞いて担当者をサポートできるような人工知能を使うことにより、お客様が快適に、オペレータにはストレスのない環境の実現を目指します。

そして室内センサや交差点でのカメラなどを使い、安心安全を見守る人工知能を目指します。

大切にしたいのは「いつもそばで見守れる人工知能の技術」です。



いつもそばで見守るためには、人と人工知能がコミュニケーションするだけでなく、人工知能同志のコミュニケーションも必要かもしれません。

ひとりに1つの「マイ人口知能」のような存在ができ、見守るべき人をいつも見聞きして、必要があれば分かりやすいインタラクションをする。

更にはそれぞれの人工知能同士が連携して、新たな知が生まれるかもしれません。





■NTTの提唱する4つのAI



ここでNTTでは、4つのAIを提唱します。

 ・Agent-AI:ヒトの発する情報を読み解き、意図・感情を理解。
 ・Heart-Touching-AI:意識されないヒトの心と身体を読み解き、深層心理・理性・本能を理解
 ・NW-AI:複数のAIが有機的につながり成長し、社会システム全体を最適化
 ・Ambient-AI:森羅万象(ヒト・モノ・環境)を読み解き、瞬時に予測・制御




これら黒子のようにサポートするAIが、すべての世代について業務遂行能力や問題解決能力を向上させ、人間ならではの価値創造が加速されます。

年配の人には身体機能のサポート、若者には知識や経験のサポートを行います。




■AI技術を構成する3要素



AI技術は以下の3つから構成されます。

 ・人間理解技術:センシングでユーザの言動から糸や状態を把握
 ・実世界構造化技術:機械学習で世の中の情報を幅広く集め、整理し、構造化
 ・インタラクション技術:ロボットなどでリアリティあるインタラクション




音声技術は、20年間で飛躍的な進化を遂げました。



NTTでは、WFST技術とDNN技術により、超大語彙・高精度音声認識を実現しました。また、音の特徴のDeep Neural Networkで精緻に表現することにより、音声認識の精度を大幅改善しました。



現在では、音声認識の精度向上により、コールセンターの膨大な通話音声を定量的・客観的に分析できるシステムが、実用化されています。



目の動きから人間のココロを推定するという技術にも取り組んでいます。







■今のAIが苦手なこと



今の人工知能には、得意じゃないことがまだまだあります。

例えば、おもてなしのような気配りのような、正解・不正解が出しづらいものは不得意です。また、クラウドサーバにアクセスする際の物理的な距離を超えることは難しいです。



以上です。

ABOUT THE AUTHOR / 

北構 武憲

本業はコミュニケーションロボットやVUI(Voice User Interface)デバイスに関するコンサルティング。主にハッカソン・アイデアソンやロボットが導入された現場への取材を行います。コミュニケーションロボットやVUIデバイスなどがどのように社会に浸透していくかに注目しています。

PR

連載・コラム