「AIは機械学習のことではない」「日本語は難しい」開発者が語るLINEの「Clova」とは

9月28日(木)に開催された「LINE DEVELOPER DAY 2017」にて、LINEの「Data Labs」及び「Clova Center」を統括する橋本泰一氏が登壇。クラウドAIプラットフォーム「Clova」の仕組みと、そのテクノロジーについて解説をおこなった。



ClovaはLINEが開発するクラウドAIプラットフォームである。そのClovaが搭載された「WAVE」はすでに先行販売され、一部のユーザーの手に届いている。

橋本氏は、昨今AIという名で様々な技術がメディアで紹介されているが、その中でよく耳にする「AI = 機械学習もしくはディープラーニング」というような「アルゴリズムこそがAI」という考え方はLINEと異なると話した。



LINEが考えるAIとは「バーチャルアシスタント」。それも生活に溶け込んで、人々をサポートしていくバーチャルアシスタントをAIとして定義づけていると語った。



「Clova」はプロジェクト発足からまだ1年

Clovaは「Cloud-based Virtual Assistant」の略だ。現在販売されているものはWAVEだけだが、将来的にスマホや家電、自動車、おもちゃなどごく身近な様々なものにClovaが搭載されることを目指しているという。



Clovaのプロジェクトが始動したのは、たった1年前。2016年9月のことだった。その後、2017年2月にMWCにて初めてClovaの取り組みについての発表が行われ、そして2017年6月の「LINE CONFERENCE」でWAVEのデモが披露された。7月にはWAVEの先行販売を開始し、8月に発送。そしてこの秋正式版を発売する。

1年間という期間は、LINEがいう、バーチャルアシスタントを開発する期間としては非常に短く感じる。その点について同氏はこのように説明した。

橋本氏

LINEの前身であるNHN JAPANやライブドアでは、WEB検索やポータルサービスを中心におこなってきました。そういった中でウェブ検索技術、クローリング技術の開発も行ってきています。そこで培った、自然言語処理や音声処理であったり、画像処理だったりと、経験や技術的な財産もたくさんもっています。加えて、LINEというメッセージングプラットフォームの成長に伴い、ビッグデータやビッグデータを活用した機械学習、ボットの展開・開発も進めてきました。

実際にこれまでの我々の歴史を振り返ってみると、今まさにAIプラットフォームを実現するための基礎的な技術はLINEの中で脈々と育ってきていました。それらの技術を集結させ、非常に短い時間でこのAIプラットフォームClovaを軌道に載せることは現実的だと判断し、プロジェクトは始動しました。そしてようやく1年たって、皆様の元に製品としてお届けできるようになりました。




Clovaの技術

続いて、橋本氏はClovaのアーキテクチャについて解説を行なった。



Clovaは大きく4つのコンポーネントから成る。一つはスマートスピーカー「WAVE」やスマートフォンのアプリなどから、ユーザーの入力した情報(音声を含む)を受け取り、ユーザーにサービスを提供する「クライアント」である。

そして、二つ目は「ブレイン」。橋本氏は、ブレインはクローバにおいて最も重要な部分だと説明した。ブレインでは、ユーザーから入力された音声を「音声認識」によってテキスト化したり、ユーザーの発話からユーザーの意図(ユーザーがどんなサービスを使用したいか)を理解する「言語理解」の部分、そして出力するためのテキストを音声化する「音声合成」の機能を提供している。

3つ目がユーザーに様々なサービスを提供する「スキル」。ClovaからLINEのメッセージを送ったり家電をコントロールするサービスをスキルと呼んでいる。

そして4つ目のコンポーネントが、プラットフォーム。プラットフォームはクライアント・ブレイン・スキルを横断的に繋ぎこむ機能を提供しているといい、具体的には認証や認可、ユーザーの情報の保存などの基本的な機能を持っているものだ。




そして、これら4つのコンポーネントを結びつけるための「CIC(Clova Interface Connect)」と「CEK(Clova Extention Kit)」という二つが存在する。CICはクローバのクライアントとプラットフォームを繋ぐためのインターフェースである。CICを使用してClovaに接続し、入力情報をClovaに送信したり、Clovaからの情報をクライアントが受け取ったりする。CICは、SDKとAPIで構成されている。



一方、「CEK」とは様々なサービスをプラットフォームに提供するためのキットである。橋本氏は、既存の様々なサービスについてもCEKに則ってAPIを提供することで、ユーザーにClovaを通じてサービスを提供することができる仕組みになっていると語った。

「WAVEからCICによってブレインに。ブレインからCEKを通じて様々なスキルをユーザーに提供できるようになっています」と橋本氏。


ここで、橋本氏は、2つの例をあげて、この仕組みを解説した。一つ目の例は「秋に合う音楽をかけて」、二つ目の例は「この曲は何?」という処理だ。

橋本氏


まずユーザーがWAVEに向かって、Clovaと呼びかけると、WAVEはCICに対して接続を開始します。



次に「秋に合う音楽をかけて」と話しかけると、CICを通じて音声認識モジュールに繋がります。ここでは、リアルタイムで音声をテキストに変換しています。



そして、音声からテキストに変換されたデータは音声理解モジュールに渡り、どのような意図で発話したかを解析。「秋に合う音楽をかけて」という発話から、ユーザーが意図したことは「音楽を再生してほしい」、「再生される音楽は秋に聞くと心地が良い音楽」だということを言語理解モジュールで導き出します。



ユーザーの意図が「音楽を再生すること」だとわかったので、プラットフォーム全体としては、音楽に関するスキルを選択し、ユーザーにあうものを提供します。ここでユーザーの「秋に合う」という意図に即して、音楽を再生。推薦エンジンを使って、ユーザーの望む音楽を決定しています。



そして、音楽が決定されたら「CEK」から「CIC」を通じて音楽のストリーミング再生を行い、WAVEから音楽が流れるのです。



次に再生されている音楽の名前を教えてもらう時の流れです。曲のタイトルが気になりだしたユーザーは、「Clovaこの曲は何?」と問いかけます。そうすると、先ほどと同様に、CICを通じて、音声認識・言語理解をします。



「この曲は何?」という発話から、「ユーザーは、歌手や曲名を知りたいんだ」と解析が行われます。そしてこの発話についても音楽に関する意図があるということがわかっているので、音楽スキルを選択し、現在再生中の歌手名や曲名といったメタ情報を提供します。



そしてCICで実際の発話として文章を生成。生成された文章は音声合成によって、テキストから音声に変換され、CICからクライアントに繋がり、WAVEで再生します。




Clovaの抱える壁とは?

「これらの流れは、一見簡単そうに見えますが、賢く成長させていくためにはいくつかの壁があります」と橋本氏。同氏は、「知識の問題」と「日本語の問題」の大きく2つの問題を語った。

橋本氏


一つは知識の問題があります。多くのユーザーに使ってもらうためには、膨大な知識が必要です。そのため、固有名詞を正しく認識する、正しく言語理解する、そして正しく発言する、音声合成できるための仕組みを強化していきました。また、コンテンツに関する情報(漫画やドラマのタイトルなど)を正しく理解できることを目指しました。

そして、実際のユーザーが発話するときに独特な言い回し、「数字」や「時間」、「慣用的な言い回し」です。それらに幅広く対応するための努力を重ねてきました。強化を行なっていますが、まだまだ十分ではないと考えています。



二つ目に、我々の独自の問題として、日本語の問題があります。日本語は”文字種”の多い言語であり、そのため音声認識や音声合成において他の言語に見られない問題が起きています。

音声認識においては特に「T」「K」「H」は日本人はあまり発話をしていないという問題があったため、そこを認識できるよう強化してきました。

また認識においては同音異義語の問題もあります。「かけて」という発音でも、様々な「かけて」が存在します。時刻の「2時」をさしても、「虹」や「二次」があります。それらを間違わずにできるかが、大事な問題です。

最後に音声合成においては、「晴一時雨(はれいちじあめ)」を「セイイチジウ」と読んだり、「SEKAI NO OWARI」を「エスイーケー…」と読み上げたりしてしまいます。

これらの各問題を、お互いにお互いのミスをカバーするような形で実際のモジュールの開発を行なっているのです。




Clovaの未来

橋本氏


現在クローバのプロジェクトで、最も重要視しているキーワードは、「Growth」です。先ほども申し上げた通り、Clovaはまだ開発期間1年のプロダクトです。クローバ自身も生まれて間もない赤ん坊のような存在です。僕らLINEは、できる限り早いスピードでこのClovaを育てていく、「グロースさせていく」ことに注力していきたいと考えています。近い将来の話からすると、WAVEの一般販売を秋に発表します。具体的な日時については、まだ申し上げられませんが、正式な発表をもうしばらくお待ちください。

WAVEに続く、CHAMPも開発しています。この会場に展示しているので、実際にご覧になっていただきたいと思います。



今後、まずクローバの「認識部分」を強化していきたいです。音声の「話者認識」ができるようにしていきます。例えば、家族ではない、たまたまやってきたお客さんには「初めまして」と返事をしたりする、話者を理解した賢いコミュニケーションができるようにしていきます。

発話以外の「概念」も理解したいと考えています。朝話しかけると「おはよう」、夜話しかけると「こんばんは」と言うような「時間の概念」や季節(日時)の概念も理解していき、より豊かにコミュニケーションできるものを目指していきます。



クローバを成長させていく、もっと大きな存在として育てていくために重要なことは、この会場にいるエンジニアの皆様の力だと思っています。

2018年にエンジニアの方々がWAVE、Clovaを使って、様々なデバイス、アプリを開発できるような環境を提供することをお約束します。



橋本氏は最後に「我々は少しでも多くのエンジニアの人にできる限り早くWAVEに触れていただきたい。そこで、本日ご来場の皆様の中から、抽選でスマートスピーカーWAVEを50名の方にプレゼントします」と語り、セッションを締めくくった。午後のセッションでは、Clovaを搭載する「Gatebox」のセッションも行われる予定だ。

ABOUT THE AUTHOR / 

望月 亮輔

1988年生まれ、静岡県出身。元ロボスタ編集長。2014年12月、ロボスタの前身であるロボット情報WEBマガジン「ロボットドットインフォ」を立ち上げ、翌2015年4月ロボットドットインフォ株式会社として法人化。その後、ロボットスタートに事業を売却し、同社内にて新たなロボットメディアの立ち上げに加わる。

PR

連載・コラム