【世界初】LINEとNAVERが日本語に特化したAI「超巨大言語モデル」を開発へ　100億ページ以上の日本語データを学習

2020年11月26日 By 山田航也

LINE株式会社はNAVERと共同で、日本語に特化した超巨大言語モデル開発と、その処理に必要なインフラ構築についての取り組みを発表した。同社によれば、この規模での取り組みは世界でも初めて。

世界初の日本語に特化した超巨大言語モデルを構築

現在、超巨大言語モデルは世界でも英語のみが存在・商用化(OpenAIが開発し、Microsoftがライセンスを保有する「GPT-3」)しており、他言語の開発についても、ごく少数の取り組みが発表されているのみとなる。その理由の一つとして、高度なインフラ環境の必要性が上げられる。超巨大言語モデルの処理には数百ギガバイトものメモリーが必要と考えられており、世界でも指折りの性能を持つスーパーコンピュータなど、高度なインフラ環境が必要とされている。

LINEはNAVERと共同で汎用言語モデルを迅速かつ安全に処理できる700ペタフロップス以上の性能を備えた世界でも有数のスーパーコンピュータを活用し、超巨大言語モデルの土台となるインフラの整備を年内に実現予定。この取り組みにより、日本語におけるAIの水準が格段に向上し、日本語AIの可能性が大きく広がることが予想される。

汎用言語モデルの特徴

従来の言語モデルである「特化型言語モデル」はQ&A、対話などの各ユースケースに対して、自然言語処理エンジニアが個別に学習させて構築する必要があった。

一方、汎用言語モデルはOpenAIが開発した「GPT」や、Googleの「T5」に代表される言語モデル。新聞記事や百科事典、小説、コーディングなどといった膨大な言語データを学習させた言語モデルを構築し、その上でコンテキスト設定を行うためのFew-Shot learningを実行するだけで、さまざまな言語処理(対話、翻訳、入力補完、文書生成、プログラミングコード等)を行うことが可能となり、個々のユースケースにおいて応用して、比較的簡単に実装できることが期待される。

超巨大言語モデルではこの汎用型言語モデルを実現予定。処理インフラには世界でも有数の、700ペタフロップス以上の高性能スーパーコンピュータを活用する。

■用語説明
OpenAI「GPT」(Generative Pre-trained Transformer)
米国の技術開発会社OpenAIが2019年2月に発表した、文章生成に強い能力を持つ汎用型言語モデルに関する論文。その後2019年11月には15億のパラメーターをもつ汎用型言語モデル「GPT-2」をリリース。2020年5月に1750億のパラメータを持つ「GPT-3」の構想が発表され、翌月にベータ版を公開、8月には商用化した。「GPT-3」は「GPT-2」と比較して圧倒的なデータ量を持つことにより、長文の文章生成能力が飛躍的に向上（キーワードからメール文生成や、話し言葉の質問から流暢な回答文を生成する、など）し、世界的に注目を浴びている。

Google 「T5」(Text-to-Text Transfer Transformer)
GPTと同じくトランスフォーマーと呼ばれる自然言語処理技術を用いるが、文章生成よりも翻訳、質疑応答、分類、要約などの文書変換処理を目的とした構成を採用している。入力（タスク）と出力（回答）の両方をテキストのフォーマットに統一して、転移学習を行うことで、全てのタスクを同じモデルで解く。学習データを変更することで、同じモデルでさまざまなタスクが解けるとされる。

Few-Shot learningとは
ブログの書き出しや、プログラミングコードの一部などを与えること。それをもとに、最もそれらしいと判断した文字列を生成する。たとえば、与えた言葉(「おはよう」)に対して、これまで学習した中から最もそれらしいと判断した文字列(「おはようございます」等)を返すといったことが考えられる

1750億以上のパラメーターと100億ページ以上の日本語データを学習

今回、日本語に特化した汎用言語モデルを開発するにあたり、1750億以上のパラメーターと100億ページ以上の日本語データを学習データとして利用予定。これは世界に存在する日本語をベースにした言語モデルのパラメーター量と学習量を大きく超えるものとなる。パラメーター量と学習量については、今後も拡大予定。

開発された超巨大言語モデルは、新しい対話AIの開発や検索サービスの品質向上など、AIテクノロジーブランド「LINE CLOVA」をはじめとするLINE社のサービスへの活用のほか、第三者との共同開発や、APIの外部提供についても検討予定。

関連サイト
LINE株式会社

関連記事
LINE関連記事