NVIDIAが対話型AIをスマートでインタラクティブにする「TensorRT 8」を発表　BERTで世界最速級のAI推論性能

2021年7月24日 By ロボスタ編集部

NVIDIAは、2021年7月20日(米国カリフォルニア州現地時間)に「TensorRT 8」を発表した。「TensorRT 8」は、同社の第8世代となるAIソフトウェアで、言語クエリの推論時間を半分に短縮することで、開発者が世界で最も高い性能を持つ検索エンジン、広告レコメンデーションおよびチャットボットを作り出し、それをクラウドからエッジに渡り提供することを可能にする。

同AIソフトの最適化により、世界で最も普及しているTransformerベースのモデルの 1 つである、BERT-Largeで実行された言語アプリケーションが、1.2ミリ秒というこれまでにはない速度で処理できるようになる。過去には、企業はモデルサイズの縮小を余儀なくされ、その結果、正確性が大幅に低下していたが、同AIソフトにより、企業はモデルサイズを2倍または3倍に拡大して、正確さを劇的に向上させることが可能となる。

これまでの5年間で、ヘルスケアやオートモーティブ、金融および小売りといった多様な分野の2万7,500の企業に所属する、35万人以上の開発者が、TensorRTを約 250万回ダウンロードしている。TensorRTアプリケーションはハイパースケールデータセンターや組み込み機器、自動車製品プラットフォームへの展開が可能だ。

デベロッパープログラム担当バイスプレジデントであるグレッグエステス(Greg Estes)氏は、次のように述べている。

NVIDIA デベロッパープログラム担当バイスプレジデント Greg Estes氏

AIモデルは指数関数的に複雑化しており、AI を使用するリアルタイムアプリケーションへの需要が全世界で急増しています。そのため、エンタープライズでは、最先端の推論ソリューションの導入が不可欠になっています。TensorRT の最新版に導入された新しい機能により、企業は、これまでにない品質と応答性を持つ対話型 AI アプリケーションを顧客に提供できるようになります

業界からの幅広い支持

業界のリーダー企業は、対話型AIおよび他の多様な分野でのディープラーニング推論アプリケーションに TensorRTを活用している。

オープンソースAIのリーダー企業「Hugging Face」

さまざまな業界の、世界屈指のAIサービスプロバイダーから信頼を寄せられている、オープンソースAIのリーダー企業であるHugging Faceは、NVIDIAと密接に連携し、テキスト分析、ニューラルサーチおよび対話型アプリケーションを大規模に実行することができる、画期的な AI サービスを導入しようとしている。Hugging Faceの製品ディレクターであるジェフブーディエ (Jeff Boudier) 氏は、次のように話している。

Hugging Face 製品ディレクター Jeff Boudier氏

当社は NVIDIA との密接な連携を通じて、NVIDIA GPU で最先端のモデルを実行するための、最高の性能を提供しています。Hugging Face Accelerated Inference API はすでに、NVIDIA GPU の活用によって、Transformerモデルの処理速度を最大100倍に向上させています。TensorRT 8により、Hugging Faceでは、BERTでの推論レイテンシを1ミリ秒に短縮しており、今年の後半には、この性能をお客様に提供できることを楽しみにしています

ヘルスケアカンパニーとして世界的なイノベーターであるGE Healthcare

医療テクノロジ、診断およびデジタルソリューションの世界的なイノベーターである GE Healthcareでは、TensorRT を使って、疾病の早期発見には欠かせないツールである、超音波のコンピュータービジョンアプリケーションを加速させており、これにより、臨床医はインテリジェントなヘルスケアソリューションを使って、最高品質のケアを提供できるようになる。GE Healthcareの心臓血管超音波検査担当チーフエンジニアであるエリックステーン(Erik Steen)氏は、以下のように述べている。

GE Healthcare心臓血管超音波検査担当チーフエンジニア Erik Steen氏

超音波検査では、臨床医は画像の選択と測定に貴重な時間を費やしています。Vivid Patient Care Elevated Release のためのR&Dプロジェクトでは、私たちは、Vivid E95 スキャナーでの心臓表示検出を自動化することで、より効率的な処理を行おうとしていました。心臓表示認識アルゴリズムは心臓壁運動の分析のための適切な画像を選択します。TensorRT は、そのリアルタイム推論機能により、表示検出アルゴリズムの性能を高め、R&Dプロジェクトでの市場投入までの時間も短縮してくれました

推論の最新イノベーション

Transformerの最適化に加えて、以下の2つの主要な機能を通じて、TensorRT8は AI推論でのブレイクスルーを実現している。スパース性は、効率性を高めるための、NVIDIA AmpereアーキテクチャGPUの新しい性能向上手法だ。これにより、開発者は演算処理を削減することで、ニューラルネットワークの加速が実現する。また、量子化認識トレーニングにより、開発者は、トレーニング済みモデルを使い、正確さを損なうことなく、INT8精度で推論を実行できるようになる。これによって、演算とストレージのオーバーヘッドが大幅に削減され、Tensorコアで効率的な推論を可能にする。

TensorRT 8の提供について

TensorRT 8 は、現在入手可能となっており、NVIDIA Developerプログラムのメンバーは無料で入手できる。最新バージョンのプラグイン、パーサーおよびサンプルは、TensorRT GitHubリポジトリよりオープンソースとしても利用可能だ。

■【動画】Introduction to NVIDIA TensorRT for High Performance Deep Learning Inference(英語)