2020年6月22日、NVIDIAは、ASUS、Atos、Cisco、Dell Technologies、富士通、GIGABYTE、Hewlett Packard Enterprise、Inspur、Lenovo、One Stop Systems、Quanta/QCT、Supermicroなど、世界で展開する大手ベンダーから 、50製品以上のNVIDIAのA100搭載サーバーが発売される予定だと発表した。ハイパフォーマンス・コンピューティングに関するオンラインイベント「ISC 2020 Digital」にて明らかになっていたもの。
NVIDIAはGPUとDNNのオンラインイベント「GTC2020」で「Ampere」アーキテクチャおよび「NVIDIA A100」GPUを発表。それをうけて、これらの大手サーバーベンダーから、30 種のA100搭載システムが今夏に発売される予定だ。また、ほかにも20 種以上のシステムが年末までに発売される見込みだとしている。
本記事では、ISC 2020Digitalで発表された情報、特に、NVIDIA A100が、なぜここまでサーバーベンダーに受け入れられたのかについて簡単に解説してみよう。
NVIDIA A100の主な特徴
NVIDIA A100の主な特徴は下記のとおりだ。
1.前世代のGPU、Voltaに比べて最大で10倍処理能力を向上させた新規演算フォーマット、TF32
2.密行列(Dense Matrix)を疎行列(Sparse matrix)に置き換え、精度を落とさずに演算性能を向上させることで1であげた処理を更に2倍まで向上させる構造的疎性
3.複数のGPUを巨大なGPUとして機能させる際に必要となるGPU-GPU間通信や、GPU-CPU間のインターコネクトに使用する第3世代NVLink接続は従来の2倍の帯域幅(600GB/s)に。最大12本までサポート
4.1つのGPUを最大7つのGPUに分割して多様な演算処理に対処させるマルチインスタンスGPUテクノロジ
5.NVIDIA A100 向けに最適化されたソフトウェア、ツール群
6.先日発表されたA100をそれぞれ、4基、8基搭載したリファレンスボード、NVIDIA HGXに加え、サーバーへのGPU搭載基数を柔軟に変更できるPCIeフォームファクタを採用バージョンも追加
7.サーバー購入者からわかりやすい性能の指標、NGC-Ready認証システムの拡充
スペック上の処理能力や、計算の手法に関しては専門性が高く、限られた文章量で説明することが難しいが、実際恐ろしいほどのスペックアップをしている。
具体的には、1と2を組み合わせるとAI系でよく使われる疎行列(Sparse matrix)の演算では312 TFのスループットを得る事ができ、これは前世代のGPUの約20倍に相当する。
さらに、3や4の機能を用いることで、処理したい内容に対して柔軟なリソース配分が出来る。というのも大きい。
しかし、さらに大きいのは開発環境に関するものだろう。
豊富なソフトウェア、ツール群
サーバーベンダーの顧客である開発者にとって重要度の高いファクターは開発の生産性を上げるソフトウェア、ツール群だろう。
NVIDIA A100が対応している主要なものをざっとに紹介しておこう。
・50 以上ある CUDA-X™ ライブラリの新バージョン、CUDA 11
・マルチモーダル対話型 AI サービス フレームワークである NVIDIA Jarvis
・ディープ レコメンデーション アプリケーション フレームワークである NVIDIA Merlin
・オープンソースのデータサイエンス ソフトウェア ライブラリのスイートである RAPIDS
・開発者の生産性ならびに HPC アプリケーションの性能と移植性を最大化する NVIDIA HPC SDK
などだ。
これらのソフトウェア ツール非常にパワフルだ。それに加えて、GPGPU分野でのデファクトとなっているCUDAのようなライブラリの存在は心強いだろう。
開発者は、これらのツールの後押しによって、HPC、ゲノミクス、5G、データサイエンス、ロボティクスなどのアプリケーション構築を加速できそうだ、と感じるのではないだろうか。
柔軟なサーバー構築を助けるPCIe接続
それに加えて多くのサーバーメーカーに採用されたポイントと言えるのが、PCIeフォームファクタを採用したバージョンの発表だ。
NVIDIA は先月の時点でA100のリファレンスボードとして、A100 を4基ないし8基搭載したHGX A100をすでに発表していたが、今回発表されたサーバーベンダーの製品群をみると、PCIeスロットに直接挿すことが出来るタイプのA100が加わったことの影響が大きかったのが見て取れる。
サーバーメーカーのラインナップとしてはシステムに搭載出来るGPUの数に大きなバリエーションを作ることができており、その中でもPCIeバージョンのA100を採用しているメーカーも多く見られるからだ。
PCIeはリファレンスボードであるHGX A100に使われている接続方式、NVLinkに比べると帯域幅に於いて劣っている(NVLink:600GB/sに対しPCIe Gen4:64GB/s)が、その汎用性は大きく上回る。また、4個単位でしか増やせず、特殊な接続が必要なHGX A100に比べ、スロットに挿すだけで1個ずつGPUを増設出来るというのは設計自由度が大きく上がるだろう。
顧客の要望や計算内容は様々。それにフィットするシステムを構築する際に1基搭載したものから10基以上を搭載したサーバーまで多様な選択肢を提供することが出来ることはコスト面でも性能面でも非常に重要だ。
今回発表されたモデルの中で実例を上げてみると、Inspurの製品のようにA100をNVLinkで16基搭載したモデルもあれば、Asusのように最大4基までA100 PCIeを搭載することができるよう、PCIe拡張スロットを追加することで要望に対して柔軟に対応できる設計にしておくなど、メーカー毎、モデルごとににバリエーションが見られた。
しかし、このように性能に合わせて柔軟な構成をハードウェア的に実現できたとしても、ユーザーの誰もが自分の作りたいソリューションにとって最適なシステム構成を選択できる能力をもっているわけではない。
そこで重要になってくるのがNGC-Readyという認証制度だ。
システム構築の目安となるNGC-Ready
現在、様々な分野で多くの企業がAIの利点に気づき、自分たち要望にマッチしたAI搭載ソリューションを導入しようとしている。
しかし、迅速なセットアップが可能で、最大のパフォーマンスを発揮し、ダウンタイムが最小限になるインフラを見つけ出すためのノウハウは誰もが持っているわけではない。とくに、現行のインフラと簡単に統合可能なシステムを調達できるサプライヤーとなるとさらにハードルは上がる。
そこで、NVIDIAはシステムベンダーが構築したA100搭載サーバーを、GPU向けに最適化されたAIソフトウェアを使ってテストし、システムがAIワークロードを実行するのに必要な性能を有していることを保障しているのだという。
この保障があることで、多様なサーバーベンダーが構築した数多くのシステムの中から、自分たちの目的に適うものを探していくことができるというわけだ。
このように、格別のハードウェアスペックに加えて、エコシステムに配慮した設計や施策が、「新規アーキテクチャのGPUが年末までに50個のシステムに搭載される。」という驚くべき結果につながったのだろう。
最後にNVIDIA のアクセラレーテッド コンピューティング担当 ゼネラルマネージャー兼バイスプレジデントであるイアン バック (Ian Buck) 氏のコメントを紹介する。
NVIDIA Ian Buck氏
NVIDIA A100 GPU がこんなに早く大手サーバー メーカーのラインアップに加わるような例は、これまで見たことがありません。NVIDIA のパートナーから発売される NVIDIA A100 サーバーは品揃えがきわめて豊富であり、お客様はデータセンターを加速するために最適なオプションを選ぶことで、利用率を高め、総費用を抑制できるようになります。
今後このGPUを搭載した様々なサーバーからどのようなサービスが生まれていくのかが楽しみだ。
NVIDIA関連記事 (ロボスタ)