Metaの「AI Research SuperCluster」にNVIDIAテクノロジが採用 NVIDIA DGX システムがAI研究チームの仕事を加速

2022年1月26日 By 山田航也

Meta Platformsは同社がこれまでで最もパワフルな研究用システムであると考えているスーパーコンピューター「AI Research SuperCluster」(以下、RSC)にNVIDIAのテクノロジを採用した。完全に構築されると、MetaのRSCはNVIDIA DGX A100システムを導入する顧客の中で最大のシステムになる見込み。NVIDIAが発表した。

1兆を超えるパラメータを持つAIモデルをトレーニング予定

RSCには演算ノードとして、760台のNVIDIA DGX A100システムが使用されている。これらNVIDIA DGX A100システムでは、合計6,080基のNVIDIA A100GPUがNVIDIA Quantum 200Gb/s InfiniBandネットワークに接続されており、TF32で1,895PFLOPSの処理能力を実現する。RSCが完全に構築される今年の後半には、MetaはRSCを活用して、1兆を超えるパラメータを持つAIモデルをトレーニングする予定。これにより、自然言語処理のような分野が発展し、リアルタイムで有害なコンテンツを識別するような作業が可能になる。また、大規模な性能に加え、Metaは「幅広い AI モデル」に対処するための優れた信頼性、セキュリティ、プライバシーおよび柔軟性をRSCの重要な基準として挙げている。

MetaのRSCはNVIDIA Quantum InfiniBandネットワーク上で接続された数百のNVIDIA DGX システムを備え、同社のAI研究チームの仕事を加速する。

MetaがNVIDIAのテクノロジを採用するのは2度目

自社の研究インフラストラクチャの基盤としてMetaがNVIDIAのテクノロジを採用するのは、今回が2度目となる。2017年、Metaは第1世代のAI研究用インフラストラクチャを構築し、1日に3万5,000件のAIトレーニングジョブを処理できる、2万2,000基のNVIDIA V100 Tensor コア GPUを搭載した。

MetaによるRSCの初期のベンチマークでは、従来のシステムと比べて大規模なNLPモデルを3倍の速度でトレーニング可能で、コンピュータービジョンのジョブを20倍の速度で処理できることが示された。今年後半の第2フェーズでは、RSCは搭載するGPUの数を1万6,000基にまで増やす予定。これによりMetaは5 EFLOPSの混合精度AI性能を達成できると想定している。また、MetaはRSCのストレージシステムを拡張し、1秒間に16TBの速度で、最大1EBのデータを処理できるようにすることを目指している。

Meta Platformsは同社のブログで「当社は、RSCにより、まったく新しいAIシステムを構築できるようになるでしょう。例えば、リアルタイムの音声翻訳を、それぞれが異なる言語を話す大人数のグループに提供し、シームレスに研究プロジェクトで連携したり、一緒にARゲームをプレイしたりできるようになります」とコメントしている。

関連サイト
NVIDIA
Meta