フロンティアの今年の配備に先立ち、1.5キャビネット「クラッシャー」が科学に貢献
ティファニー・トレーダー著
2022 年 3 月 28 日
Frontier スーパーコンピューターは 2021 年にエネルギー省のオークリッジ国立研究所に設置され、10 月に最終キャビネットが所定の位置に設置されました。 完全な 2 エクサフロップスのピーク システムの見直しが続いている一方で (インターコネクト テクノロジに関するトラブルについてはオフレコで聞いています)、フロンティア プロジェクトは同じコア設計の小規模なテストベッド システムで実行されています。
約 40 ペタフロップスのピーク倍精度で動作する「Crusher」は、Cray EX Frontier スーパーコンピューターの 1.5 キャビネット反復版です。 Crusher は、74 キャビネットのフロンティア システム全体の統合とテストが継続される間、初期の科学ユーザーにサービスを提供します。 オークリッジ国立研究所によると、フロンティアシステムは今年中に米国初のエクサスケールシステムとなる予定で、2023年1月1日に本格的なユーザー運用を開始する予定だという。
Crusher は 192 個の HPE Cray EX ノードで構成されており、各ノードには 1 個の AMD "Trento" 7A53 Epyc CPU と 4 個の AMD Instinct MI250X GPU (合計 768 個の GPU) が搭載されています。 Trento は、Milan と同じ Zen-3 コアを使用しており、メモリ効率が向上するように最適化されています。 ノードは HPE の Slingshot-11 インターコネクトによって接続されます。 各ノードは、CPU 上に 512 GiB DDR4 メモリを搭載し、ノード全体でコヒーレント メモリを備えた 512 GiB HMB2e (GPU あたり 128 GiB) を搭載します。
対照的に、フルサイズのフロンティアは、29MW の電力エンベロープ内の 74 個のキャビネットで 2 エクサフロップスのピーク倍精度パフォーマンスを提供する予定です。 Oak Ridge Leadership Computing Facility (OLCF) の 372 平方メートルの設置面積を占める Frontier は、9.2 ペタバイトのメモリ (4.6 ペタバイトの DDR4 と 4.6 ペタバイトの HBM2e) を集約する 9,408 ノードにまたがっています。 合計 GPU 数: 37,632。 37 ペタバイトのノード ローカル ストレージがあり、716 ペタバイトのセンター全体のストレージにアクセスできます。
Frontier アーキテクチャで使用される HPE Olympus ラックは、DIMM と NIC を含めて完全に水冷式です。 各キャビネットの重量 (乾燥時) は 3,630 キログラムです。 Frontier システム全体には、合計 81,000 本のケーブルがあります。
クラッシャー氏は、クラッシャー氏は科学を「粉砕する」準備ができていると語ったが、その名前はテレビシリーズ「スタートレック:ザ・ネクスト・ジェネレーション」の首席医務官にちなんだものではないかと疑っている。 拡張すると、その全体構成は「ファイナルフロンティア」になります。
すでに 4 つのプロジェクトが、Crusher および Frontier 向けにコードを最適化することに成功しています。 それらは、CANcer 分散学習環境 (CANDLE) プロジェクトです。 ∥ (並列) アーキテクチャ、または全羅プロジェクトの計算流体力学。 Locally Self-Consistent Multiple Scattering (LSMS) プロジェクト。 そして核結合クラスターオークリッジ(NuCCOR)プロジェクト。 これらのコードの一部は、OLCF の最初のハイブリッド アーキテクチャ システムである、同じく CPU+GPU ノードを採用し、2012 年に稼働した、廃止された 27 ペタフロップスの Cray XK7 Titan スーパーコンピュータに遡ります。
初期の結果のハイライト:
「Crusher は、当社が OLCF プラットフォームの初期ユーザー向けに展開してきた一連のテストおよび開発システムの最新のものであり、当社がこれまで提供したシステムの中で間違いなく最も強力です。」と ORNL の OLCF サイエンス ディレクターである Bronson Messer 氏は述べています。 「これらのコードチームがマシン上で実現している結果は、Frontier によるエクサスケール時代の幕開けに向けて非常に心強いものです。」
さらに、「Crusher は床面積がわずか 44 平方フィートで、以前の Titan スーパーコンピュータの 100 分の 1 のサイズですが、4,352 平方フィートのシステム全体よりも高速で、その小さなサイズに膨大なコンピューティング能力を詰め込んでいます」とさらに報告されています。オークリッジの発表。
Frontier は当初、2021 年後半に導入され、2022 年に受け入れられる予定でした。この範囲と規模のスーパーコンピューティング システムでは何らかの遅延が発生するのが一般的であり、Frontier は AMD A+A アーキテクチャの最初の実装であることに加えて、世界初のエクサスケール マシンの 1 つになりました。 広く予想されていたように、フロンティアが(今年は6月ではなく)5月下旬のTop500リストに間に合うかどうかはまだ分からない(システムが2021年11月のリストのリリース前に完全にインストールされていることを考慮すると)。 オークリッジは、フロンティアの展開と受け入れの正確なスケジュールについては、2022年に実施され、その後2023年1月1日に完全運用が開始されると述べた以外は明らかにしなかった。
オーク リッジとそのベンダー パートナーがすでに克服している課題の 1 つは、新型コロナウイルスに起因するサプライ チェーンの不足に関するものです。 今月初めのSCA22で講演したORNLコーポレートリサーチフェローのアル・ガイスト氏は、フロンティアの5,900万個の部品のうち、通常のメーカーが供給できない部品が約200万個あったと述べた。 「HPEとAMDのチームは、エレクトロニクス倉庫や[…]他のメーカーに電話をかけ、[不足している部品を調達する]という英雄的な努力をしました。」
リーダークラスの施設 (名前にあります) である OLCF は、2018 年にデビューしたもう 1 つの異種 CPU-GPU システムである Summit の本拠地です。149 Linpack ペタフロップスを実現するこの IBM 製マシンは、現在、過去 2 回のシステムで第 2 位のシステムです。年間の最速コンピュータのトップ 500 リスト。 世界最速のスーパーコンピューターの称号は、公式には理研アームベースの富士通システム(ピーク442ペタフロップス)が保持しているが、中国には政治的理由からリストから除外されたエクサスケールシステムが2台あると考えられている。
他の 2 つのエクサスケール システムは、アルゴンヌ国立研究所の Aurora とリバモア国立研究所の El Capitan です。 オーロラは何度かのリセットと挫折を経て、今年後半にアルゴンヌ国立研究所で立ち上がる予定だ。 IntelとHPEのコラボレーションは現在、2エクサフロップスを超えるピークパフォーマンスを目標としています。 表面的には、Frontier の展開の遅れにより、これらのスケジュールが競合する可能性があるかもしれません。 ただし、Frontier はすでにフロアにいますが、Aurora はまだいません。 Aurora スーパーコンピューター用の Ponte Vecchio GPU は今年後半まで納入されないと Intel が最近報告しました。 一方、リバモアではエル・キャピタンの準備が着々と進んでいます。 このシステムは、Frontier と同様のアーキテクチャを使用して HPE によって構築され、2023 年に出荷される予定で、2 エクサフロップスを超えるピーク パフォーマンスが約束されています。
OLCF を読むプレスリリースCrusher で実行されている科学コードの詳細については、こちらをご覧ください。
プレスリリース