ニュース

AMD、NVIDIA GB200と同等のAI性能を発揮する「Instinct MI350」

Instinct MI350シリーズ

 AMDは6月12日(米国時間)、米国カリフォルニア州サンノゼ市にあるサンノゼコンベンションセンターにおいてAI向け半導体ソリューションを説明するイベント「Advancing AI 2025」を開催。

 午前中にはAMD 会長 兼 CEO リサ・スー氏など同社幹部などが登壇した基調講演が行なわれ、その中で、AMDの次世代データセンターAI向けGPUとなる「AMD Instinct MI350」シリーズ(以下MI350)が発表された。

CDNA 4に強化されたMI350

AMDのデータセンター向けGPU「Instinct」の進化

 MI350シリーズは、AMDのデータセンター向けGPUの現行製品となるCDNAベースの「Instinct MI300/325」シリーズの後継製品となる製品だ。

【表1】MI300X、MI325X、MI355Xの違い(AMDの資料などより筆者作成)
MI300XMI325XMI355X
発表年202320242025
アーキテクチャCDNA 3CDNA 3CDNA 4
CU/XCD383832
CU/パッケージ304304256
メモリ192GB HBM3256GB HBM3e288GB HBM3e
メモリ帯域5.3TB/s6TB/s8TB/s
GPUダイノードTSMC 5nmTSMC 5nmTSMC 3nm(N3P)
IODノードTSMC 6nmTSMC 6nmTSMC 6nm
ピークFP64(ベクター)81.7TFLOPS81.7TFLOPS79TFLOPS
ピークFP32(ベクター)163.4TFOPS163.4TFOPS157.3TFOPS
ピークFP16(ベクター)163.4TFOPS163.4TFOPS157.3TFOPS
ピークFP16(行列/スパース)2.6PFLOPS2.6PFLOPS5PFLOP
ピークFP8(行列/スパース)5.2PFLOPS5.2PFLOPS10PFLOPS
ピークFP6(行列/スパース)20PFLOPS
ピークFP4(行列/スパース)20PFLOPS
TBP750W1,000W1,400W

【お詫びと訂正】初出時、表1内「ピークFP8(行列/スパース)」の数値に誤りがありました。お詫びして訂正いたします。

 AMDは2023年12月に最初のInstinct MI300シリーズ(以下MI300シリーズ)を発表した。MI300には、CPUとGPUを1つのパッケージに統合した「MI300A」と、GPUだけの「MI300X」の2つが用意されており、MI300Xには2つのIODの上に8つのGPUダイが3Dのチップレットで、そしてその周辺部にHBMが2.5Dのチップレットで1つのパッケージに封入される形で実現されてきた。

 昨年(2024年)の10月にAMDが発表したのがMI300Xのメモリ拡張版となるInstinct MI325Xで、MI300Xのメモリ(192GBのHBM3)を拡張して、256GBのHBM3eへと強化した。GPUの部分はMI300Xと同じで、このため基本的な演算性能(浮動小数点演算のスループット)はMI300Xと同等となっていた。

 今回AMDが発表したMI350は、GPUのアーキテクチャがCDNA 4へと強化され、GPUダイのプロセスノードは3nm(TSMC N3P)へと微細化されている。さらにメモリもHBM3eで288GBへと容量が増やされ、クロック周波数が引き上げられ、メモリ帯域幅が8TB/sへと強化されている。

チップレットの構造は継続し、GPUアーキクチャは演算効率が2倍になるCDNA 4へ

 MI350シリーズでは、1つのパッケージにXCDと呼ばれるGPUダイが8つ、その下にIODが2つ、さらには周辺部分にHBMのDRAMが搭載されるという3Dと2.5Dのチップレット構造を採用している。この点は従来のMI300X/325Xと共通だ。チップレット構造を採用していることで、ダイの製造コストを抑え、同時にダイの消費電力を抑えることにつながり、電力効率を引き上げることに成功している。

チップレットの構造はMI300X/325Xからキープコンセプト

 なお、IODに関してはMI300X/325Xと同じ6nmで製造されるIOD 2つを、2.5Dのチップレットで接続し、論理的にはInfinity Fabric AP(Advanced Package)で接続するという構造は共通であり、5.5TB/sの双方向通信が可能になっている。

XCDはCDNA 4の強化され、CUあたりの演算スループットは倍になっている

 大きく変えられたのはXCDと呼ばれるGPUダイだ。従来のMI300X/325XではCDNA 3と呼ばれるデータセンター向けアーキテクチャが採用されていたが、今回のMI350XではCDNA 4と呼ばれる第4世代のアーキテクチャになっている。CDNA 4は従来のCDNA 3に比べて2倍の演算スループットを実現しており、メモリ帯域やキャッシュ階層などの改良から演算スループットの改善を実現する。

 また、FP8の精度を利用した演算のフル実装が行なわれ、FP6、FP4などのAI演算の新しい流行になっている低い精度での演算に対応。さらに、アンコアと呼ばれるコア以外のI/O部分などの見直しにより電力効率が改善されている。

キャッシュ階層とXCDの構造、1つのXCDあたり36基のCUがあるが、4基は無効にされており32基のCUが内蔵されている。そのXCDが8つ搭載されているので、パッケージ全体で256基のCUが搭載されている

 一方、MI350シリーズのXCDは、1つあたり32基のCU(Compute Unit)を搭載し、パッケージ全体では256CUを搭載している。従来のXCD 1つあたり38基のCU、パッケージ全体で304基のCUだったので、CU数は減っていることになる。しかしこれにより電力効率は改善され、たとえばFP8で比較した場合、性能はほぼ倍になっているが、電力は倍になっていない。

【表2】Instinct MI355XとInstinct MI350X
MI350XMI355X
CU数/パッケージ256256
メモリ288GB(HBM3e)288GB(HBM3e)
メモリ帯域幅8TB/s8TB/s
ピークFP64(ベクター)72TFLOPS79TFLOPS
ピークFP16(行列/スパース)4.6PFLOPS5PFLOPS
ピークFP8(行列/スパース)9.2PFLOPS10PFLOPS
ピークFP6(行列/スパース)18.4PFLOPS20PFLOPS
ピークFP4(行列/スパース)18.4PFLOPS20PFLOPS
TBP1,000W1,400W

 MI350シリーズには2つのSKUが用意され、上位版がTBP 1,400Wの「MI355X」で、下位版がTBP 1,000Wの「MI350X」だ。クロック周波数などの差でこうした設定になっており、両者の性能差はおおよそ20%程度となっている。

MI355XとNVIDIAのGB200(GB200には2つのGPUが搭載されているので、1つであると仮定した時の数字)、B200との性能差

 競合となるNVIDIAのGB200/B200と比較すると、メモリ容量が約1.6倍となるほか、スパース性を利用しないFP64で約2倍の性能を達成。そしてFP8(スパース性)およびFP4(スパース性)の性能比較では、GB200と同等、もしくはB200に対しては10%アップの性能を発揮できるという。

ラックサーバー向けにラックあたりのGPU密度を向上させるDLCによる冷却を導入

UBB8の中では8つのGPUがInfinity Fabricで接続される形になる。MI350X向けに空冷を、MI355X向けにはDLCが推奨される

 AMDは、「UBB8」と呼んでいる、サーバーラック用の8パッケージ向けの基板や熱設計のレファレンスデザインに関しても更新。従来は空冷だけだったUBB8の熱設計に、DLC(Direct Liquid Cooling、直接液冷)を追加したことを明らかにした。空冷では4Uのラックサーバーにする必要があるが、DLCの場合には1OUないしは2Uのラックサーバーに納めることが可能になり、1つのラックに格納できるGPUの数を増やせる。

 ただ、MI355Xに関してはTBPが1,400Wに達するため、限りなく空冷はデザイン上難しく、DLCによる実装が前提になる。

1つのラックに格納した時の性能

 空冷のUBB8では、MI350Xを標準的な19インチラック(36U)に搭載した場合、8基のサーバー(+α)が格納でき、最大64基のGPUを1つのラックに格納できる。

 それに対してDLCのUBB8でMI355Xを構成する場合には、19インチラック(42U)に16基のサーバー(+α)を格納することが可能になり、最大128基のGPUを1つのラックに格納できる。

 これにより、前者はラック全体で0.6EFLOPS、後者はラック全体で1.3EFLOPS(いずれもFP8時)という演算性能になり、DLCを採用することで1つのラックあたりの演算性能を高めることが可能になる。これにより、同じデータセンターの面積で演算性能を向上させることが可能になる。

 MI350シリーズは既にクラウドサービス事業者やOEMメーカーなどに対して出荷が開始されている。今後各クラウドサービス事業者などからインスタンスとして提供される予定であるほか、Dell、HPE、SupermicroなどのOEMメーカーからオンプレミスのデータセンターへの導入を希望する大企業などに提供開始される予定で、提供開始は第3四半期の予定。