ニュース

AMD、NVIDIA GB200と同等のAI性能を発揮する「Instinct MI350」

笠原一輝

2025年6月13日 03:30

Instinct MI350シリーズ

　AMDは6月12日(米国時間)、米国カリフォルニア州サンノゼ市にあるサンノゼコンベンションセンターにおいてAI向け半導体ソリューションを説明するイベント「Advancing AI 2025」を開催。

　午前中にはAMD 会長兼 CEO リサ・スー氏など同社幹部などが登壇した基調講演が行なわれ、その中で、AMDの次世代データセンターAI向けGPUとなる「AMD Instinct MI350」シリーズ(以下MI350)が発表された。

CDNA 4に強化されたMI350

AMDのデータセンター向けGPU「Instinct」の進化

　MI350シリーズは、AMDのデータセンター向けGPUの現行製品となるCDNAベースの「Instinct MI300/325」シリーズの後継製品となる製品だ。

【表1】MI300X、MI325X、MI355Xの違い(AMDの資料などより筆者作成)
	MI300X	MI325X	MI355X
発表年	2023	2024	2025
アーキテクチャ	CDNA 3	CDNA 3	CDNA 4
CU/XCD	38	38	32
CU/パッケージ	304	304	256
メモリ	192GB HBM3	256GB HBM3e	288GB HBM3e
メモリ帯域	5.3TB/s	6TB/s	8TB/s
GPUダイノード	TSMC 5nm	TSMC 5nm	TSMC 3nm(N3P)
IODノード	TSMC 6nm	TSMC 6nm	TSMC 6nm
ピークFP64(ベクター)	81.7TFLOPS	81.7TFLOPS	79TFLOPS
ピークFP32(ベクター)	163.4TFOPS	163.4TFOPS	157.3TFOPS
ピークFP16(ベクター)	163.4TFOPS	163.4TFOPS	157.3TFOPS
ピークFP16(行列/スパース)	2.6PFLOPS	2.6PFLOPS	5PFLOP
ピークFP8(行列/スパース)	5.2PFLOPS	5.2PFLOPS	10PFLOPS
ピークFP6(行列/スパース)	ー	ー	20PFLOPS
ピークFP4(行列/スパース)	ー	ー	20PFLOPS
TBP	750W	1,000W	1,400W

【お詫びと訂正】初出時、表1内「ピークFP8(行列/スパース)」の数値に誤りがありました。お詫びして訂正いたします。

　AMDは2023年12月に最初のInstinct MI300シリーズ(以下MI300シリーズ)を発表した。MI300には、CPUとGPUを1つのパッケージに統合した「MI300A」と、GPUだけの「MI300X」の2つが用意されており、MI300Xには2つのIODの上に8つのGPUダイが3Dのチップレットで、そしてその周辺部にHBMが2.5Dのチップレットで1つのパッケージに封入される形で実現されてきた。

　昨年(2024年)の10月にAMDが発表したのがMI300Xのメモリ拡張版となるInstinct MI325Xで、MI300Xのメモリ(192GBのHBM3)を拡張して、256GBのHBM3eへと強化した。GPUの部分はMI300Xと同じで、このため基本的な演算性能(浮動小数点演算のスループット)はMI300Xと同等となっていた。

　今回AMDが発表したMI350は、GPUのアーキテクチャがCDNA 4へと強化され、GPUダイのプロセスノードは3nm(TSMC N3P)へと微細化されている。さらにメモリもHBM3eで288GBへと容量が増やされ、クロック周波数が引き上げられ、メモリ帯域幅が8TB/sへと強化されている。

チップレットの構造は継続し、GPUアーキクチャは演算効率が2倍になるCDNA 4へ

　MI350シリーズでは、1つのパッケージにXCDと呼ばれるGPUダイが8つ、その下にIODが2つ、さらには周辺部分にHBMのDRAMが搭載されるという3Dと2.5Dのチップレット構造を採用している。この点は従来のMI300X/325Xと共通だ。チップレット構造を採用していることで、ダイの製造コストを抑え、同時にダイの消費電力を抑えることにつながり、電力効率を引き上げることに成功している。

チップレットの構造はMI300X/325Xからキープコンセプト

　なお、IODに関してはMI300X/325Xと同じ6nmで製造されるIOD 2つを、2.5Dのチップレットで接続し、論理的にはInfinity Fabric AP(Advanced Package)で接続するという構造は共通であり、5.5TB/sの双方向通信が可能になっている。

XCDはCDNA 4の強化され、CUあたりの演算スループットは倍になっている

　大きく変えられたのはXCDと呼ばれるGPUダイだ。従来のMI300X/325XではCDNA 3と呼ばれるデータセンター向けアーキテクチャが採用されていたが、今回のMI350XではCDNA 4と呼ばれる第4世代のアーキテクチャになっている。CDNA 4は従来のCDNA 3に比べて2倍の演算スループットを実現しており、メモリ帯域やキャッシュ階層などの改良から演算スループットの改善を実現する。

　また、FP8の精度を利用した演算のフル実装が行なわれ、FP6、FP4などのAI演算の新しい流行になっている低い精度での演算に対応。さらに、アンコアと呼ばれるコア以外のI/O部分などの見直しにより電力効率が改善されている。

キャッシュ階層とXCDの構造、1つのXCDあたり36基のCUがあるが、4基は無効にされており32基のCUが内蔵されている。そのXCDが8つ搭載されているので、パッケージ全体で256基のCUが搭載されている

　一方、MI350シリーズのXCDは、1つあたり32基のCU(Compute Unit)を搭載し、パッケージ全体では256CUを搭載している。従来のXCD 1つあたり38基のCU、パッケージ全体で304基のCUだったので、CU数は減っていることになる。しかしこれにより電力効率は改善され、たとえばFP8で比較した場合、性能はほぼ倍になっているが、電力は倍になっていない。

【表2】Instinct MI355XとInstinct MI350X
	MI350X	MI355X
CU数/パッケージ	256	256
メモリ	288GB(HBM3e)	288GB(HBM3e)
メモリ帯域幅	8TB/s	8TB/s
ピークFP64(ベクター)	72TFLOPS	79TFLOPS
ピークFP16(行列/スパース)	4.6PFLOPS	5PFLOPS
ピークFP8(行列/スパース)	9.2PFLOPS	10PFLOPS
ピークFP6(行列/スパース)	18.4PFLOPS	20PFLOPS
ピークFP4(行列/スパース)	18.4PFLOPS	20PFLOPS
TBP	1,000W	1,400W

　MI350シリーズには2つのSKUが用意され、上位版がTBP 1,400Wの「MI355X」で、下位版がTBP 1,000Wの「MI350X」だ。クロック周波数などの差でこうした設定になっており、両者の性能差はおおよそ20%程度となっている。

MI355XとNVIDIAのGB200(GB200には2つのGPUが搭載されているので、1つであると仮定した時の数字)、B200との性能差

　競合となるNVIDIAのGB200/B200と比較すると、メモリ容量が約1.6倍となるほか、スパース性を利用しないFP64で約2倍の性能を達成。そしてFP8(スパース性)およびFP4(スパース性)の性能比較では、GB200と同等、もしくはB200に対しては10%アップの性能を発揮できるという。

ラックサーバー向けにラックあたりのGPU密度を向上させるDLCによる冷却を導入

UBB8の中では8つのGPUがInfinity Fabricで接続される形になる。MI350X向けに空冷を、MI355X向けにはDLCが推奨される

　AMDは、「UBB8」と呼んでいる、サーバーラック用の8パッケージ向けの基板や熱設計のレファレンスデザインに関しても更新。従来は空冷だけだったUBB8の熱設計に、DLC(Direct Liquid Cooling、直接液冷)を追加したことを明らかにした。空冷では4Uのラックサーバーにする必要があるが、DLCの場合には1OUないしは2Uのラックサーバーに納めることが可能になり、1つのラックに格納できるGPUの数を増やせる。

　ただ、MI355Xに関してはTBPが1,400Wに達するため、限りなく空冷はデザイン上難しく、DLCによる実装が前提になる。

1つのラックに格納した時の性能

　空冷のUBB8では、MI350Xを標準的な19インチラック(36U)に搭載した場合、8基のサーバー(+α)が格納でき、最大64基のGPUを1つのラックに格納できる。

　それに対してDLCのUBB8でMI355Xを構成する場合には、19インチラック(42U)に16基のサーバー(+α)を格納することが可能になり、最大128基のGPUを1つのラックに格納できる。

　これにより、前者はラック全体で0.6EFLOPS、後者はラック全体で1.3EFLOPS(いずれもFP8時)という演算性能になり、DLCを採用することで1つのラックあたりの演算性能を高めることが可能になる。これにより、同じデータセンターの面積で演算性能を向上させることが可能になる。

　MI350シリーズは既にクラウドサービス事業者やOEMメーカーなどに対して出荷が開始されている。今後各クラウドサービス事業者などからインスタンスとして提供される予定であるほか、Dell、HPE、SupermicroなどのOEMメーカーからオンプレミスのデータセンターへの導入を希望する大企業などに提供開始される予定で、提供開始は第3四半期の予定。