ニュース
AMD、NVIDIA GB200と同等のAI性能を発揮する「Instinct MI350」
2025年6月13日 03:30
AMDは6月12日(米国時間)、米国カリフォルニア州サンノゼ市にあるサンノゼコンベンションセンターにおいてAI向け半導体ソリューションを説明するイベント「Advancing AI 2025」を開催。
午前中にはAMD 会長 兼 CEO リサ・スー氏など同社幹部などが登壇した基調講演が行なわれ、その中で、AMDの次世代データセンターAI向けGPUとなる「AMD Instinct MI350」シリーズ(以下MI350)が発表された。
CDNA 4に強化されたMI350
MI350シリーズは、AMDのデータセンター向けGPUの現行製品となるCDNAベースの「Instinct MI300/325」シリーズの後継製品となる製品だ。
MI300X | MI325X | MI355X | |
---|---|---|---|
発表年 | 2023 | 2024 | 2025 |
アーキテクチャ | CDNA 3 | CDNA 3 | CDNA 4 |
CU/XCD | 38 | 38 | 32 |
CU/パッケージ | 304 | 304 | 256 |
メモリ | 192GB HBM3 | 256GB HBM3e | 288GB HBM3e |
メモリ帯域 | 5.3TB/s | 6TB/s | 8TB/s |
GPUダイノード | TSMC 5nm | TSMC 5nm | TSMC 3nm(N3P) |
IODノード | TSMC 6nm | TSMC 6nm | TSMC 6nm |
ピークFP64(ベクター) | 81.7TFLOPS | 81.7TFLOPS | 79TFLOPS |
ピークFP32(ベクター) | 163.4TFOPS | 163.4TFOPS | 157.3TFOPS |
ピークFP16(ベクター) | 163.4TFOPS | 163.4TFOPS | 157.3TFOPS |
ピークFP16(行列/スパース) | 2.6PFLOPS | 2.6PFLOPS | 5PFLOP |
ピークFP8(行列/スパース) | 5.2PFLOPS | 5.2PFLOPS | 10PFLOPS |
ピークFP6(行列/スパース) | ー | ー | 20PFLOPS |
ピークFP4(行列/スパース) | ー | ー | 20PFLOPS |
TBP | 750W | 1,000W | 1,400W |
【お詫びと訂正】初出時、表1内「ピークFP8(行列/スパース)」の数値に誤りがありました。お詫びして訂正いたします。
AMDは2023年12月に最初のInstinct MI300シリーズ(以下MI300シリーズ)を発表した。MI300には、CPUとGPUを1つのパッケージに統合した「MI300A」と、GPUだけの「MI300X」の2つが用意されており、MI300Xには2つのIODの上に8つのGPUダイが3Dのチップレットで、そしてその周辺部にHBMが2.5Dのチップレットで1つのパッケージに封入される形で実現されてきた。
昨年(2024年)の10月にAMDが発表したのがMI300Xのメモリ拡張版となるInstinct MI325Xで、MI300Xのメモリ(192GBのHBM3)を拡張して、256GBのHBM3eへと強化した。GPUの部分はMI300Xと同じで、このため基本的な演算性能(浮動小数点演算のスループット)はMI300Xと同等となっていた。
今回AMDが発表したMI350は、GPUのアーキテクチャがCDNA 4へと強化され、GPUダイのプロセスノードは3nm(TSMC N3P)へと微細化されている。さらにメモリもHBM3eで288GBへと容量が増やされ、クロック周波数が引き上げられ、メモリ帯域幅が8TB/sへと強化されている。
チップレットの構造は継続し、GPUアーキクチャは演算効率が2倍になるCDNA 4へ
MI350シリーズでは、1つのパッケージにXCDと呼ばれるGPUダイが8つ、その下にIODが2つ、さらには周辺部分にHBMのDRAMが搭載されるという3Dと2.5Dのチップレット構造を採用している。この点は従来のMI300X/325Xと共通だ。チップレット構造を採用していることで、ダイの製造コストを抑え、同時にダイの消費電力を抑えることにつながり、電力効率を引き上げることに成功している。
なお、IODに関してはMI300X/325Xと同じ6nmで製造されるIOD 2つを、2.5Dのチップレットで接続し、論理的にはInfinity Fabric AP(Advanced Package)で接続するという構造は共通であり、5.5TB/sの双方向通信が可能になっている。
大きく変えられたのはXCDと呼ばれるGPUダイだ。従来のMI300X/325XではCDNA 3と呼ばれるデータセンター向けアーキテクチャが採用されていたが、今回のMI350XではCDNA 4と呼ばれる第4世代のアーキテクチャになっている。CDNA 4は従来のCDNA 3に比べて2倍の演算スループットを実現しており、メモリ帯域やキャッシュ階層などの改良から演算スループットの改善を実現する。
また、FP8の精度を利用した演算のフル実装が行なわれ、FP6、FP4などのAI演算の新しい流行になっている低い精度での演算に対応。さらに、アンコアと呼ばれるコア以外のI/O部分などの見直しにより電力効率が改善されている。
一方、MI350シリーズのXCDは、1つあたり32基のCU(Compute Unit)を搭載し、パッケージ全体では256CUを搭載している。従来のXCD 1つあたり38基のCU、パッケージ全体で304基のCUだったので、CU数は減っていることになる。しかしこれにより電力効率は改善され、たとえばFP8で比較した場合、性能はほぼ倍になっているが、電力は倍になっていない。
MI350X | MI355X | |
---|---|---|
CU数/パッケージ | 256 | 256 |
メモリ | 288GB(HBM3e) | 288GB(HBM3e) |
メモリ帯域幅 | 8TB/s | 8TB/s |
ピークFP64(ベクター) | 72TFLOPS | 79TFLOPS |
ピークFP16(行列/スパース) | 4.6PFLOPS | 5PFLOPS |
ピークFP8(行列/スパース) | 9.2PFLOPS | 10PFLOPS |
ピークFP6(行列/スパース) | 18.4PFLOPS | 20PFLOPS |
ピークFP4(行列/スパース) | 18.4PFLOPS | 20PFLOPS |
TBP | 1,000W | 1,400W |
MI350シリーズには2つのSKUが用意され、上位版がTBP 1,400Wの「MI355X」で、下位版がTBP 1,000Wの「MI350X」だ。クロック周波数などの差でこうした設定になっており、両者の性能差はおおよそ20%程度となっている。
競合となるNVIDIAのGB200/B200と比較すると、メモリ容量が約1.6倍となるほか、スパース性を利用しないFP64で約2倍の性能を達成。そしてFP8(スパース性)およびFP4(スパース性)の性能比較では、GB200と同等、もしくはB200に対しては10%アップの性能を発揮できるという。
ラックサーバー向けにラックあたりのGPU密度を向上させるDLCによる冷却を導入
AMDは、「UBB8」と呼んでいる、サーバーラック用の8パッケージ向けの基板や熱設計のレファレンスデザインに関しても更新。従来は空冷だけだったUBB8の熱設計に、DLC(Direct Liquid Cooling、直接液冷)を追加したことを明らかにした。空冷では4Uのラックサーバーにする必要があるが、DLCの場合には1OUないしは2Uのラックサーバーに納めることが可能になり、1つのラックに格納できるGPUの数を増やせる。
ただ、MI355Xに関してはTBPが1,400Wに達するため、限りなく空冷はデザイン上難しく、DLCによる実装が前提になる。
空冷のUBB8では、MI350Xを標準的な19インチラック(36U)に搭載した場合、8基のサーバー(+α)が格納でき、最大64基のGPUを1つのラックに格納できる。
それに対してDLCのUBB8でMI355Xを構成する場合には、19インチラック(42U)に16基のサーバー(+α)を格納することが可能になり、最大128基のGPUを1つのラックに格納できる。
これにより、前者はラック全体で0.6EFLOPS、後者はラック全体で1.3EFLOPS(いずれもFP8時)という演算性能になり、DLCを採用することで1つのラックあたりの演算性能を高めることが可能になる。これにより、同じデータセンターの面積で演算性能を向上させることが可能になる。
MI350シリーズは既にクラウドサービス事業者やOEMメーカーなどに対して出荷が開始されている。今後各クラウドサービス事業者などからインスタンスとして提供される予定であるほか、Dell、HPE、SupermicroなどのOEMメーカーからオンプレミスのデータセンターへの導入を希望する大企業などに提供開始される予定で、提供開始は第3四半期の予定。