RTX A6000をそろそろ買い替えようとする場合、候補はRTX Pro 6000 Blackwell Max-Qだとして、両者を比較する

Ken Hanabusa - May 20, 2025 73

指標	RTX A6000	RTX PRO 6000 Blackwell Max-Q
アーキテクチャ	Ampere (GA102)	Blackwell (GB202)
CUDA コア数	10 ,752	24 ,064
Tensor コア	第 3 世代 ×336	第 5 世代 ×752
FP32 理論性能	38.71 TFLOPS	110.1 TFLOPS
GPU メモリ	48 GB GDDR6	96 GB GDDR7
メモリ帯域幅	768 GB/s	1 ,792 GB/s
TDP (公称)	300 W	300 W
1 W あたり FP32	0.13 TFLOPS/W	0.37 TFLOPS/W
典型的学習速度*（ResNet-50, 224², AMP/TF32）	1 × （≈1,800 img/s）	≈2.8–3 ×
典型的学習速度*（BERT-Large pre-train, FP16）	1 × （≈21 k token/s）	≈3.0–3.5 ×
特記事項	• TF32/FP16• NVLink (96 GB)	• FP8/FP4, MIG 4 分割• PCIe 5.0, NVLink v4

*学習速度は公開ベンチマーク（A6000）と Blackwell の理論性能／FP8・帯域の伸びを基にした 推定値 です。実際の値はフレームワーク・ドライバの成熟度、モデル実装、I/O ボトルネックで上下します。

計算性能 FP32 で約 2.8 倍、FP8 を使うと行列演算は最大 4 倍に達します。
メモリ バッチサイズをほぼ 2 倍に拡大でき、勾配累積が不要になり I/O 待ちが減少。
実効速度 PyTorch 2.4 ＋ torch.compile を想定すると、単 GPU で ~5,000 img/s 前後が狙えます（A6000 は ~1,800 img/s）。

両カードとも TDP は 300 W ですが、Blackwell は TFLOPS/W が約 2.8 倍。学習ジョブ 1 回あたりの消費電力はほぼ半分に圧縮できます（速度向上分を加味）。

Blackwell を活かすには PyTorch 2.4 以降＋CUDA 12.5 以降 が前提になる点に注意してください。

短期コストを抑えたい場合

　RTX A6000 でも 48 GB VRAM が必要十分であれば依然有力。中古相場が下がっており、ドライバも枯れています。
今後 2-3 年のスケールを見据えるなら

　RTX PRO 6000 Blackwell Max-Q が優位。FP8 学習・96 GB VRAM・MIG により、大規模画像分類と LLM の両方で 約 3 倍の学習スループット、同一 TDP で 3 倍の性能/W を期待できます。