RTX A6000をそろそろ買い替えようとする場合、候補はRTX Pro 6000 Blackwell Max-Qだとして、両者を比較する
RTX A6000 と RTX PRO 6000 Blackwell Max-Q (デスクトップ向け) ― PyTorch 学習ワークロード向け比較表
指標 |
RTX A6000 |
RTX PRO 6000 Blackwell Max-Q |
---|---|---|
アーキテクチャ |
Ampere (GA102) |
Blackwell (GB202) |
CUDA コア数 |
10 ,752 |
24 ,064 |
Tensor コア |
第 3 世代 ×336 |
第 5 世代 ×752 |
FP32 理論性能 |
38.71 TFLOPS |
110.1 TFLOPS |
GPU メモリ |
48 GB GDDR6 |
96 GB GDDR7 |
メモリ帯域幅 |
768 GB/s |
1 ,792 GB/s |
TDP (公称) |
300 W |
300 W |
1 W あたり FP32 |
0.13 TFLOPS/W |
0.37 TFLOPS/W |
典型的学習速度*(ResNet-50, 224², AMP/TF32) |
1 × (≈1,800 img/s) |
≈2.8–3 × |
典型的学習速度*(BERT-Large pre-train, FP16) |
1 × (≈21 k token/s) |
≈3.0–3.5 × |
特記事項 |
• TF32/FP16• NVLink (96 GB) |
• FP8/FP4, MIG 4 分割• PCIe 5.0, NVLink v4 |
*学習速度は公開ベンチマーク(A6000)と Blackwell の理論性能/FP8・帯域の伸びを基にした 推定値 です。実際の値はフレームワーク・ドライバの成熟度、モデル実装、I/O ボトルネックで上下します。
1. 画像分類ワークロード(例:ImageNet、ViT)
-
計算性能 FP32 で約 2.8 倍、FP8 を使うと行列演算は最大 4 倍に達します。
-
メモリ バッチサイズをほぼ 2 倍に拡大でき、勾配累積が不要になり I/O 待ちが減少。
-
実効速度 PyTorch 2.4 + torch.compile を想定すると、単 GPU で ~5,000 img/s 前後が狙えます(A6000 は ~1,800 img/s)。
2. 自然言語処理(例:BERT-Large、Llama 7B)
-
大容量 VRAM Blackwell は 96 GB あるため、単 GPU で Llama-13B FP16 が収まり、パイプライン並列が不要。
-
帯域・キャッシュ 1.8 TB/s でシーケンス長 2 K でもメモリスタールが起きにくく、トークンスループットが ~3× 向上。
3. 消費電力と静音性
両カードとも TDP は 300 W ですが、Blackwell は TFLOPS/W が約 2.8 倍。学習ジョブ 1 回あたりの消費電力はほぼ半分に圧縮できます(速度向上分を加味)。
4. フレームワーク対応状況
機能 |
PyTorch 2.3 (LTS) |
PyTorch 2.4 / nightly |
---|---|---|
FP8/FP4 gemm |
― |
✅ (torch.cuda.fp8 API) |
NVLink v4 |
部分対応 |
✅ |
MIG (4-way) |
― |
✅ (cudaSetDeviceFlags) |
Blackwell を活かすには PyTorch 2.4 以降+CUDA 12.5 以降 が前提になる点に注意してください。
まとめ
-
短期コストを抑えたい場合
RTX A6000 でも 48 GB VRAM が必要十分であれば依然有力。中古相場が下がっており、ドライバも枯れています。
-
今後 2-3 年のスケールを見据えるなら
RTX PRO 6000 Blackwell Max-Q が優位。FP8 学習・96 GB VRAM・MIG により、大規模画像分類と LLM の両方で 約 3 倍の学習スループット、同一 TDP で 3 倍の性能/W を期待できます。