RTX A6000 と RTX PRO 6000 Blackwell Max-Q (デスクトップ向け) ― PyTorch 学習ワークロード向け比較表

指標

RTX A6000

RTX PRO 6000 Blackwell Max-Q

アーキテクチャ

Ampere (GA102)

Blackwell (GB202)

CUDA コア数

10 ,752

24 ,064

Tensor コア

第 3 世代 ×336

第 5 世代 ×752

FP32 理論性能

38.71 TFLOPS

110.1 TFLOPS

GPU メモリ

48 GB GDDR6

96 GB GDDR7

メモリ帯域幅

768 GB/s

1 ,792 GB/s

TDP (公称)

300 W

300 W

1 W あたり FP32

0.13 TFLOPS/W

0.37 TFLOPS/W

典型的学習速度*(ResNet-50, 224², AMP/TF32)

1 × (≈1,800 img/s)

≈2.8–3 ×

典型的学習速度*(BERT-Large pre-train, FP16)

1 × (≈21 k token/s)

≈3.0–3.5 ×

特記事項

• TF32/FP16• NVLink (96 GB)

• FP8/FP4, MIG 4 分割• PCIe 5.0, NVLink v4

*学習速度は公開ベンチマーク(A6000)と Blackwell の理論性能/FP8・帯域の伸びを基にした 推定値 です。実際の値はフレームワーク・ドライバの成熟度、モデル実装、I/O ボトルネックで上下します。


1. 画像分類ワークロード(例:ImageNet、ViT)

  • 計算性能 FP32 で約 2.8 倍、FP8 を使うと行列演算は最大 4 倍に達します。

  • メモリ バッチサイズをほぼ 2 倍に拡大でき、勾配累積が不要になり I/O 待ちが減少。

  • 実効速度 PyTorch 2.4 + torch.compile を想定すると、単 GPU で ~5,000 img/s 前後が狙えます(A6000 は ~1,800 img/s)。

 

2. 自然言語処理(例:BERT-Large、Llama 7B)

  • 大容量 VRAM Blackwell は 96 GB あるため、単 GPU で Llama-13B FP16 が収まり、パイプライン並列が不要。

  • 帯域・キャッシュ 1.8 TB/s でシーケンス長 2 K でもメモリスタールが起きにくく、トークンスループットが ~3× 向上。

 

3. 消費電力と静音性

 

両カードとも TDP は 300 W ですが、Blackwell は TFLOPS/W が約 2.8 倍。学習ジョブ 1 回あたりの消費電力はほぼ半分に圧縮できます(速度向上分を加味)。

 

4. フレームワーク対応状況

機能

PyTorch 2.3 (LTS)

PyTorch 2.4 / nightly

FP8/FP4 gemm

✅ (torch.cuda.fp8 API)

NVLink v4

部分対応

MIG (4-way)

✅ (cudaSetDeviceFlags)

Blackwell を活かすには PyTorch 2.4 以降+CUDA 12.5 以降 が前提になる点に注意してください。


まとめ

  • 短期コストを抑えたい場合

     RTX A6000 でも 48 GB VRAM が必要十分であれば依然有力。中古相場が下がっており、ドライバも枯れています。

  • 今後 2-3 年のスケールを見据えるなら

     RTX PRO 6000 Blackwell Max-Q が優位。FP8 学習・96 GB VRAM・MIG により、大規模画像分類と LLM の両方で 約 3 倍の学習スループット同一 TDP で 3 倍の性能/W を期待できます。


出典