Monthly Archives: May 2025
-
- May 20, 2025 25
RTX A6000 と RTX PRO 6000 Blackwell Max-Q (デスクトップ向け) ― PyTorch 学習ワークロード向け比較表
指標
RTX A6000
RTX PRO 6000 Blackwell Max-Q
アーキテクチャ
Ampere (GA102)
Blackwell (GB202)
CUDA コア数
10 ,752
24 ,064
Tensor コア
第 3 世代 ×336
第 5 世代 ×752
FP32 理論性能
38.71 TFLOPS
110.1 TFLOPS
GPU メモリ
48 GB GDDR6
96 GB GDDR7
メモリ帯域幅
768 GB/s
1 ,792 GB/s
TDP (公称)
300 W
300 W
1 W あたり FP32
0.13 TFLOPS/W
0.37 TFLOPS/W
典型的学習速度*(ResNet-50, 224², AMP/TF32)
1 × (≈1,800 p>
≈2.8–3 ×
典型的学習速度*(BERT-Large pre-train, FP16)
1 × (≈21 k token/s)
≈3.0–3.5 ×
特記事項
• TF32/FP16• NVLink (96 GB)
• FP8/FP4, MIG 4 分割• PCIe 5.0, NVLink v4
*学習速度は公開ベンチマーク(A6000)と Blackwell の理論性能/FP8・帯域の伸びを基にした 推定値 です。実際の値はフレームワーク・ドライバの成熟度、モデル実装、I/O ボトルネックで上下します。
1. 画像分類ワークロード(例:ImageNet、ViT)
-
計算性能 FP32 で約 2.8 倍、FP8 を使うと行列演算は最大 4 倍に達します。
-
メモリ バッチサイズをほぼ 2 倍に拡大でき、勾配累積が不要になり I/O 待ちが減少。
-
実効速度 PyTorch 2.4 + torch.compile を想定すると、単 GPU で ~5,000 s)。
2. 自然言語処理(例:BERT-Large、Llama 7B)
-
大容量 VRAM Blackwell は 96 GB あるため、単 GPU で Llama-13B FP16 が収まり、パイプライン並列が不要。
-