2GPU: NVIDIA A100 Deep Learning Benchmarks

タグ

NVIDIA A100 PCIe 40GB の Deep Learning 学習での性能評価のため、HPCDIY-ERMGPU8R4S に2枚実装して、tensorflow で tf_cnn_benchmarks.py（ダウンロートはこちら）を実行してみました。

CPU: 2x AMD EPYC Rome 7302 DP/UP 16C/32T 3.0G 128M 155W, Memory: 512GB, SSD: NVMe U.2 1.92TB
NVIDIA Driver: 455.32.00
TensorFlow: nvcr.io/nvidia/tensorflow:20.10-tf1-py3

さすがにFlag Ship GPU だけあり、GeForce RTX 3090 に比較して、約1.6~2.2倍高速で、スケーラビリティも非常に高く、しかも低消費電力という結果になりました。
もっと高速学習が必要という場合は、HPCDIY-EPCGPU4R2S-NVL Computer（こちら）がおすすめです。

NVIDIA A100 Deep Learning Benchmarks: FP16 (XLA off)
カッコ内は 1 GPU に対しての倍率

	1 GPU img/sec	2 GPU img/sec	Batch Size
InceptionV4	685.91	1318.93 (1.92)	256
ResNet152	896.62	1693.55 (1.89)	256
NASNET	358.59	669.69 (1.87)	512
VGG16	868.5	1700.92 (1.96)	512
InceptionV3	1347.4	2650.91 (1.97)	512
ResNet50	2175.71	4179.29 (1.92)	512

実行は下記のコードの num_gpus, batch_size, model をそれぞれに応じて変更して行いました。

python tf_cnn_benchmarks.py --num_gpus=1 --batch_size=256 --model=inception3 --use_fp16=True

NVIDIA A100 Deep Learning Benchmarks: FP32 (XLA off)
カッコ内は 1 GPU に対しての倍率

	1 GPU img/sec	2 GPU img/sec	Batch Size
InceptionV4	288.59	562.92 (1.95)	128
ResNet152	360.29	689.98 (1.92)	128
NASNET	423.54	806.46 (1.90)	256
VGG16	482.12	959.78 (1.99)	256
InceptionV3	585.30	1155.18 (1.97)	256
ResNet50	847.77	1659.47 (1.96)	256

実行は下記のコードの num_gpus, batch_size, model をそれぞれに応じて変更して行いました。

python tf_cnn_benchmarks.py --num_gpus=1 --batch_size=256 --model=inception3

以上になります。