4GPU: 再計測 GeForce RTX 3090 Deep Learning Benchmarks

- November 05, 2020 62

タグ

再計測（NGCのtensorflow:20.10-tf1-py3使用）GeForce RTX 3090 の Deep Learning 学習での性能評価のため、HPCDIY-ERM1GPU4TS に４枚実装して、tensorflow で tf_cnn_benchmarks.py（ダウンロートはこちら）を実行してみました。
前回（こちら）より良い成績になりました。

CPU: AMD EPYC Rome 7252 DP/UP 8C/16T 3.1G 64M 120W, Memory: 128GB, SSD: NVMe M.2 512GB
NVIDIA Driver: 455.32.00
TensorFlow: nvcr.io/nvidia/tensorflow:20.10-tf1-py3

結論から言いますと、非常に高性能で、少なくとも 4GPU までは、並列性能も高い、という結果になりました。

GeForce RTX 3090 Deep Learning Benchmarks: FP16 (XLA off)
カッコ内は 1 GPU に対しての倍率

	1 GPU img/sec	2 GPU img/sec	4 GPU img/sec	Batch Size
InceptionV4	339.72	675.66 (1.99)	1274.14 (3.75)	256
ResNet152	481.39	891.17 (1.85)	1777.95 (3.69)	256
NASNET	283.63	548.10 (1.93)	1038.90 (3.66)	256
VGG16	448.04	833.02 (1.86)	1308.38 (2.92)	256
InceptionV3	596.88	1115.31 (1.87)	2242.84 (3.76)	256
ResNet50	1183.03	2317.95 (1.96)	4531.40 (3.83)	512

実行は下記のコードの num_gpus, batch_size, model をそれぞれに応じて変更して行いました。

python tf_cnn_benchmarks.py --num_gpus=1 --batch_size=256 --model=inception3 --variable_update=parameter_server --use_fp16=True

GeForce RTX 3090 Deep Learning Benchmarks: FP32 (XLA off)
カッコ内は 1 GPU に対しての倍率

	1 GPU img/sec	2 GPU img/sec	4 GPU img/sec	Batch Size
InceptionV4	171.19	337.60 (1.97)	655.87 (3.83)	128
ResNet152	219.22	425.3 (1.94)	812.2 (3.70)	128
NASNET	274.40	526.84 (1.92)	1003.52 (3.66)	256
VGG16	305.61	581.41 (1.90)	958.69 (3.14)	256
InceptionV3	335.80	660.61 (1.97)	1281.41 (3.82)	128
ResNet50	535.90	1058.03 (1.97)	2057.82 (3.84)	256

実行は下記のコードの num_gpus, batch_size, model をそれぞれに応じて変更して行いました。

python tf_cnn_benchmarks.py --num_gpus=1 --batch_size=256 --model=inception3 --variable_update=parameter_server

大雑把な比較としてExxact Corporation のこちらのページのGeForce 2080 ti のデータと比べてみました。

GeForce RTX 2080 ti との比較: FP16 (XLA off) の場合、(RTX3090 img/sec) / (RTX 2080 ti img/sec)

	1 GPU	2 GPU	4 GPU
InceptionV4	2.26	2.73	2.56
ResNet152	2.30	2.55	3.30
NASNET	1.65	1.77	1.80
VGG16	1.63	1.99	2.23
InceptionV3	1.92	1.96	2.03
ResNet50	2.26	2.42	2.47

GeForce RTX 2080 ti との比較: FP32 (XLA off) の場合、(RTX3090 img/sec) / (RTX 2080 ti img/sec)

	1 GPU	2 GPU	4 GPU
InceptionV4	1.52	1.85	2.46
ResNet152	2.43	2.68	2.73
NASNET	1.54	2.12	3.17
VGG16	2.01	2.20	2.08
InceptionV3	1.72	1.86	1.84
ResNet50	1.78	1.92	2.05

さらに、Exxact Corporation のこちらのページの Quadro RTX 8000 のデータと比べてみました。

Quadro RTX 8000 との比較: FP16 (RTX8000 は Large Batch size) 、(RTX3090 img/sec) / (Quadro RTX 8000 img/sec)

	1 GPU	2 GPU	4 GPU
InceptionV4	1.67	1.76	1.67
ResNet152	1.68	1.68	1.67
NASNET	1.44	1.49	1.43
VGG16	1.62	1.58	1.33
InceptionV3	1.53	1.48	1.52
ResNet50	1.96	1.96	1.94

Quadro RTX 8000 との比較: FP32 (RTX8000 は Large Batch size) 、(RTX3090 img/sec) / (Quadro RTX 8000 img/sec)

	1 GPU	2 GPU	4 GPU
InceptionV4	1.63	1.68	1.90
ResNet152	1.60	1.70	1.79
NASNET	1.46	1.51	1.63
VGG16	1.83	1.84	1.55
InceptionV3	1.55	1.60	1.79
ResNet50	1.66	1.70	1.70

以上になります。

яндекс

前 Supermicro製10GPU Serverをラックマウントする動画

次 2GPU: NVIDIA A100 Deep Learning Benchmarks

Comment(s)