8GPU: GeForce RTX 3090 Deep Learning Benchmarks

- November 01, 2020 60

タグ

GeForce RTX 3090 の Deep Learning 学習での性能評価のため、HPCDIY-ERMGPU8R4S に8枚実装して、tensorflow で tf_cnn_benchmarks.py（ダウンロートはこちら）を実行してみました。

CPU: 2x AMD EPYC Rome 7302 DP/UP 16C/32T 3.0G 128M 155W, Memory: 512GB, SSD: NVMe U.2 1.92TB
NVIDIA Driver: 455.32.00
TensorFlow: nvcr.io/nvidia/tensorflow:20.09-tf1-py3

GeForce RTX 3090 Deep Learning Benchmarks: FP16 (XLA off)

カッコ内は 1 GPU に対しての倍率

	1 GPU img/sec	2 GPU img/sec	4 GPU img/sec	8 GPU img/sec	Batch Size
InceptionV4	339.52	605.70 (1.78)	1270.05 (3.74)	2244.80 (6.61)	256
ResNet152	479.61	902.48 (1.88)	1634.78 (3.41)	2325.79 (4.85)	256
NASNET	266.66	453.78 (1.7)	793.41 (2.98)	1439.21 (5.40)	256
VGG16	441.66	795.14 (1.80)	1150.25 (2.60)	1495.32 (3.39)	256
InceptionV3	594.31	1081.58 (1.82)	2187.01 (3.68)	4030.78 (6.78)	256
ResNet50	1169.36	2262.44 (1.95)	4287.05 (3.67)	7685.89 (6.57)	512

実行は下記のコードの num_gpus, batch_size, model をそれぞれに応じて変更して行いました。

python tf_cnn_benchmarks.py --num_gpus=1 --batch_size=256 --model=inception3 --variable_update=parameter_server --use_fp16=True

GeForce RTX 3090 Deep Learning Benchmarks: FP32 (XLA off)
カッコ内は 1 GPU に対しての倍率

	1 GPU img/sec	2 GPU img/sec	4 GPU img/sec	8 GPU img/sec	Batch Size
InceptionV4	169.79	327.20 (1.93)	607.92 (3.58)	1111.2 (6.54)	128
ResNet152	218.65	405.17 (1.85)	723.32 (3.31)	1052.92 (4.82)	128
NASNET	259.79	441.32 (1.70)	803.78 (3.09)	1389.07 (5.35)	256
VGG16	306.16	536.17 (1.75)	797.32 (2.60)	993.5 (3.25)	256
InceptionV3	331.66	634.71 (1.91)	1192.11 (3.59)	2093.93 (6.31)	128
ResNet50	534.47	1041.56 (1.95)	1977.74 (3.70)	3483.59 (6.52)	256

実行は下記のコードの num_gpus, batch_size, model をそれぞれに応じて変更して行いました。

python tf_cnn_benchmarks.py --num_gpus=1 --batch_size=256 --model=inception3 --variable_update=parameter_server

GeForce RTX 2080 ti, Quadro RTX 8000 との比較はこちらをご覧ください。

以上になります。

前 2GPU: NVIDIA A100 の nvidia-smi と deviceQuery

次 8GPU: HPCDIY-ERMGPU8R4S に RTX3090を8枚実装してGPU100%での消費電力と温度

Comment(s)