8GPU: GeForce RTX 3090 Deep Learning Benchmarks
- November 01, 2020
41
GeForce RTX 3090 の Deep Learning 学習での性能評価のため、HPCDIY-ERMGPU8R4S に8枚実装して、tensorflow で tf_cnn_benchmarks.py(ダウンロートはこちら)を実行してみました。
CPU: 2x AMD EPYC Rome 7302 DP/UP 16C/32T 3.0G 128M 155W, Memory: 512GB, SSD: NVMe U.2 1.92TB
NVIDIA Driver: 455.32.00
TensorFlow: nvcr.io/nvidia/tensorflow:20.09-tf1-py3
GeForce RTX 3090 Deep Learning Benchmarks: FP16 (XLA off)
カッコ内は 1 GPU に対しての倍率
1 GPU img/sec | 2 GPU img/sec | 4 GPU img/sec | 8 GPU img/sec | Batch Size | |
InceptionV4 | 339.52 | 605.70 (1.78) | 1270.05 (3.74) | 2244.80 (6.61) | 256 |
ResNet152 | 479.61 | 902.48 (1.88) | 1634.78 (3.41) | 2325.79 (4.85) | 256 |
NASNET | 266.66 | 453.78 (1.7) | 793.41 (2.98) | 1439.21 (5.40) | 256 |
VGG16 | 441.66 | 795.14 (1.80) | 1150.25 (2.60) | 1495.32 (3.39) | 256 |
InceptionV3 | 594.31 | 1081.58 (1.82) | 2187.01 (3.68) | 4030.78 (6.78) | 256 |
ResNet50 | 1169.36 | 2262.44 (1.95) | 4287.05 (3.67) | 7685.89 (6.57) | 512 |
実行は下記のコードの num_gpus, batch_size, model をそれぞれに応じて変更して行いました。
python tf_cnn_benchmarks.py --num_gpus=1 --batch_size=256 --model=inception3 --variable_update=parameter_server --use_fp16=True
GeForce RTX 3090 Deep Learning Benchmarks: FP32 (XLA off)
カッコ内は 1 GPU に対しての倍率
1 GPU img/sec | 2 GPU img/sec | 4 GPU img/sec | 8 GPU img/sec | Batch Size | |
InceptionV4 | 169.79 | 327.20 (1.93) | 607.92 (3.58) | 1111.2 (6.54) | 128 |
ResNet152 | 218.65 | 405.17 (1.85) | 723.32 (3.31) | 1052.92 (4.82) | 128 |
NASNET | 259.79 | 441.32 (1.70) | 803.78 (3.09) | 1389.07 (5.35) | 256 |
VGG16 | 306.16 | 536.17 (1.75) | 797.32 (2.60) | 993.5 (3.25) | 256 |
InceptionV3 | 331.66 | 634.71 (1.91) | 1192.11 (3.59) | 2093.93 (6.31) | 128 |
ResNet50 | 534.47 | 1041.56 (1.95) | 1977.74 (3.70) | 3483.59 (6.52) | 256 |
実行は下記のコードの num_gpus, batch_size, model をそれぞれに応じて変更して行いました。
python tf_cnn_benchmarks.py --num_gpus=1 --batch_size=256 --model=inception3 --variable_update=parameter_server
GeForce RTX 2080 ti, Quadro RTX 8000 との比較はこちらをご覧ください。
以上になります。