4GPU: GeForce RTX 3090 Deep Learning Benchmarks
GeForce RTX 3090 の Deep Learning 学習での性能評価のため、HPCDIY-ERM1GPU4TS に4枚実装して、tensorflow で tf_cnn_benchmarks.py(ダウンロートはこちら)を実行してみました。
TensorFlow を新しくして再計測したらもっと高速になりました。その記事はこちら。
CPU: AMD EPYC Rome 7252 DP/UP 8C/16T 3.1G 64M 120W, Memory: 128GB, SSD: NVMe M.2 512GB
NVIDIA Driver: 455.32.00
TensorFlow: nvcr.io/nvidia/tensorflow:20.09-tf1-py3
結論から言いますと、非常に高性能で、少なくとも 4GPU までは、並列性能も高い、という結果になりました。
GeForce RTX 3090 Deep Learning Benchmarks: FP16 (XLA off)
カッコ内は 1 GPU に対しての倍率
1 GPU img/sec | 2 GPU img/sec | 4 GPU img/sec | Batch Size | |
InceptionV4 | 322.12 | 626.50 (1.94) | 1227.68 (3.81) | 256 |
ResNet152 | 402.15 | 783.91 (1.95) | 1496.47 (3.72) | 256 |
NASNET | 200.57 | 386.94 (1.93) | 741.23 (3.70) | 256 |
VGG16 | 400.92 | 747.73 (1.87) | 1232.62 (3.07) | 256 |
InceptionV3 | 614.74 | 1184.35 (1.93) | 2334.61 (3.80) | 256 |
ResNet50 | 846.85 | 1675.00 (1.98) | 3238.07 (3.82) | 512 |
実行は下記のコードの num_gpus, batch_size, model をそれぞれに応じて変更して行いました。
python tf_cnn_benchmarks.py --num_gpus=1 --batch_size=256 --model=inception3 --variable_update=parameter_server --use_fp16=True
GeForce RTX 3090 Deep Learning Benchmarks: FP32 (XLA off)
カッコ内は 1 GPU に対しての倍率
1 GPU img/sec | 2 GPU img/sec | 4 GPU img/sec | Batch Size | |
InceptionV4 | 147.20 | 289.92 (1.97) | 560.12 (3.81) | 128 |
ResNet152 | 178.81 | 346.59 (1.94) | 660.36 (3.69) | 128 |
NASNET | 199.12 | 381.87 (1.92) | 742.94 (3.73) | 256 |
VGG16 | 307.01 | 579.90 (1.89) | 941.13 (3.07) | 256 |
InceptionV3 | 301.10 | 587.51 (1.95) | 1124.88 (3.74) | 128 |
ResNet50 | 454.01 | 892.08 (1.96) | 1741.00 (3.83) | 256 |
実行は下記のコードの num_gpus, batch_size, model をそれぞれに応じて変更して行いました。
python tf_cnn_benchmarks.py --num_gpus=1 --batch_size=256 --model=inception3 --variable_update=parameter_server
大雑把な比較としてExxact Corporation のこちらのページのGeForce 2080 ti のデータと比べてみました。
GeForce RTX 2080 ti との比較: FP16 (XLA off) の場合、(RTX3090 img/sec) / (RTX 2080 ti img/sec)
1 GPU | 2 GPU | 4 GPU | |
InceptionV4 | 2.14 | 2.53 | 2.47 |
ResNet152 | 1.92 | 2.25 | 2.78 |
NASNET | 1.17 | 1.25 | 1.28 |
VGG16 | 1.46 | 1.78 | 2.10 |
InceptionV3 | 1.98 | 2.08 | 2.11 |
ResNet50 | 1.62 | 1.75 | 1.76 |
GeForce RTX 2080 ti との比較: FP32 (XLA off) の場合、(RTX3090 img/sec) / (RTX 2080 ti img/sec)
1 GPU | 2 GPU | 4 GPU | |
InceptionV4 | 1.31 | 1.59 | 2.10 |
ResNet152 | 1.98 | 2.18 | 2.22 |
NASNET | 1.12 | 1.54 | 2.35 |
VGG16 | 2.02 | 2.20 | 2.05 |
InceptionV3 | 1.54 | 1.65 | 1.62 |
ResNet50 | 1.51 | 1.62 | 1.73 |
さらに、Exxact Corporation のこちらのページの Quadro RTX 8000 のデータと比べてみました。
Quadro RTX 8000 との比較: FP16 (RTX8000 は Large Batch size) 、(RTX3090 img/sec) / (Quadro RTX 8000 img/sec)
1 GPU | 2 GPU | 4 GPU | |
InceptionV4 | 1.58 | 1.63 | 1.61 |
ResNet152 | 1.41 | 1.48 | 1.41 |
NASNET | 1.02 | 1.05 | 1.02 |
VGG16 | 1.45 | 1.41 | 1.25 |
InceptionV3 | 1.57 | 1.57 | 1.59 |
ResNet50 | 1.40 | 1.41 | 1.38 |
Quadro RTX 8000 との比較: FP32 (RTX8000 は Large Batch size) 、(RTX3090 img/sec) / (Quadro RTX 8000 img/sec)
1 GPU | 2 GPU | 4 GPU | |
InceptionV4 | 1.40 | 1.44 | 1.62 |
ResNet152 | 1.30 | 1.39 | 1.46 |
NASNET | 1.06 | 1.10 | 1.21 |
VGG16 | 1.84 | 1.83 | 1.53 |
InceptionV3 | 1.39 | 1.42 | 1.57 |
ResNet50 | 1.41 | 1.43 | 1.43 |
以上になります。
яндекс