4GPU: 再計測 GeForce RTX 3090 Deep Learning Benchmarks
再計測(NGCのtensorflow:20.10-tf1-py3使用)GeForce RTX 3090 の Deep Learning 学習での性能評価のため、HPCDIY-ERM1GPU4TS に4枚実装して、tensorflow で tf_cnn_benchmarks.py(ダウンロートはこちら)を実行してみました。
前回(こちら)より良い成績になりました。
CPU: AMD EPYC Rome 7252 DP/UP 8C/16T 3.1G 64M 120W, Memory: 128GB, SSD: NVMe M.2 512GB
NVIDIA Driver: 455.32.00
TensorFlow: nvcr.io/nvidia/tensorflow:20.10-tf1-py3
結論から言いますと、非常に高性能で、少なくとも 4GPU までは、並列性能も高い、という結果になりました。
GeForce RTX 3090 Deep Learning Benchmarks: FP16 (XLA off)
カッコ内は 1 GPU に対しての倍率
1 GPU img/sec | 2 GPU img/sec | 4 GPU img/sec | Batch Size | |
InceptionV4 | 339.72 | 675.66 (1.99) | 1274.14 (3.75) | 256 |
ResNet152 | 481.39 | 891.17 (1.85) | 1777.95 (3.69) | 256 |
NASNET | 283.63 | 548.10 (1.93) | 1038.90 (3.66) | 256 |
VGG16 | 448.04 | 833.02 (1.86) | 1308.38 (2.92) | 256 |
InceptionV3 | 596.88 | 1115.31 (1.87) | 2242.84 (3.76) | 256 |
ResNet50 | 1183.03 | 2317.95 (1.96) | 4531.40 (3.83) | 512 |
実行は下記のコードの num_gpus, batch_size, model をそれぞれに応じて変更して行いました。
python tf_cnn_benchmarks.py --num_gpus=1 --batch_size=256 --model=inception3 --variable_update=parameter_server --use_fp16=True
GeForce RTX 3090 Deep Learning Benchmarks: FP32 (XLA off)
カッコ内は 1 GPU に対しての倍率
1 GPU img/sec | 2 GPU img/sec | 4 GPU img/sec | Batch Size | |
InceptionV4 | 171.19 | 337.60 (1.97) | 655.87 (3.83) | 128 |
ResNet152 | 219.22 | 425.3 (1.94) | 812.2 (3.70) | 128 |
NASNET | 274.40 | 526.84 (1.92) | 1003.52 (3.66) | 256 |
VGG16 | 305.61 | 581.41 (1.90) | 958.69 (3.14) | 256 |
InceptionV3 | 335.80 | 660.61 (1.97) | 1281.41 (3.82) | 128 |
ResNet50 | 535.90 | 1058.03 (1.97) | 2057.82 (3.84) | 256 |
実行は下記のコードの num_gpus, batch_size, model をそれぞれに応じて変更して行いました。
python tf_cnn_benchmarks.py --num_gpus=1 --batch_size=256 --model=inception3 --variable_update=parameter_server
大雑把な比較としてExxact Corporation のこちらのページのGeForce 2080 ti のデータと比べてみました。
GeForce RTX 2080 ti との比較: FP16 (XLA off) の場合、(RTX3090 img/sec) / (RTX 2080 ti img/sec)
1 GPU | 2 GPU | 4 GPU | |
InceptionV4 | 2.26 | 2.73 | 2.56 |
ResNet152 | 2.30 | 2.55 | 3.30 |
NASNET | 1.65 | 1.77 | 1.80 |
VGG16 | 1.63 | 1.99 | 2.23 |
InceptionV3 | 1.92 | 1.96 | 2.03 |
ResNet50 | 2.26 | 2.42 | 2.47 |
GeForce RTX 2080 ti との比較: FP32 (XLA off) の場合、(RTX3090 img/sec) / (RTX 2080 ti img/sec)
1 GPU | 2 GPU | 4 GPU | |
InceptionV4 | 1.52 | 1.85 | 2.46 |
ResNet152 | 2.43 | 2.68 | 2.73 |
NASNET | 1.54 | 2.12 | 3.17 |
VGG16 | 2.01 | 2.20 | 2.08 |
InceptionV3 | 1.72 | 1.86 | 1.84 |
ResNet50 | 1.78 | 1.92 | 2.05 |
さらに、Exxact Corporation のこちらのページの Quadro RTX 8000 のデータと比べてみました。
Quadro RTX 8000 との比較: FP16 (RTX8000 は Large Batch size) 、(RTX3090 img/sec) / (Quadro RTX 8000 img/sec)
1 GPU | 2 GPU | 4 GPU | |
InceptionV4 | 1.67 | 1.76 | 1.67 |
ResNet152 | 1.68 | 1.68 | 1.67 |
NASNET | 1.44 | 1.49 | 1.43 |
VGG16 | 1.62 | 1.58 | 1.33 |
InceptionV3 | 1.53 | 1.48 | 1.52 |
ResNet50 | 1.96 | 1.96 | 1.94 |
Quadro RTX 8000 との比較: FP32 (RTX8000 は Large Batch size) 、(RTX3090 img/sec) / (Quadro RTX 8000 img/sec)
1 GPU | 2 GPU | 4 GPU | |
InceptionV4 | 1.63 | 1.68 | 1.90 |
ResNet152 | 1.60 | 1.70 | 1.79 |
NASNET | 1.46 | 1.51 | 1.63 |
VGG16 | 1.83 | 1.84 | 1.55 |
InceptionV3 | 1.55 | 1.60 | 1.79 |
ResNet50 | 1.66 | 1.70 | 1.70 |
以上になります。
яндекс