GeForce RTX 3090 の Deep Learning 学習での性能評価のため、HPCDIY-ERMGPU8R4S に8枚実装して、tensorflow で tf_cnn_benchmarks.py(ダウンロートはこちら)を実行してみました。

CPU: 2x AMD EPYC Rome 7302 DP/UP 16C/32T 3.0G 128M 155W, Memory: 512GB, SSD: NVMe U.2 1.92TB
NVIDIA Driver: 455.32.00
TensorFlow: nvcr.io/nvidia/tensorflow:20.09-tf1-py3

GeForce RTX 3090 Deep Learning Benchmarks: FP16 (XLA off) 

カッコ内は 1 GPU に対しての倍率

   1 GPU img/sec   2 GPU img/sec   4 GPU img/sec   8 GPU img/sec   Batch Size 
 InceptionV4  339.52  605.70 (1.78)  1270.05 (3.74)  2244.80 (6.61)  256
 ResNet152 479.61  902.48 (1.88)  1634.78 (3.41)  2325.79 (4.85)  256
 NASNET 266.66  453.78 (1.7)  793.41 (2.98)  1439.21 (5.40)  256
 VGG16 441.66  795.14 (1.80)  1150.25 (2.60)  1495.32 (3.39)  256
 InceptionV3 594.31 1081.58 (1.82)  2187.01 (3.68)  4030.78 (6.78)  256
 ResNet50 1169.36  2262.44 (1.95)  4287.05 (3.67)  7685.89 (6.57)  512

 

 

 

 

 

 

実行は下記のコードの num_gpus, batch_size, model をそれぞれに応じて変更して行いました。

python tf_cnn_benchmarks.py --num_gpus=1 --batch_size=256 --model=inception3 --variable_update=parameter_server --use_fp16=True

GeForce RTX 3090 Deep Learning Benchmarks: FP32 (XLA off)
カッコ内は 1 GPU に対しての倍率

   1 GPU img/sec   2 GPU img/sec   4 GPU img/sec   8 GPU img/sec   Batch Size 
 InceptionV4  169.79  327.20 (1.93)  607.92 (3.58)  1111.2 (6.54)  128
 ResNet152 218.65  405.17 (1.85)  723.32 (3.31)  1052.92 (4.82)   128
 NASNET 259.79  441.32 (1.70)  803.78 (3.09)  1389.07 (5.35)  256
 VGG16 306.16  536.17 (1.75)  797.32 (2.60)  993.5 (3.25)  256
 InceptionV3 331.66 634.71 (1.91)  1192.11 (3.59)  2093.93 (6.31)  128
 ResNet50 534.47  1041.56 (1.95)  1977.74 (3.70)  3483.59 (6.52)  256

 

 

 

 

 

 

実行は下記のコードの num_gpus, batch_size, model をそれぞれに応じて変更して行いました。

python tf_cnn_benchmarks.py --num_gpus=1 --batch_size=256 --model=inception3 --variable_update=parameter_server

GeForce RTX 2080 ti, Quadro RTX 8000 との比較はこちらをご覧ください。

以上になります。