NVIDIA A100 PCIe 40GB の Deep Learning 学習での性能評価のため、HPCDIY-ERMGPU8R4S に2枚実装して、tensorflow で tf_cnn_benchmarks.py(ダウンロートはこちら)を実行してみました。

CPU: 2x AMD EPYC Rome 7302 DP/UP 16C/32T 3.0G 128M 155W, Memory: 512GB, SSD: NVMe U.2 1.92TB
NVIDIA Driver: 455.32.00
TensorFlow: nvcr.io/nvidia/tensorflow:20.10-tf1-py3

さすがにFlag Ship GPU だけあり、GeForce RTX 3090 に比較して、約1.6~2.2倍高速で、スケーラビリティも非常に高く、しかも低消費電力という結果になりました。
もっと高速学習が必要という場合は、HPCDIY-EPCGPU4R2S-NVL Computer(こちら)がおすすめです。

NVIDIA A100 Deep Learning Benchmarks: FP16 (XLA off) 
カッコ内は 1 GPU に対しての倍率

   1 GPU img/sec   2 GPU img/sec   Batch Size 
 InceptionV4  685.91  1318.93 (1.92)  256
 ResNet152 896.62  1693.55 (1.89)  256
 NASNET 358.59  669.69 (1.87)  512
 VGG16 868.5  1700.92 (1.96)  512
 InceptionV3 1347.4 2650.91 (1.97)  512
 ResNet50 2175.71 4179.29 (1.92)  512

実行は下記のコードの num_gpus, batch_size, model をそれぞれに応じて変更して行いました。

python tf_cnn_benchmarks.py --num_gpus=1 --batch_size=256 --model=inception3 --use_fp16=True

 

NVIDIA A100 Deep Learning Benchmarks: FP32 (XLA off)
カッコ内は 1 GPU に対しての倍率

   1 GPU img/sec   2 GPU img/sec   Batch Size 
 InceptionV4  288.59  562.92 (1.95)  128
 ResNet152 360.29  689.98 (1.92)   128
 NASNET 423.54  806.46 (1.90)  256
 VGG16 482.12  959.78 (1.99)  256
 InceptionV3 585.30 1155.18 (1.97)  256
 ResNet50 847.77  1659.47 (1.96)  256

実行は下記のコードの num_gpus, batch_size, model をそれぞれに応じて変更して行いました。

python tf_cnn_benchmarks.py --num_gpus=1 --batch_size=256 --model=inception3

以上になります。