2GPU: NVIDIA A100 Deep Learning Benchmarks
November 04, 2020
8
NVIDIA A100 PCIe 40GB の Deep Learning 学習での性能評価のため、HPCDIY-ERMGPU8R4S に2枚実装して、tensorflow で tf_cnn_benchmarks.py(ダウンロートはこちら)を実行してみました。
CPU: 2x AMD EPYC Rome 7302 DP/UP 16C/32T 3.0G 128M 155W, Memory: 512GB, SSD: NVMe U.2 1.92TB
NVIDIA Driver: 455.32.00
TensorFlow: nvcr.io/nvidia/tensorflow:20.10-tf1-py3
さすがにFlag Ship GPU だけあり、GeForce RTX 3090 に比較して、約1.6~2.2倍高速で、スケーラビリティも非常に高く、しかも低消費電力という結果になりました。
もっと高速学習が必要という場合は、HPCDIY-EPCGPU4R2S-NVL Computer(こちら)がおすすめです。
NVIDIA A100 Deep Learning Benchmarks: FP16 (XLA off)
カッコ内は 1 GPU に対しての倍率
1 GPU img/sec | 2 GPU img/sec | Batch Size | |
InceptionV4 | 685.91 | 1318.93 (1.92) | 256 |
ResNet152 | 896.62 | 1693.55 (1.89) | 256 |
NASNET | 358.59 | 669.69 (1.87) | 512 |
VGG16 | 868.5 | 1700.92 (1.96) | 512 |
InceptionV3 | 1347.4 | 2650.91 (1.97) | 512 |
ResNet50 | 2175.71 | 4179.29 (1.92) | 512 |
実行は下記のコードの num_gpus, batch_size, model をそれぞれに応じて変更して行いました。
python tf_cnn_benchmarks.py --num_gpus=1 --batch_size=256 --model=inception3 --use_fp16=True
NVIDIA A100 Deep Learning Benchmarks: FP32 (XLA off)
カッコ内は 1 GPU に対しての倍率
1 GPU img/sec | 2 GPU img/sec | Batch Size | |
InceptionV4 | 288.59 | 562.92 (1.95) | 128 |
ResNet152 | 360.29 | 689.98 (1.92) | 128 |
NASNET | 423.54 | 806.46 (1.90) | 256 |
VGG16 | 482.12 | 959.78 (1.99) | 256 |
InceptionV3 | 585.30 | 1155.18 (1.97) | 256 |
ResNet50 | 847.77 | 1659.47 (1.96) | 256 |
実行は下記のコードの num_gpus, batch_size, model をそれぞれに応じて変更して行いました。
python tf_cnn_benchmarks.py --num_gpus=1 --batch_size=256 --model=inception3
以上になります。