GTX1080tiの結果も加えました(2017/5/18)

GTX1080tiのnvidia-smiとdeviceQueryの結果はこちらです。

PascalアーキテクチャのTesla P100 16GBとNVIDIA TITAN Xを、Caffeでの学習時間で比較したいとずっと思っていたのですが、なかなかその機会がありませんでした。今回同時に試すことができましたので、その結果を報告します。

P100のdeviceQueryNVIDIA TITAN XのdeviceQueryを載せておきますのでご興味がある方はご覧ください。

P100のnvidia-smiNVIDIA TITAN Xのnvidia-smiも載せておきます。

学習用データは以前の記事「CAFFEの学習時間をGTX 1080とNVIDIA TITAN Xで比較する」と同じものを使いました。具体的には「画像分類のコンテスト等て使われているカラーで265x256サイズの学習用画像を手軽に用意したかったので、CIFAR10(カラー, 32x32)を、Digitsで256x256に解像度を上げて使いました。1epoch37,500枚の画像を30epoch(1,125,000枚)学習する時間を測定しました。」です。

CaffeをDIGITSから動作させて学習時間を計測しています。DIGITSのパラメータの設定は全てデフォルトを使用しています。Caffeのバージョンは0.15.14、Digitsのバージョンは5.1です。数日前のGTX 1080の測定結果もありましたので、それも一緒に掲載しました。 Caffeはcuda8.0, cudnn5.1, ncclを使いbuildしました。 

GPU--> GTX 1080ti Tesla P100 TitanX(Pascal) GTX 1080 備考 
AlexNet 計測せず 894 828 1166 秒(小さいほど高速)
速度比 NA 0.93 1.00 0.71 大きいほど高速
GoogLeNet 3090 3499 3121 4140 秒(小さいほど高速)
速度比 1.01  0.89 1.00 0.75 大きいほど高速

Caffeに関しては、GTX 1080tiが最高速という結果になりました。

CaffeでDeep Learningをなさっているのでしたら、GTX 1080tiを2枚まで実装できるDeep Learning用コンピュータまたは4枚まで 実装できるDeep Learning用コンピュータをご検討されてはいかがでしょうか。4枚でもまだ足りない場合は、10枚まで実装できるDeep Learning用コンピュータもあります。