10GPUマシンにGeforce GTX 1080tiを10枚実装し、nvidia-smiとdeviceQueryを実行した結果を掲載します。

10xGTX1080ti

nvidia-smiの結果はこちらです。

deviceQueryの結果はこちらです。最後の方に

> Peer access from GeForce GTX 1080 Ti (GPU0) -> GeForce GTX 1080 Ti (GPU1) : Yes
などとありますが、10枚の全てのGPU間でYesになっているのが大きな特徴です。YesだとGPU DirectによるDMAで、レイテンシーが小さい通信が可能です。通常の2CPUマシンですと、GPUの半分が片方のCPUに接続されるため、別のCPUに接続されているGPUとのGPU Directによる通信はできず、CPUを経由して通信するため、レイテンシーが大きくなります。
2CPUに4枚づつGTX1080tiが合計8枚実装されたdeviceQueryはこちらです。最後の方をご覧になると、別のCPUに接続されているGPUとは
> Peer access from GeForce GTX 1080 Ti (GPU0) -> GeForce GTX 1080 Ti (GPU4) : No
となっていて、GPU Directでは通信できないことがわかります。