NVIDIA TESLA P100 PCIe 16GB での nvidia-smi (2GPU)

初期状態はECCがONになっている(0と表示されているのでわかりにくい)

hpc@dl:~$ nvidia-smi
Wed Aug 31 09:05:43 2016       
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 367.44                 Driver Version: 367.44                    |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|===============================+======================+======================|
|   0  Tesla P100-PCIE...  Off  | 0000:04:00.0     Off |                    0 |
| N/A   37C    P0    33W / 250W |      0MiB / 16276MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+
|   1  Tesla P100-PCIE...  Off  | 0000:06:00.0     Off |                    0 |
| N/A   36C    P0    32W / 250W |      0MiB / 16276MiB |      2%      Default |
+-------------------------------+----------------------+----------------------+
                                                                               
+-----------------------------------------------------------------------------+
| Processes:                                                       GPU Memory |
|  GPU       PID  Type  Process name                               Usage      |
|=============================================================================|
|  No running processes found                                                 |
+-----------------------------------------------------------------------------+

ECCをOFFにするにはsuper userになる必要がある

hpc@dl:~$ sudo su
[sudo] password for hpc: 
root@dl:/home/hpc# nvidia-smi -e 0
Disabled ECC support for GPU 0000:04:00.0.
Disabled ECC support for GPU 0000:06:00.0.
All done.
Reboot required.

Rebootが必要だと表示される。その前にnvidia-smiで表示してみると

root@dl:/home/hpc# nvidia-smi
Wed Aug 31 09:09:22 2016       
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 367.44                 Driver Version: 367.44                    |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|===============================+======================+======================|
|   0  Tesla P100-PCIE...  Off  | 0000:04:00.0     Off |                   0* |
| N/A   41C    P0    34W / 250W |      0MiB / 16276MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+
|   1  Tesla P100-PCIE...  Off  | 0000:06:00.0     Off |                   0* |
| N/A   40C    P0    33W / 250W |      0MiB / 16276MiB |      2%      Default |
+-------------------------------+----------------------+----------------------+
                                                                               
+-----------------------------------------------------------------------------+
| Processes:                                                       GPU Memory |
|  GPU       PID  Type  Process name                               Usage      |
|=============================================================================|
|  No running processes found                                                 |
+-----------------------------------------------------------------------------+

ECCの状態は0でON状態だが、その右に*が表示されRebootすると状態が変化するよと示されるのでRebootする

root@dl:/home/hpc# reboot

Reboot後にnvidia-smiを実行すると、ECCがOffと表示される。0がOnでOffがOffということで少しわかりにくい。

hpc@dl:~$ nvidia-smi
Wed Aug 31 08:59:54 2016       
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 367.44                 Driver Version: 367.44                    |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|===============================+======================+======================|
|   0  Tesla P100-PCIE...  Off  | 0000:04:00.0     Off |                  Off |
| N/A   45C    P0    35W / 250W |      0MiB / 16276MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+
|   1  Tesla P100-PCIE...  Off  | 0000:06:00.0     Off |                  Off |
| N/A   43C    P0    33W / 250W |      0MiB / 16276MiB |      2%      Default |
+-------------------------------+----------------------+----------------------+
                                                                               
+-----------------------------------------------------------------------------+
| Processes:                                                       GPU Memory |
|  GPU       PID  Type  Process name                               Usage      |
|=============================================================================|
|  No running processes found                                                 |
+-----------------------------------------------------------------------------+

再びECCをOnにするにはnvidia-smi -e 1を実行すればいいが、super userになるのを忘れると出来ない

hpc@dl:~$ nvidia-smi -e 1
Unable to set ECC config for GPU 0000:04:00.0: Insufficient Permissions
Terminating early due to previous errors.
hpc@dl:~$ sudo su
[sudo] password for hpc: 
root@dl:/home/hpc# nvidia-smi -e 1
Enabled ECC support for GPU 0000:04:00.0.
Enabled ECC support for GPU 0000:06:00.0.
All done.
Reboot required.
root@dl:/home/hpc# nvidia-smi
Wed Aug 31 09:02:46 2016       
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 367.44                 Driver Version: 367.44                    |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|===============================+======================+======================|
|   0  Tesla P100-PCIE...  Off  | 0000:04:00.0     Off |                 Off* |
| N/A   45C    P0    35W / 250W |      0MiB / 16276MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+
|   1  Tesla P100-PCIE...  Off  | 0000:06:00.0     Off |                 Off* |
| N/A   43C    P0    34W / 250W |      0MiB / 16276MiB |      2%      Default |
+-------------------------------+----------------------+----------------------+
                                                                               
+-----------------------------------------------------------------------------+
| Processes:                                                       GPU Memory |
|  GPU       PID  Type  Process name                               Usage      |
|=============================================================================|
|  No running processes found                                                 |
+-----------------------------------------------------------------------------+