nvidia-smi
#输出
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 510.47.03 Driver Version: 510.47.03 CUDA Version: 11.6 |
|-------------------------------+----------------------+----------------------+
| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
|===============================+======================+======================|
| 0 NVIDIA A100-PCIE... On | 00000000:3B:00.0 Off | 0 |
| N/A 30C P0 50W / 250W | 1000MiB / 40536MiB | 0% Default |
+-------------------------------+----------------------+----------------------+
#使用ps -ef命令
ps -ef
#杀死占用显存的进程
kill -9
#如果需要终止所有使用 GPU 的进程:
sudo kill -9 $(nvidia-smi | awk '$2=="Processes:" {flag=1} flag && $2 == "GPU" {print $5}')
sudo nvidia-smi --gpu-reset
#注意:此操作会重置 GPU 状态,可能导致正在运行的任务中断。
如果使用 TensorFlow 或 PyTorch 等深度学习框架,可以通过代码释放显存:
from tensorflow import keras
keras.backend.clear_session()
import torch
torch.cuda.empty_cache()
如果以上方法无效,可以尝试重启系统:
sudo reboot