其他常见问题
Q: 程序卡住没有输出什么原因?
A:首先使用 top 和 nvidia-smi 命令分别查看 CPU 和 GPU 的使用率。如果 CPU 一直为 100% 且 GPU 无占用,大概率卡在了 GPU 调用上,请参考“不能调用GPU”FAQ。如果不是上述原因,建议在关键代码行加 print 日志,逐步定位卡住的位置,再结合报错或日志分析具体原因。
Q: 爆显存(CUDA OOM)什么原因?
A:
- 如果程序报 OOM 显存不足,建议先将 batch size 设置为 1,逐步增大,观察最大可用值,再决定是否升配或更换更大显存的卡。
- 若第一次运行正常,第二次运行 OOM,先用
nvidia-smi检查未运行时显存占用,如有残留进程请用ps -ef查找 PID 并kill -9 PID清理。 - 若无残留进程,可能为框架动态分配显存导致,需结合代码特性分析。
Q: 主机的空闲 GPU 不足了怎么办?
A:
- 可使用无卡模式开机,进行数据下载等操作。
- 可迁移实例到其他主机。
- 也可等待当前主机 GPU 资源释放后再使用。
Q: 实例更换镜像后 VSCode、SSH 等无法连接?
A:
- Linux/Mac 用户:删除本地
~/.ssh/known_hosts文件。 - Windows 用户:删除
C:/Users/当前用户名/.ssh/known_hosts文件。 - 删除后重试即可。
Q: 代金券是否能用于包年包月等?
A:部分代金券可以,请查看代金券使用范围。代金券支持叠加,优先于余额抵扣。
Q: 包年包月的实例关机后,GPU 会预留吗?
A:包年包月期间 GPU 会预留,随时可重启,无需担心被占用。
Q: 一个实例中的多卡是否支持并行?
A:同一实例多卡在同一物理主机上,支持多卡并行。如需多机多卡并行请联系客服。
Q: 按量计费实例如果主机 GPU 价格调整,如何计费?
A:按量计费实例以开机时价格为准,期间价格变化不影响当前实例。重启后按最新价格计费。
Q: 已经释放的实例还能找回数据吗?
A:不能找回。
Q: 如果实例所在主机出现硬盘、GPU 故障怎么办?
A:可选择迁移实例到其他主机或等待维修。平台会根据情况进行赔偿。
Q: 实例上的数据会意外损坏或丢失吗?
A:本地数据盘为物理磁盘,无冗余备份,存在丢失风险,请及时备份重要数据。共享云盘采用多副本冗余,数据可靠性高。
Q: 关闭浏览器或退出登录,JupyterLab 上运行的程序会受影响吗?
A:不会受影响,但建议日志重定向到文件,便于后续查看。详见相关文档。
Q: 通过 SSH 登录执行命令,如何确保程序不会因断开而终止?
A:推荐使用 JupyterLab 终端,或配合 screen/tmux 工具。详见守护进程相关文档。
Q: 程序显示 Killed 停止是什么原因?
A:程序占用内存超限被系统终止。可在实例监控入口查看内存使用,解决方法为升配或更换更大内存主机。