跳到主要内容

其他常见问题


Q: 程序卡住没有输出什么原因?

A:首先使用 topnvidia-smi 命令分别查看 CPU 和 GPU 的使用率。如果 CPU 一直为 100% 且 GPU 无占用,大概率卡在了 GPU 调用上,请参考“不能调用GPU”FAQ。如果不是上述原因,建议在关键代码行加 print 日志,逐步定位卡住的位置,再结合报错或日志分析具体原因。


Q: 爆显存(CUDA OOM)什么原因?

A:

  • 如果程序报 OOM 显存不足,建议先将 batch size 设置为 1,逐步增大,观察最大可用值,再决定是否升配或更换更大显存的卡。
  • 若第一次运行正常,第二次运行 OOM,先用 nvidia-smi 检查未运行时显存占用,如有残留进程请用 ps -ef 查找 PID 并 kill -9 PID 清理。
  • 若无残留进程,可能为框架动态分配显存导致,需结合代码特性分析。

Q: 主机的空闲 GPU 不足了怎么办?

A:

  • 可使用无卡模式开机,进行数据下载等操作。
  • 可迁移实例到其他主机。
  • 也可等待当前主机 GPU 资源释放后再使用。

Q: 实例更换镜像后 VSCode、SSH 等无法连接?

A:

  • Linux/Mac 用户:删除本地 ~/.ssh/known_hosts 文件。
  • Windows 用户:删除 C:/Users/当前用户名/.ssh/known_hosts 文件。
  • 删除后重试即可。

Q: 代金券是否能用于包年包月等?

A:部分代金券可以,请查看代金券使用范围。代金券支持叠加,优先于余额抵扣。


Q: 包年包月的实例关机后,GPU 会预留吗?

A:包年包月期间 GPU 会预留,随时可重启,无需担心被占用。


Q: 一个实例中的多卡是否支持并行?

A:同一实例多卡在同一物理主机上,支持多卡并行。如需多机多卡并行请联系客服。


Q: 按量计费实例如果主机 GPU 价格调整,如何计费?

A:按量计费实例以开机时价格为准,期间价格变化不影响当前实例。重启后按最新价格计费。


Q: 已经释放的实例还能找回数据吗?

A:不能找回。


Q: 如果实例所在主机出现硬盘、GPU 故障怎么办?

A:可选择迁移实例到其他主机或等待维修。平台会根据情况进行赔偿。


Q: 实例上的数据会意外损坏或丢失吗?

A:本地数据盘为物理磁盘,无冗余备份,存在丢失风险,请及时备份重要数据。共享云盘采用多副本冗余,数据可靠性高。


Q: 关闭浏览器或退出登录,JupyterLab 上运行的程序会受影响吗?

A:不会受影响,但建议日志重定向到文件,便于后续查看。详见相关文档。


Q: 通过 SSH 登录执行命令,如何确保程序不会因断开而终止?

A:推荐使用 JupyterLab 终端,或配合 screen/tmux 工具。详见守护进程相关文档。


Q: 程序显示 Killed 停止是什么原因?

A:程序占用内存超限被系统终止。可在实例监控入口查看内存使用,解决方法为升配或更换更大内存主机。