跳到主要内容

Linux基础

aifare平台实例默认操作系统为 Linux(Ubuntu 发行版)。熟练掌握基本的 Linux 命令,是高效进行 AI 开发和模型训练的基础。以下为平台常用命令与典型场景说明。

文件与目录操作

列出文件/文件夹

  • ls:列出当前目录下的文件和文件夹
  • ls -l:显示详细信息(权限、所有者、大小、时间等)
ls
ls -l

新建/切换目录

  • mkdir:新建目录
  • cd:切换目录
mkdir data_dir
cd data_dir
cd ../data_dir # 进入上一级目录下的data_dir

查看当前路径

  • pwd:显示当前工作目录
pwd

重命名/移动文件或目录

  • mv:移动或重命名
mv old_name new_name
mv file.txt /data/

拷贝文件/文件夹

  • cp:拷贝文件
  • cp -r:递归拷贝文件夹
cp file.txt /data/
cp -r myfolder /user-data/

删除文件/文件夹

  • rm -rf:递归强制删除
rm -rf temp_dir
rm -rf /data/* # 删除/data目录下所有内容

环境变量设置

  • export:设置环境变量
export PATH=/opt/miniconda3/bin:$PATH
export LD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATH
  • 查看环境变量:
env | grep PATH
  • 全局生效:将 export 命令写入 ~/.bashrc,然后执行 source ~/.bashrc

文本编辑

  • 推荐使用 vim 编辑器,更多高级用法可参考相关教程。

压缩与解压

  • zip/unzip:zip 格式压缩与解压
  • tar:通用压缩/解压工具
zip -r data.zip /data/
unzip data.zip

tar czf data.tar.gz /data/
tar xzf data.tar.gz

GPU信息查看

  • nvidia-smi:查看 GPU 状态、显存占用、驱动版本等
nvidia-smi

进程管理

  • ps -ef:查看所有进程
  • kill -9 PID:强制杀死进程
ps -ef | grep python
kill -9 12345

查看CPU/内存占用

  • top:实时查看 CPU、内存、进程资源占用
top

日志重定向与后台运行

  • >:重定向日志到文件
  • 2>&1:合并标准输出和错误输出
  • &:后台运行
python train.py > train.log 2>&1 &
cat train.log

常见场景举例

1. 显存未释放

  • 现象:程序已停止但 GPU 显存仍被占用
  • 处理:用 ps -ef 查找残留进程,kill -9 杀死后用 nvidia-smi 检查显存

2. 数据/模型跨实例共享

  • 需求:将模型或数据保存到 /user-data 目录,实现多实例共享
cp -r model.pth /user-data/

3. 进程内存超限被Killed

  • 现象:进程被系统终止,提示 Killed
  • 处理:用 top 查看内存占用,优化代码或升级实例配置

4. JupyterLab终端挂守护进程

  • 需求:关闭网页后日志仍可查看
  • 方案:日志重定向到文件,后台运行
python train.py > train.log 2>&1 &

如需更多 Linux 使用技巧,请参考 aifare 平台文档或社区资源。