Linux基础
aifare平台实例默认操作系统为 Linux(Ubuntu 发行版)。熟练掌握基本的 Linux 命令,是高效进行 AI 开发和模型训练的基础。以下为平台常用命令与典型场景说明。
文件与目录操作
列出文件/文件夹
ls:列出当前目录下的文件和文件夹ls -l:显示详细信息(权限、所有者、大小、时间等)
ls
ls -l
新建/切换目录
mkdir:新建目录cd:切换目录
mkdir data_dir
cd data_dir
cd ../data_dir # 进入上一级目录下的data_dir
查看当前路径
pwd:显示当前工作目录
pwd
重命名/移动文件或目录
mv:移动或重命名
mv old_name new_name
mv file.txt /data/
拷贝文件/文件夹
cp:拷贝文件cp -r:递归拷贝文件夹
cp file.txt /data/
cp -r myfolder /user-data/
删除文件/文件夹
rm -rf:递归强制删除
rm -rf temp_dir
rm -rf /data/* # 删除/data目录下所有内容
环境变量设置
export:设置环境变量
export PATH=/opt/miniconda3/bin:$PATH
export LD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATH
- 查看环境变量:
env | grep PATH
- 全局生效:将 export 命令写入
~/.bashrc,然后执行source ~/.bashrc
文本编辑
- 推荐使用
vim编辑器,更多高级用法可参考相关教程。
压缩与解压
zip/unzip:zip 格式压缩与解压tar:通用压缩/解压工具
zip -r data.zip /data/
unzip data.zip
tar czf data.tar.gz /data/
tar xzf data.tar.gz
GPU信息查看
nvidia-smi:查看 GPU 状态、显存占用、驱动版本等
nvidia-smi
进程管理
ps -ef:查看所有进程kill -9 PID:强制杀死进程
ps -ef | grep python
kill -9 12345
查看CPU/内存占用
top:实时查看 CPU、内存、进程资源占用
top
日志重定向与后台运行
>:重定向日志到文件2>&1:合并标准输出和错误输出&:后台运行
python train.py > train.log 2>&1 &
cat train.log
常见场景举例
1. 显存未释放
- 现象:程序已停止但 GPU 显存仍被占用
- 处理:用
ps -ef查找残留进程,kill -9杀死后用nvidia-smi检查显存
2. 数据/模型跨实例共享
- 需求:将模型或数据保存到
/user-data目录,实现多实例共享
cp -r model.pth /user-data/
3. 进程内存超限被Killed
- 现象:进程被系统终止,提示 Killed
- 处理:用
top查看内存占用,优化代码或升级实例配置
4. JupyterLab终端挂守护进程
- 需求:关闭网页后日志仍可查看
- 方案:日志重定向到文件,后台运行
python train.py > train.log 2>&1 &
如需更多 Linux 使用技巧,请参考 aifare 平台文档或社区资源。