公开数据
公开数据是aifare平台提供的公共数据集和模型库,用户可以直接使用,无需额外下载。
什么是公开数据
公开数据包含平台预置的常用数据集和AI模型,具有以下特点:
- 即用即得:无需下载,直接使用
- 高质量:经过筛选和验证的数据
- 分类清晰:按领域和用途分类
- 持续更新:定期添加新的数据集和模型
数据存储路径
模型存储
- 路径:
/ai-models - 内容:预训练模型、模型权重文件
- 容量:1.0T
数据集存储
- 路径:
/ai-datasets - 内容:训练数据集、验证数据集
- 容量:1.0T
可用数据集
计算机视觉
- ImageNet:大规模图像分类数据集
- COCO:目标检测和分割数据集
- CIFAR-10/100:图像分类数据集
- MNIST:手写数字识别数据集
自然语言处理
- GLUE:自然语言理解基准数据集
- SQuAD:问答数据集
- WikiText:语言建模数据集
- IMDB:情感分析数据集
推荐系统
- MovieLens:电影推荐数据集
- Amazon Reviews:商品评论数据集
- Netflix Prize:电影评分数据集
音频处理
- LibriSpeech:语音识别数据集
- VoxCeleb:说话人识别数据集
- ESC-50:环境声音分类数据集
可用模型
计算机视觉模型
- ResNet系列:图像分类模型
- YOLO系列:目标检测模型
- U-Net:图像分割模型
- Vision Transformer:视觉Transformer模型
自然语言处理模型
- BERT系列:预训练语言模型
- GPT系列:生成式预训练模型
- T5:文本到文本转换模型
- RoBERTa:优化的BERT模型
多模态模型
- CLIP:图像-文本对比学习模型
- DALL-E:文本到图像生成模型
- Whisper:语音识别模型
使用方法
查看可用数据
# 查看模型目录
ls /ai-models
# 查看数据集目录
ls /ai-datasets
# 查看详细目录结构
tree /ai-models -L 2
在Python中使用
import os
# 设置模型路径
model_path = '/ai-models/bert-base-chinese'
# 设置数据集路径
dataset_path = '/ai-datasets/imagenet'
# 检查文件是否存在
if os.path.exists(model_path):
print(f"模型路径: {model_path}")
print(f"模型大小: {os.path.getsize(model_path)} bytes")
在深度学习框架中使用
# PyTorch示例
import torch
from torchvision import datasets, transforms
# 加载CIFAR-10数据集
transform = transforms.Compose([
transforms.ToTensor(),
transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))
])
dataset = datasets.CIFAR10(
root='/ai-datasets/cifar10',
train=True,
download=False, # 数据已存在,无需下载
transform=transform
)
数据更新
更新频率
- 模型库:每月更新
- 数据集:按需更新
- 新功能:持续添加
更新通知
- 平台会通过控制台通知数据更新
- 重要更新会发送邮件通知
- 更新日志在文档中维护
使用限制
访问权限
- 所有用户可读访问
- 不支持写入操作
- 不支持删除操作
使用规范
- 仅用于学习和研究
- 遵守数据集使用协议
- 不得用于商业用途(除非明确允许)
最佳实践
数据选择
- 根据任务选择:选择与任务匹配的数据集
- 考虑数据质量:优先使用高质量数据集
- 评估数据量:确保数据量满足训练需求
模型选择
- 任务匹配:选择适合任务的模型架构
- 性能考虑:平衡模型性能和计算资源
- 预训练优势:优先使用预训练模型
资源管理
- 路径管理:使用绝对路径避免路径问题
- 缓存优化:合理使用数据缓存
- 内存管理:大数据集分批加载
故障排除
路径不存在
# 检查路径是否存在
ls -la /ai-models
ls -la /ai-datasets
# 检查挂载状态
df -h | grep gm
权限问题
# 检查文件权限
ls -la /ai-models/some_model
# 修改权限(如果需要)
sudo chmod 644 /ai-models/some_model