跳到主要内容

公开数据

公开数据是aifare平台提供的公共数据集和模型库,用户可以直接使用,无需额外下载。

什么是公开数据

公开数据包含平台预置的常用数据集和AI模型,具有以下特点:

  • 即用即得:无需下载,直接使用
  • 高质量:经过筛选和验证的数据
  • 分类清晰:按领域和用途分类
  • 持续更新:定期添加新的数据集和模型

数据存储路径

模型存储

  • 路径/ai-models
  • 内容:预训练模型、模型权重文件
  • 容量:1.0T

数据集存储

  • 路径/ai-datasets
  • 内容:训练数据集、验证数据集
  • 容量:1.0T

可用数据集

计算机视觉

  • ImageNet:大规模图像分类数据集
  • COCO:目标检测和分割数据集
  • CIFAR-10/100:图像分类数据集
  • MNIST:手写数字识别数据集

自然语言处理

  • GLUE:自然语言理解基准数据集
  • SQuAD:问答数据集
  • WikiText:语言建模数据集
  • IMDB:情感分析数据集

推荐系统

  • MovieLens:电影推荐数据集
  • Amazon Reviews:商品评论数据集
  • Netflix Prize:电影评分数据集

音频处理

  • LibriSpeech:语音识别数据集
  • VoxCeleb:说话人识别数据集
  • ESC-50:环境声音分类数据集

可用模型

计算机视觉模型

  • ResNet系列:图像分类模型
  • YOLO系列:目标检测模型
  • U-Net:图像分割模型
  • Vision Transformer:视觉Transformer模型

自然语言处理模型

  • BERT系列:预训练语言模型
  • GPT系列:生成式预训练模型
  • T5:文本到文本转换模型
  • RoBERTa:优化的BERT模型

多模态模型

  • CLIP:图像-文本对比学习模型
  • DALL-E:文本到图像生成模型
  • Whisper:语音识别模型

使用方法

查看可用数据

# 查看模型目录
ls /ai-models

# 查看数据集目录
ls /ai-datasets

# 查看详细目录结构
tree /ai-models -L 2

在Python中使用

import os

# 设置模型路径
model_path = '/ai-models/bert-base-chinese'

# 设置数据集路径
dataset_path = '/ai-datasets/imagenet'

# 检查文件是否存在
if os.path.exists(model_path):
print(f"模型路径: {model_path}")
print(f"模型大小: {os.path.getsize(model_path)} bytes")

在深度学习框架中使用

# PyTorch示例
import torch
from torchvision import datasets, transforms

# 加载CIFAR-10数据集
transform = transforms.Compose([
transforms.ToTensor(),
transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))
])

dataset = datasets.CIFAR10(
root='/ai-datasets/cifar10',
train=True,
download=False, # 数据已存在,无需下载
transform=transform
)

数据更新

更新频率

  • 模型库:每月更新
  • 数据集:按需更新
  • 新功能:持续添加

更新通知

  • 平台会通过控制台通知数据更新
  • 重要更新会发送邮件通知
  • 更新日志在文档中维护

使用限制

访问权限

  • 所有用户可读访问
  • 不支持写入操作
  • 不支持删除操作

使用规范

  • 仅用于学习和研究
  • 遵守数据集使用协议
  • 不得用于商业用途(除非明确允许)

最佳实践

数据选择

  1. 根据任务选择:选择与任务匹配的数据集
  2. 考虑数据质量:优先使用高质量数据集
  3. 评估数据量:确保数据量满足训练需求

模型选择

  1. 任务匹配:选择适合任务的模型架构
  2. 性能考虑:平衡模型性能和计算资源
  3. 预训练优势:优先使用预训练模型

资源管理

  1. 路径管理:使用绝对路径避免路径问题
  2. 缓存优化:合理使用数据缓存
  3. 内存管理:大数据集分批加载

故障排除

路径不存在

# 检查路径是否存在
ls -la /ai-models
ls -la /ai-datasets

# 检查挂载状态
df -h | grep gm

权限问题

# 检查文件权限
ls -la /ai-models/some_model

# 修改权限(如果需要)
sudo chmod 644 /ai-models/some_model

下一步