斯坦福视觉与学习实验室研究团队在一篇名为「JRDB:用于人类环境中导航的视觉感知的数据集和基准」的研究中介绍了他们从其社交移动操纵器 JackRabbot 收集的新颖数据集 JRDB
该数据集包含70,000张分辨率为1024×1024的高质量PNG图像,并且在年龄,种族和图像背景方面都存在很大差异。它还覆盖了诸如眼镜,太阳镜,帽子等配件。
这是一个综合生成的数据集,其中将单词实例放置在自然场景图像中,同时考虑了场景布局。
HI-MIA,是一个智能家居场景下的固有唤醒词数据库。该数据库共包含340个说话人,每个说话人语料包含了近场麦克风拾音和远场麦克风阵列的多通道拾音。它可用于声纹识别、语音唤醒识别等研究。
该数据集包含 3 个领域的 1225 个单词的类比。具体内容有 687 个国家首都类词语,175 个城市省份类词语和 240 个家庭关系类词语。
Comma.ai 数据集是一个用于自动驾驶的视频数据集,包含 7.25 小时的视频。
Caltech 101 数据集是 101 类别的对象的图片组成的图片数据集,主要用于目标识别和图像分类。
ADE20K 数据集是用来做场景解析的一个非常大的数据集,包含 150 种物体类型,于 2017 年由 MIT CSAIL 研究组发布并维护,可用于场景感知、解析、分割、多物体识别和语义理解。
CACD 数据集是一个用于跨年龄的人脸识别和检索的大规模数据集, 包含来自互联网的 2,000 名名人的 163,446 张图片。
扩展的耶鲁人脸数据库 B 是一个人脸数据集,主要用于身份鉴定,它包含在 9 个姿势和 64 个照明条件下的 28 个人类对象的 16128 个图像。
VGGFace2 是一个大规模的人脸识别数据集,包含 9131 个人的面部。 图像从 Google 图片搜索下载,在姿势,年龄,照明,种族和职业方面有很大差异。