MegaFace是由美国华盛顿大学计算机科学与工程实验室发布并维护的一套公开人脸数据集,是一个一百万规模级别的面部识别算法测试基准,资料集共包含690,572个身份共1,027,060张图像。
比ImageNet大的图像数据集来了;总共包含63万张图像数量,覆盖365个类别数量,高达 1000 万的框数,超越了Pascal VOC、ImageNet、COCO数据集。
Youtube face dataset 是一个人脸视频数据,包括1595人的3425段视频剪辑,每个人平均有2.15段视频剪辑。
Enron Email Dataset 包括安然公司部分高管和中级管理人员150位员工500万封邮件消息,由美国联邦能源管理委员会进行调查期间发布。
由于美国国家标准化研究院(NIST)发布的大型人脸数据集,包括从互联网采集的静态人脸图像和视频,共有1845个对象,11754张图片,55026视频帧,7011个视频和10044非人脸图像。
TED平行语料库是多语言平行语料库,包括多语言并行语料库和单语语料库。从TED会议www.ted.com 提取109种世界语言。
IMDB 电影数据仓库数据,包括电影名称、介绍、导演、演员等信息,数据更新至2017年9月。
该数据是从商场监控视频中人工标注的行人,从 2000 副视频帧标注了 60000名行人。
GENKI数据集是由加利福尼亚大学的机器概念实验室收集。该数据集包含GENKI-R2009a,GENKI-4K,GENKI-SZSL三个部分
HOLLYWOOD2 是一个人类行为动作视频数据集,3669个视频剪辑,视频总长度约为20.1小时,视频包括 12类 不同的人类行为动作,10个 场景,视频剪辑内容来自69部电影。
HMDB 是一个人类动作视频数据,包含 6849段 视频剪辑,51个 人类动作类别,每类动作至少包含 101段 视频剪辑。
ETHZ Synthesizability 是一个纹理图像数据,包含 21302 个纹理图片