Caltech-UCSD Birds 200 是一个鸟类图片数据集,包含 200 不同种鸟类,共计 11788 张图片。
DCIGN人脸数据集是采用深度网络 Deep Convolutional Inverse Graphics Network 进行人脸特征建模,旨在构建剔除人脸角度、光照、材质等外生条件的人脸模型。
Caltech-256 是一个图像物体识别数据集,包含 30608 张图片,256个物体类别,每类图片最少80张,最多827张。
STL-10数据集是用于开发无监督特征学习,深度学习,自学习学习算法的图像识别数据集。它的灵感来自CIFAR-10数据集,但有一些修改
CIFAR-10数据集由10个类的60000个32x32彩色图像组成,每个类有6000个图像。有50000个训练图像和10000个测试图像。
Pascal VOC是世界计算机视觉领域知名的竞赛,比赛中,参赛者要对人、猫、鸟、飞机、汽车、船、盆栽等20类物体进行检测。由于训练样本较少,场景变化多端,非常具有挑战性。
(SFRS) 是一个结构化表单的图像数据,包括5590页税务填报表单的黑白照片以及对应表单填报内容。
一个英文手写字符数据,由美国标准技术研究院发布(NIST),包括3600人工810000个英文字符的手写图像,可用于构建视觉字符识别(OCR)任务。
Text Recognition 是一个文字识别图像数据,包含 900万张 图像,图像中有 9万 多个英文单词,可用于进行光学字符识别任务。
MediaTeam Oulu Document 数据集是一个文档扫描图像和文档内容数据集,包含 500篇 1975年之前的文档信息。
INRIA Person 数据集用来对图像和视频中的直立行人进行检测。
Biwi Kinect Head Pose Database 是一个人头部姿势图像数据集,包含 15000 多张,20个不同人的头部姿势的图像。