5508

视频动作理解数据集(Moments in Time)

Moments in Time

视频数据集 动作理解 大型数据集 视频分析

IBM-MIT联合提出最新百万规模视频动作理解数据集

免积分下载
数据集市
2020年11月30日

相关数据

Caltech-256 数据集
Caltech-256 数据集
Caltech-256 是一个图像物体识别数据集,包含 30... 免积分下载
猫的图片数据集
猫的图片数据集
超过9,000张带有面部标注特征的猫的图像数据集 免积分下载
CACD 跨年龄人脸识别和检索数据集
CACD 跨年龄人脸识别和检索数据集
CACD 数据集是一个用于跨年龄的人脸识别和检索的大规模数据... 免积分下载

数据介绍

MIT-IBM Watson AI Lab 就推出了一个全新的百万规模视频理解数据集Moments-in-Time虽然没有之前的YouTube-8M数据集大,但应该是目前多样性,差异性最高的数据集了。该数据集的任务仍然为视频分类任务,不过其更专注于对“动作”的分类,此处的动作为广义的动作或动态,其执行者不一定是人,也可以是物体或者动物,这点应该是该数据集与现有数据集最大的区分。

数据概况

  • 共有100,0000个视频,每个视频的长度相同,均为3s

  • 每个视频有一个动作标签(后续版本可能拓展为多标签),此处的动作仅为动词,比如“opening”就为一个标签(与之不同,其他数据集经常会采用动名词组的形式如”opening the door”)

  • 动作主体可以是人,动物,物体乃至自然现象。

  • 数据集的类内差异和类间差异均很大。

  • 存在部分或完全依赖于声音信息的动作,如clapping(拍手) 由上述描述可以看出,由于超大的数据量以及多样性,这个数据集是相当难的,下图则为该数据集的一个例子。可以看出,一个动作类别可以由多种动作主体完成,从而从视觉上看的差异性相当的大,动作的概念可以说是相当抽象了。

img

示例视频

moments.csail.mit.edu/img/CAM_video_no_probs.mp4

相关论文

[1] Monfort M, Zhou B, Bargal S A, et al. Moments in Time Dataset: one million videos for event understanding[J].

[2] Salamon J, Jacoby C, Bello J P. A dataset and taxonomy for urban sound research[C]//Proceedings of the 22nd ACM international conference on Multimedia. ACM, 2014: 1041-1044.

[3] Sigurdsson G A, Russakovsky O, Gupta A. What Actions are Needed for Understanding Human Actions in Videos?[J]. arXiv preprint arXiv:1708.02696, 2017.

数据规格

发布时间 2017年
还没有任何文件记录.