全部数据集-数据集市-免费数据资源共享网

行业数据

全部

机器学习训练数据

热门数据集

全网新闻数据(SogouCA) 2012版

搜狗实验室提供，来自若干新闻站点2012年6月—7月期间国内...

免积分下载

排序方式：默认，数量：447

演员动作数据集

Actor-Action Dataset

5240 1.9GB

演员动作数据集（A2D），其中包含43个演员和动作对的固定词汇，他们建立了一个多层条件随机场模型，并从一个视频中为每个超级体素分配一个来自演员动作产品空间的标签。

2020-08-14 （59月前）免积分下载

微软 GPS 轨迹数据集

GeoLife GPS Trajectories

9059 298.7 MB

此 GPS 轨迹数据集在（微软亚洲研究）地球生活项目中由 178 个用户在四年多的时间（从 2007 年 4 月到 2011 年 10 月）收集。

2020-06-24 （61月前）免积分下载

微软ClueWeb重复新闻文章数据集

MS ClueWeb 09

4969 150MB

此数据版本是Omar Alonso，Dennis Fetterly和Mark Manasse于2013年12月在第九届亚洲信息检索协会会议上发表的《重复新闻报道检测》一书的配套文件。

2020-06-24 （61月前）免积分下载

2012年综合选举推文

Comprehensive 2012 Election Tweets

4785 767.86M

该数据集标识了收集到的3800万条推文，用于分析与2012年美国最新发布的社交媒体消息有关：2016年1月29日。

2020-06-24 （61月前）免积分下载

维基百科中英语-西班牙语术语向量的数据集

Data Set of English-Spanish Term Vectors from Wikipedia

4676

该数据集包含从2009年采样的60,730维基百科的英语文章及其可比较的西班牙文章中提取的术语向量。

2020-06-24 （61月前）免积分下载

来自必应查询的经过训练的双词嵌入语料

Dual Word Embeddings Trained on Bing Queries

4284 10.3GB

该数据仅出于研究目的而发布。DESM词嵌入数据集可能包含一些人可能会认为令人反感，不雅或其他令人反感的术语。Microsoft尚未审查或修改数据集的内容。

2020-06-24 （61月前）免积分下载

微软看图问答数据集

FigureQA Dataset

4049 3.4GB

回答有关给定图像的问题是一项艰巨的任务，既需要了解图像，也需要附带的查询。微软研究蒙特利尔的FigureQA数据集引入了一种新的可视化推理任务，专门用于图形图和图形的研究。

2020-06-23 （61月前）免积分下载

微软研究院手势视频数据集

FingerPaint

4739 3.2 GB

FingerPaint 数据集包含几个执行手势的个人的视频序列，由深度摄像机捕获。

2020-06-23 （61月前）免积分下载

微软Frames帧数据集

Frames Dataset

4575 71MB

Frames正是为了鼓励对对话代理的研究，这些代理可以支持复杂环境中的决策，在这种情况下，预订假期包括航班和酒店。

2020-06-23 （61月前）免积分下载

微软生成神经视觉艺术家数据集

GeNeVA_datasets

4056

条件文本到图像生成，现有研究主要侧重于在一个步骤中从可用的调理信息生成单个图像。一步一代以外的实际扩展是一个系统，该系统以迭代方式生成图像，但以持续的语言输入或反馈为条件。

2020-06-23 （61月前）免积分下载

微软研究行动数据集II

Microsoft Research Action Data Set II

3972

Microsoft Research Action Data Set II是Microsoft Research Action Data Set的扩展版本。

2020-06-23 （61月前）免积分下载

MS-微软语音语料库（印度语）

Microsoft Speech Corpus (Indian languages)

5359

Microsoft Speech Corpus（印度语言）发行版包含泰卢固语、泰米尔语和古吉拉特语的会话和短语语音训练和测试数据

2020-06-23 （61月前）免积分下载