3856

微软机器阅读理解数据集

Microsoft MAchine Reading COmprehension Dataset

MS MARCO 机器学习 阅读理解 机器阅读 问答数据 文本数据 微软

MSMARCO数据集包含微软BING搜索的query以及query对应的top 10的搜索结果。超过人类的意思就是说,给定query和top 10搜索结果,机器找出的答案比普通人找的更准。

免积分下载
大雄
2019年06月30日
1.5GB

相关数据

食品产品数据库(Open Food Facts)
食品产品数据库(Open Food Facts)
Open Food Facts是一个免费,开放,可比较的来自... 免积分下载
坠落检测数据集
坠落检测数据集
数据来自论文《Fall Detection》 免积分下载
三国人物结构化数据
三国人物结构化数据
来自github的一个三国人物信息数据集;数据主要整理自 维... 免积分下载

数据介绍

MARCO是微软基于搜索引擎BING构建的大规模英文阅读理解数据集,包含10万个问题和20万篇不重复的文档。

MARCO数据集中的问题全部来自于BING的搜索日志,根据用户在BING中输入的真实问题模拟搜索引擎中的真实应用场景,是该领域最有应用价值的数据集之一。

数据规格

问题数量 1,010,916
回答数量 182,669
数据主要来源 bing搜索引擎
数据集发布时间 2016年12月
还没有任何文件记录.