MSMARCO数据集包含微软BING搜索的query以及query对应的top 10的搜索结果。超过人类的意思就是说,给定query和top 10搜索结果,机器找出的答案比普通人找的更准。
MARCO是微软基于搜索引擎BING构建的大规模英文阅读理解数据集,包含10万个问题和20万篇不重复的文档。
MARCO数据集中的问题全部来自于BING的搜索日志,根据用户在BING中输入的真实问题模拟搜索引擎中的真实应用场景,是该领域最有应用价值的数据集之一。
问题数量 | 1,010,916 |
回答数量 | 182,669 |
数据主要来源 | bing搜索引擎 |
数据集发布时间 | 2016年12月 |