4284

谷歌BoolQ问答数据集

BoolQ

问答数据 文本数据集 谷歌 BoolQ 自然语言处理 阅读理解 机器翻译 机器阅读

BoolQ是一个包含15942个示例的是/否问题的问题回答数据集。 这些问题是自然发生的-它们是在无提示且不受约束的环境中生成的。

免积分下载
数据集市
2020年04月18日
8.3 MB

相关数据

谷歌随机生成的3D模型数据集
谷歌随机生成的3D模型数据集
为了在模拟中训练机器人的抓地力和其他任务,随机生成的3D模型... 免积分下载
欧洲议会平行语料库1996-2011
欧洲议会平行语料库1996-2011
平行语料库对于统计机器翻译(SMT)的研究至关重要,欧洲议会... 免积分下载
IMDB电影评论数据集
IMDB电影评论数据集
IMDB上25,000条电影评论数据集 免积分下载

数据介绍

每个示例都是(问题,段落,答案)的三元组,页面标题作为可选的附加上下文。 文本对分类设置类似于现有的自然语言推理任务。

通过从寻求信息的查询分布中取样问题(而不是提示注释者输入文本对),与现有的NLI数据集相比,我们观察到了更具挑战性的示例。

数据内容

BoolQ数据集发行版包含三个.jsonl文件,其中每一行都是一个JSON字典,其格式如下:

{
  "question": "is france the same timezone as the uk",
  "passage": "At the Liberation of France in the summer of 1944, Metropolitan France kept GMT+2 as it was the time then used by the Allies (British Double Summer Time). In the winter of 1944--1945, Metropolitan France switched to GMT+1, same as in the United Kingdom, and switched again to GMT+2 in April 1945 like its British ally. In September 1945, Metropolitan France returned to GMT+1 (pre-war summer time), which the British had already done in July 1945. Metropolitan France was officially scheduled to return to GMT+0 on November 18, 1945 (the British returned to GMT+0 in on October 7, 1945), but the French government canceled the decision on November 5, 1945, and GMT+1 has since then remained the official time of Metropolitan France."
  "answer": false,
  "title": "Time in France",
}

这些文件是:

  • train.jsonl:9427带标签的训练示例
  • dev.jsonl:3270标记的开发示例
  • test.jsonl:3245未标记的测试示例

带隐藏标签的测试数据将与排行榜提交系统一同发布。

数据集链接

数据引用 @inproceedings{clark2019boolq, title = {BoolQ: Exploring the Surprising Difficulty of Natural Yes/No Questions}, author = {Clark, Christopher and Lee, Kenton and Chang, Ming-Wei, and Kwiatkowski, Tom and Collins, Michael, and Toutanova, Kristina}, booktitle = , year = {2019}, }

还没有任何文件记录.