4423

AI2推理挑战赛(ARC)2018数据集

ARC2018

ARC 逻辑推理 AI推理

ARC数据集包含从各种来源提取的7,787项科学考试问题,包括由AI2附属研究合作伙伴授权提供的科学问题。这些是纯文本的英语考试题,涵盖了文件中指示的多个年级。每个问题都有一个选项结构。

免积分下载
数据集市
2020年03月29日

相关数据

Twitter情感分析训练语料库
Twitter情感分析训练语料库
该情感分析数据集 包含1,578,627条分类推文,每行标记... 免积分下载
多领域情感评论文本数据集
多领域情感评论文本数据集
多领域情感数据集包含从Amazon.com获取的部分产品评论... 免积分下载
Euler图学习开源数据集
Euler图学习开源数据集
Euler图学习平台自研算法对应的开源图数据与样本数据 免积分下载

数据介绍

ARC数据集包含从各种来源提取的7,787项科学考试问题,包括由AI2附属研究合作伙伴授权提供的科学问题。这些是纯文本的英语考试题,涵盖了文件中指示的多个年级。每个问题都有一个选择结构(通常有4个答案选项)。这些问题分为2590个“难题”挑战题集(检索和共现方法均无法正确回答的问题)和5197个简单题集。每个都预先分为训练,开发和测试集,如下所示:

  • 难题训练集:1,119
  • 难题开发集:299
  • 难题测试集:1,172
  • 简易训练集:2,251
  • 简易开发集:570
  • 简易测试集:2,376

每一套都以CSV和JSON两种格式提供。CSV文件在一个单元格中包含问题的全文及其答案选项。JSON文件包含问题的拆分版本,其中问题文本已通过编程与答案选项分开。

ARC语料库

ARC语料库包含1400万无序,与科学相关的句子,包括与ARC相关的知识,并作为应对挑战的起点。语料库包含以下句子:从Web下载的与科学有关的文档;Wiktionary的词典定义以及Simple Wikipedia的被标记为科学的文章。有关其构造的详细信息,请参阅(Clark et al。,2018)。请注意,对“挑战”使用语料库是完全可选的,并且系统不限于此语料库。请参阅下载中包含的自述文件,以获取更多信息和该语料库的使用条款。

关于数据下载

除艾伦人工智能研究所(AI2)之外,不得分发此数据。有兴趣获取此数据的各方必须直接从allenai.org/data/arc从AI2下载。此数据仅用于非商业研究目的。

还没有任何文件记录.