ARC数据集包含从各种来源提取的7,787项科学考试问题,包括由AI2附属研究合作伙伴授权提供的科学问题。这些是纯文本的英语考试题,涵盖了文件中指示的多个年级。每个问题都有一个选项结构。
ARC数据集包含从各种来源提取的7,787项科学考试问题,包括由AI2附属研究合作伙伴授权提供的科学问题。这些是纯文本的英语考试题,涵盖了文件中指示的多个年级。每个问题都有一个选择结构(通常有4个答案选项)。这些问题分为2590个“难题”挑战题集(检索和共现方法均无法正确回答的问题)和5197个简单题集。每个都预先分为训练,开发和测试集,如下所示:
每一套都以CSV和JSON两种格式提供。CSV文件在一个单元格中包含问题的全文及其答案选项。JSON文件包含问题的拆分版本,其中问题文本已通过编程与答案选项分开。
ARC语料库
ARC语料库包含1400万无序,与科学相关的句子,包括与ARC相关的知识,并作为应对挑战的起点。语料库包含以下句子:从Web下载的与科学有关的文档;Wiktionary的词典定义以及Simple Wikipedia的被标记为科学的文章。有关其构造的详细信息,请参阅(Clark et al。,2018)。请注意,对“挑战”使用语料库是完全可选的,并且系统不限于此语料库。请参阅下载中包含的自述文件,以获取更多信息和该语料库的使用条款。
关于数据下载
除艾伦人工智能研究所(AI2)之外,不得分发此数据。有兴趣获取此数据的各方必须直接从allenai.org/data/arc从AI2下载。此数据仅用于非商业研究目的。