WikiQA语料库是一组新的公开可用的问题和句子对,它们被收集并注释以用于开放域问题解答的研究。
WikiQA语料库是一组新的公开可用的问题和句子对,它们被收集并注释以用于开放域问题解答的研究。
为了反映普通用户的真实信息需求,我们使用了Bing查询日志作为问题源。每个问题都链接到可能具有答案的Wikipedia页面。由于Wikipedia页面的摘要部分提供了有关该主题的基本且通常是最重要的信息,因此我们在此部分中使用句子作为候选答案。
在众包的帮助下,我们在数据集中包含了3,047个问题和29,258个句子,其中1,473个句子被标记为对应问题的答案句子。
有关该语料库的更多详细信息,请参见我们的EMNLP-2015论文“ WikiQA:开放域问答的挑战数据集” [Yang等。2015]。
此外,此下载还包括论文中的实验结果,用于判断“答案触发”任务的评估脚本以及论文作者所标记的答案短语。