3607

微软WikiQA语料库

WikiQA Corpus

学术交流,图书馆和信息科学等

WikiQA语料库是一组新的公开可用的问题和句子对,它们被收集并注释以用于开放域问题解答的研究。

免积分下载
数据集市
2020年06月23日

相关数据

Twitter情感分析训练语料库
Twitter情感分析训练语料库
该情感分析数据集 包含1,578,627条分类推文,每行标记... 免积分下载
多领域情感评论文本数据集
多领域情感评论文本数据集
多领域情感数据集包含从Amazon.com获取的部分产品评论... 免积分下载
Euler图学习开源数据集
Euler图学习开源数据集
Euler图学习平台自研算法对应的开源图数据与样本数据 免积分下载

数据介绍

WikiQA语料库是一组新的公开可用的问题和句子对,它们被收集并注释以用于开放域问题解答的研究。

为了反映普通用户的真实信息需求,我们使用了Bing查询日志作为问题源。每个问题都链接到可能具有答案的Wikipedia页面。由于Wikipedia页面的摘要部分提供了有关该主题的基本且通常是最重要的信息,因此我们在此部分中使用句子作为候选答案。

在众包的帮助下,我们在数据集中包含了3,047个问题和29,258个句子,其中1,473个句子被标记为对应问题的答案句子。

有关该语料库的更多详细信息,请参见我们的EMNLP-2015论文“ WikiQA:开放域问答的挑战数据集” [Yang等。2015]。

此外,此下载还包括论文中的实验结果,用于判断“答案触发”任务的评估脚本以及论文作者所标记的答案短语。

还没有任何文件记录.