微软研究院问答语料库
此下载仅包含以下数据:一个文本文件,其中包含针对Encarta 98文本的1.4K问题、Encarta 98的全文以及一组识别Encarta中完全或部分回答问题的文本片段的人工注释。
这些注释还指定了关于匹配的精确性质的信息,例如问题和答案的语言形式是否相似。
注释数据被分成两种不同的方式,以促进不同的算法训练方法:
1)10个文件,每个文件包含原始1.4K问题的10%,以及每个问题的完整答案集;
2)10个文件,每个文件包含10K+问题/答案对的完整集合的10%。