WikiQA语料库是一组新的公开可用的问题和句子对,它们被收集并注释以用于开放域问题解答的研究。
美国知识问答网站 Quora 上的问题答案数据集,可用以进行重复问题检测。
多种类自然语言推理(MultiNLI)语料库是一个众包的433k句子对的集合,带有文本蕴含信息。语料库以SNLI语料库为模型,但是不同之处在于它涵盖了多种口语和书面语体,并支持独特的跨语体泛化评估。
SNLI语料库(1.0版)是一个57万个人工书写的英语句子对的集合,这些句子对经过手动标注以实现平衡分类,并带有enume,矛盾和中性标签,支持自然语言推理(NLI)的任务。
SciKG是一个以科研为中心的大规模知识图谱,目前包含计算机科学领域,由概念、专家和论文组成。
此数据集包含从多语言Wikipedia语料库https://www.wikipedia.org/中提取的开放关系短语。
来自北京大学开放研究数据平台,利用scrapy作为工具,爬取了知乎平台上十万余条用户个人主页数据,涵盖了用户性别、所在地、个性签名等多项属性。
ARC数据集包含从各种来源提取的7,787项科学考试问题,包括由AI2附属研究合作伙伴授权提供的科学问题。这些是纯文本的英语考试题,涵盖了文件中指示的多个年级。每个问题都有一个选项结构。
现代汉语语法信息词典,含8万词的360万项语法属性描述。