WordNet是由Princeton 大学的心理学家,语言学家和计算机工程师联合设计的一种基于认知语言学的英语词典。
包含8个可用于文本分类的子数据集,样本大小从120K到3.6M,问题范围从2级到14级,数据来源于 DBPedia、Amazon、Yelp、Yahoo!、Sogou 和 AG
约30,000,000个句子及其翻译
JRC Names 是一个跨语言实体名称语料库,该语料库包含了大量跨语言人名和组织名称(称之为“实体”),包括不同语言的实体名称,包括汉语、英语、拉丁语、希腊语、阿拉伯语、斯拉夫语、日本语等。
小型数据集,包含 7 种关系类型和总共 1529 个注释示例。
ICWSM 2017论文“自动仇恨语音检测和无礼语言问题”的作者贡献。
该数据集包含从2009年采样的60,730维基百科的英语文章及其可比较的西班牙文章中提取的术语向量。
该数据仅出于研究目的而发布。DESM词嵌入数据集可能包含一些人可能会认为令人反感,不雅或其他令人反感的术语。Microsoft尚未审查或修改数据集的内容。
该数据集包含具有相应较短(压缩)版本的句子和简短段落。每个输入文本最多可进行五次压缩,并对其含义保留和语法进行质量判断。
用于回答问题的语义解析的最新工作集中于冗长而复杂的问题,如果在两个人之间的正常对话中提出问题,其中许多问题似乎是不自然的。