谷歌发布的大型数据集合Wikilinks 可让程序更好地理解人类语言,该数据集包含超过3百万个实体的4000万个提及。
Wikilinks Corpus中包含了来自各大网页及维基百科文章的4000多万条个人链接,它们则被称为mention。开发人员则可以通过分析每一条mention的内容以及目标文章的内容,进而确定一些模棱两可单词的意思。
谷歌在其Reaserch Blog中提出,人类非常擅长辨别同一个单词在不同语境下的意思。比如说,当把dodge写成Dodge时,它就是一个车子的品牌,而当写成to dodge的时候,它就是一个动词。
跟谷歌搜索算法非常类似,Wikilinks Corpus也是由在来自马萨诸塞大学阿默斯特分校的研究人员的协助下完成的,并且它的规模要比以往的数据集合都要来得大。
数据引用
@techreport{singh12:wiki-links,
author = "Sameer Singh and Amarnag Subramanya and Fernando Pereira and Andrew McCallum",
title = "Wikilinks: A Large-scale Cross-Document Coreference Corpus Labeled via Links to {Wikipedia}",
institute = "University of Massachusetts, Amherst",
number = "UM-CS-2012-015",
year = "2012"
}
基本统计
文件数量:1100万 实体数量:300万 链接数:4000万