3734

维基链接数据集

wiki-links

维基百科

谷歌发布的大型数据集合Wikilinks 可让程序更好地理解人类语言,该数据集包含超过3百万个实体的4000万个提及。

免积分下载
数据集市
2020年04月07日

相关数据

10种猴子图片数据集
10种猴子图片数据集
用于细粒度分类的图像数据集 免积分下载
僧伽罗语多语种TTS语料库
僧伽罗语多语种TTS语料库
该数据集包含僧伽罗语的多扬声器高质量转录音频数据,由斯里兰卡... 免积分下载
通用知识图谱数据集
通用知识图谱数据集
ownthink致力于最大的中文开放知识图谱,目前已经对两千... 免积分下载

数据介绍

Wikilinks Corpus中包含了来自各大网页及维基百科文章的4000多万条个人链接,它们则被称为mention。开发人员则可以通过分析每一条mention的内容以及目标文章的内容,进而确定一些模棱两可单词的意思。

img

谷歌在其Reaserch Blog中提出,人类非常擅长辨别同一个单词在不同语境下的意思。比如说,当把dodge写成Dodge时,它就是一个车子的品牌,而当写成to dodge的时候,它就是一个动词。

跟谷歌搜索算法非常类似,Wikilinks Corpus也是由在来自马萨诸塞大学阿默斯特分校的研究人员的协助下完成的,并且它的规模要比以往的数据集合都要来得大。

数据引用

@techreport{singh12:wiki-links,
    author    = "Sameer Singh and Amarnag Subramanya and Fernando Pereira and Andrew McCallum",
    title     = "Wikilinks: A Large-scale Cross-Document Coreference Corpus Labeled via Links to {Wikipedia}",
    institute = "University of Massachusetts, Amherst",
    number    = "UM-CS-2012-015",
    year      = "2012"
}

基本统计

文件数量:1100万 实体数量:300万 链接数:4000万

还没有任何文件记录.