1469

英语词汇数据库

WordNet

英语词汇 词典 英语单词 文本数据集 知识图谱 自然语言处理

WordNet是由Princeton 大学的心理学家,语言学家和计算机工程师联合设计的一种基于认知语言学的英语词典。

免积分下载
数据集市
2020年12月31日

相关数据

Twitter情感分析训练语料库
Twitter情感分析训练语料库
该情感分析数据集 包含1,578,627条分类推文,每行标记... 免积分下载
多领域情感评论文本数据集
多领域情感评论文本数据集
多领域情感数据集包含从Amazon.com获取的部分产品评论... 免积分下载
Euler图学习开源数据集
Euler图学习开源数据集
Euler图学习平台自研算法对应的开源图数据与样本数据 免积分下载

数据介绍

WordNet® 一个大型的英语词汇数据库。名词、动词、形容词和副词被分组成一组认知同义词(合成词),每个同义词都表达了一个不同的概念。Synsets 通过概念-语义和词汇关系相互关联。由此产生的有意义的相关词语和概念的网络可以通过浏览器(链接是外部的).WordNet 也免费和公开可供下载。WordNet 的结构使它成为计算语言学和自然语言处理的有用工具。

WordNet 表面上类似于同义词库,因为它根据单词的含义将单词聚集在一起。然而,有一些重要的区别。首先,WordNet 不仅连接单词形式(字母字符串),还连接特定的字感。因此,在网络中发现的词在语义上是消除歧义的。其次,WordNet 标记单词之间的语义关系,而同义词库中的单词分组除了意味着相似性外,不遵循任何显式模式。

结构

WordNet 中单词之间的主要关系是同义词,如"闭合"或"汽车"和"汽车"等词。同义词表示同一概念,在许多上下文中可互换的词,被分组到无序集(合成集)。WordNet 的 117 000 个合成集中,每个合成集都通过少量"概念关系"与其他合成集相连。此外,合成集包含一个简短的定义("gloss"),在大多数情况下,一个或多个简短的句子说明了合成集成员的使用。具有多种不同含义的单词形式在多个不同的合成集中表示。因此,WordNet 中的每个窗体含义对都是独一无二的。

关系

合成集之间最常见的编码关系是超从属关系(也称为超同义词、假名关系或 ISA 关系)。它连接更通用的合成集,如[家具,piece_of_furniture]越来越具体的,如[床]和[双层床]。因此,WordNet 指出,类别家具包括床,这反过来又包括双层床;相反,床和双层床等概念则成为这一类家具。所有名词层次结构最终都上根节点 [实体]。低密关系是过渡性的:如果扶手椅是一种椅子,如果椅子是一种家具,那么扶手椅就是一种家具。WordNet 区分类型(常见名词)和实例(特定人员、国家/地区和地理实体)。因此,扶手椅是一种椅子,巴拉克·奥巴马是一个总统的例子。实例始终是其层次结构中的叶(终端)节点。

Meronymy, 像 [椅子] 和 [靠背, 靠背] , [座位] 和 [腿] 这样的合成器之间的部分整体关系。零件是从它们的超高器中继承的:如果椅子有腿,那么扶手椅也有腿。零件不是继承的"向上",因为它们可能只是特定事物的特征,而不是整个班级的特点:椅子和各种椅子都有腿,但不是所有家具都有腿。

动词合成集也排列成层次结构;对树底的动词(troponyms)表达着对事件描述越来越具体的礼仪,如在[沟通]-[谈话]-[呜呜声]中。表达的具体方式取决于语义字段;卷(如上例所示)只是一个维度,可以据此详细阐述动词。另一些是速度(移动-慢跑-运行)或情感强度(如爱-偶像)。描述必然和单向相互影响的事件的动词是链接的:[购买]-[支付],[成功]-[尝试],[显示]-[请参阅]等。

形容词是按反义词来组织的。一对"直接"反义词,如湿干和年轻,反映了他们的成员强烈的语义契约。这些极性形容词中每个形容词都与一些"语义相似"的形容词有关:干燥与干枯、干旱、干燥、骨干、潮湿等有关。语义上相似的形容词是相反极的反向成员的"间接反义词"。关系形容词("相关词")指向它们派生的名词(刑事犯罪)。 WordNet 中只有几个副词(几乎、大部分、真的等),因为大多数英语副词都是通过形态粘贴直接从形容词派生的(令人惊讶的是,奇怪的是,等等)。

跨 POS 关系

WordNet 的大部分关系都连接来自语音 (POS) 同一部分的单词。因此,WordNet 确实由四个子网组成,每个子网用于名词、动词、形容词和副词,很少使用交叉 POS 指针。跨 POS 关系包括语义相似的单词之间的"形态"链接,这些词具有相同含义:观察(动词)、观察(形容词)观察、观察(名词)。在许多名词动词对中,名词的语义角色与动词有关已指定:[睡眠,sleeping_car] 是 [睡眠] 的位置,[画家] 是 [绘画] 的代理,而 [绘画,图片] 是它的结果。

下载

在其他项目或论文中使用 WordNet

请注意,WordNet® 注册了一个注册商标名。普林斯顿大学向研究和商业用户提供 WordNet 免费,前提是我们的许可证条款得到遵守,并使用适当的引文对项目进行适当的引用。使用 WordNet 既需要确认,又对未来项目维护和增强资金至关重要。

数据库包

WordNet 的最新 Windows 版本是 2.1,于 2005 年 3 月发布。Unix/Linux/Solaris/等版本 3.0 于 2006 年 12 月发布。版本 3.1 数据库文件仅(无代码)可以下载和替代应用程序中的 3.0 文件,并替换为 WordNet 的 Unix/Linux 应用程序。版本 3.1 在使用在线界面(链接是外部的).

下载最新的 WordNet 包,包括 Prolog 版本和感应映射文件。

还没有任何文件记录.