239

Wikipedia多语言开放关系语料库1.0版

wikipedia_multilingual_relations_v1

英文语料 维基百科 Wikipedia 自然语言处理 NLP 文本关系

此数据集包含从多语言Wikipedia语料库https://www.wikipedia.org/中提取的开放关系短语。

免积分下载
数据集市
2020年04月17日
10.4GB

相关数据

Twitter情感分析训练语料库
Twitter情感分析训练语料库
该情感分析数据集 包含1,578,627条分类推文,每行标记... 免积分下载
多领域情感评论文本数据集
多领域情感评论文本数据集
多领域情感数据集包含从Amazon.com获取的部分产品评论... 免积分下载
Euler图学习开源数据集
Euler图学习开源数据集
Euler图学习平台自研算法对应的开源图数据与样本数据 免积分下载

数据介绍

关系提取(RE)是在一对参数之间分配语义关系的任务。RE系统有两种形式:封闭域,使用一组封闭的关系短语来指定关系;开放域,使用任意短语可以描述参数之间的关系。RE系统的输出可用于各种下游应用程序,包括问题解答,信息提取等。尽管RE系统对于英语和其他少数几种语法分析工具(解析器,POS标记器,命名实体分析器)有效的语言正常工作如果没有可用的分析工具,那么为世界上大多数语言开发RE系统的工作很少。但是,我们确实有英语和许多其他语言之间的翻译系统。Faruqui和Kumar(2015)描述了一种用于多语言RE的跨语言投影算法,该算法通过将文本从外语翻译成英语,执行英语关系提取并将这些关系投影回外语来实现。本文介绍了该算法在从Wikipedia提取10种语言的多语言关系中的应用。本文还报告了针对三种语言的人类注释算法的性能:法语,俄语和印地语。该数据集提供了使用此算法获得的一组自动提取的关系,以及用于评估该算法的一组人类注释。用英语执行关系提取并将这些关系投影回外语。本文介绍了该算法在从Wikipedia提取10种语言的多语言关系中的应用。本文还报告了针对三种语言的人类注释算法的性能:法语,俄语和印地语。该数据集提供了使用此算法获得的一组自动提取的关系,以及用于评估该算法的一组人类注释。用英语执行关系提取并将这些关系投影回外语。本文介绍了该算法在从Wikipedia提取10种语言的多语言关系中的应用。本文还报告了针对三种语言的人类注释算法的性能:法语,俄语和印地语。该数据集提供了使用此算法获得的一组自动提取的关系,以及用于评估该算法的一组人类注释。

数据源 关系抽取是使用以下语言从多语种Wikipedia语料库的句子中执行的:法语,俄语,中文,阿拉伯语,印地语,印度尼西亚语,他加禄语,拉脱维亚语,斯瓦希里语和格鲁吉亚语。

更多介绍信息请查看Readme文件

序号 名称 大小
1 multilingual_relations_data.tar 10.4GB