此数据集包含从多语言Wikipedia语料库https://www.wikipedia.org/中提取的开放关系短语。
关系提取(RE)是在一对参数之间分配语义关系的任务。RE系统有两种形式:封闭域,使用一组封闭的关系短语来指定关系;开放域,使用任意短语可以描述参数之间的关系。RE系统的输出可用于各种下游应用程序,包括问题解答,信息提取等。尽管RE系统对于英语和其他少数几种语法分析工具(解析器,POS标记器,命名实体分析器)有效的语言正常工作如果没有可用的分析工具,那么为世界上大多数语言开发RE系统的工作很少。但是,我们确实有英语和许多其他语言之间的翻译系统。Faruqui和Kumar(2015)描述了一种用于多语言RE的跨语言投影算法,该算法通过将文本从外语翻译成英语,执行英语关系提取并将这些关系投影回外语来实现。本文介绍了该算法在从Wikipedia提取10种语言的多语言关系中的应用。本文还报告了针对三种语言的人类注释算法的性能:法语,俄语和印地语。该数据集提供了使用此算法获得的一组自动提取的关系,以及用于评估该算法的一组人类注释。用英语执行关系提取并将这些关系投影回外语。本文介绍了该算法在从Wikipedia提取10种语言的多语言关系中的应用。本文还报告了针对三种语言的人类注释算法的性能:法语,俄语和印地语。该数据集提供了使用此算法获得的一组自动提取的关系,以及用于评估该算法的一组人类注释。用英语执行关系提取并将这些关系投影回外语。本文介绍了该算法在从Wikipedia提取10种语言的多语言关系中的应用。本文还报告了针对三种语言的人类注释算法的性能:法语,俄语和印地语。该数据集提供了使用此算法获得的一组自动提取的关系,以及用于评估该算法的一组人类注释。
数据源 关系抽取是使用以下语言从多语种Wikipedia语料库的句子中执行的:法语,俄语,中文,阿拉伯语,印地语,印度尼西亚语,他加禄语,拉脱维亚语,斯瓦希里语和格鲁吉亚语。
更多介绍信息请查看Readme文件
序号 | 名称 | 大小 |
---|---|---|
1 | multilingual_relations_data.tar | 10.4GB |