微软亚洲研究院自然语言计算组与微软必应(Bing)搜索引擎团队合作构建并发布了大规模、高质量、多类型的语义分析数据集。
语义分析引擎是目前诸多人工智能产品的核心模块,例如微软必应(Bing)搜索引擎、微软小冰、微软小娜等。然而,由于对自然语言进行语义分析标注的成本非常高、难度非常大,因此,学术界现有的语义分析数据集存在数据规模小、问题种类少、问题模板结构过于单一等缺陷。
针对这些问题,微软亚洲研究院自然语言计算组与微软必应(Bing)搜索引擎团队合作构建并发布了一个大规模、高质量、多类型的语义分析数据集:MSParS (Multi-perspective Semantic ParSing Dataset),希望供科研人员和工业界同行进行研究和使用。该数据集(V1.0版本)包含了81,826个自然语言问题及其对应的结构化语义表示,覆盖12种不同的问题类型和2,071个知识图谱谓词,是学术界目前最全面的语义分析数据集。现在,MSParS V1.0版本已经可以通过GitHub进行下载。
问题数量 | 81,826 |
问题类型 | 12种 |
知识图谱谓词 | 知识图谱谓词 |
引用 |
@inproceedings{ title={MSParS: a Multi-perspective Semantic ParSing Dataset for Knowledge-based Question Answering}, author={}, booktitle={}, volume={}, pages={}, year={2019} } |