中文预训练词向量数据集

Chinese Word Vectors

词向量文本数据集中文文本自然语言处理中文语料

该库包含经过数十种用各领域语料（百度百科、维基百科、人民日报 1947-2017、知乎、微博、文学、金融、古汉语等）训练的词向量，涵盖各领域，且包含多种训练设置

下载所需积分：免积分下载

数据集发布者：数据集市

发布时间： 2020年03月17日

查看原始数据

数据介绍

该项目提供使用不同表征（稀疏和密集）、上下文特征（单词、n-gram、字符等）以及语料库训练的中文词向量（嵌入）。

在这里，你可以轻松获得具有不同属性的预训练向量，并将它们用于各类下游任务。

此外，开发者还在该工具中提供了一个中文类比推理数据集 CA8 及其评估工具包，用户可以以此评估自己词向量的质量。

引用：

@InProceedings{P18-2023,
  author =  "Li, Shen
    and Zhao, Zhe
    and Hu, Renfen
    and Li, Wensi
    and Liu, Tao
    and Du, Xiaoyong",
  title = "Analogical Reasoning on Chinese Morphological and Semantic Relations",
  booktitle = "Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers)",
  year = "2018",
  publisher = "Association for Computational Linguistics",
  pages = "138--143",
  location = "Melbourne, Australia",
  url = "http://aclweb.org/anthology/P18-2023"
}

格式：

本资源中的预训练词向量文件以文本格式存储，每一行包含一个单词及其词向量，每个值由空格分开。

第一行记录元信息：第一个数字表示该单词在文件中的排序，第二个数字表示维度大小。

除了密集单词向量（以 SGNS 训练），该项目还提供了稀疏向量（以 PPMI 训练）。

它们与 liblinear 格式相同，其中「：」前的数字代表维度索引，「：」后的数字表示值。

数据规格

发布时间	2018年
相关论文	Shen Li, Zhe Zhao, Renfen Hu, Wensi Li, Tao Liu, Xiaoyong Du, Analogical Reasoning on Chinese Morphological and Semantic Relations, ACL 2018

还没有任何文件记录.

中文预训练词向量数据集

Chinese Word Vectors

相关数据

Twitter情感分析训练语料库

多领域情感评论文本数据集

Euler图学习开源数据集

数据介绍

数据规格