8190

腾讯AI Lab开源大规模高质量中文词向量数据

Tencent AI Lab Embedding Corpus for Chinese Words and Phrases

中文词 向量数据 中文 腾讯 语料 中文分词

该数据包含800多万中文词汇,相比现有的公开数据,在覆盖率、新鲜度及准确性上大幅提高,为对话回复质量预测和医疗实体识别等自然语言处理方向的业务应用带来显著的效能提升。

免积分下载
数据集市
2019年01月12日
6.3 GB

相关数据

Twitter情感分析训练语料库
Twitter情感分析训练语料库
该情感分析数据集 包含1,578,627条分类推文,每行标记... 免积分下载
多领域情感评论文本数据集
多领域情感评论文本数据集
多领域情感数据集包含从Amazon.com获取的部分产品评论... 免积分下载
Euler图学习开源数据集
Euler图学习开源数据集
Euler图学习平台自研算法对应的开源图数据与样本数据 免积分下载

数据介绍

腾讯AI Lab此次公开的中文词向量数据包含800多万中文词汇,其中每个词对应一个200维的向量。相比现有的中文词向量数据,腾讯AI Lab的中文词向量着重提升了以下3个方面,相比已有各类中文词向量大大改善了其质量和可用性:

⒈ 覆盖率(Coverage): 该词向量数据包含很多现有公开的词向量数据所欠缺的短语,比如“不念僧面念佛面”、“冰火两重天”、“煮酒论英雄”、“皇帝菜”、“喀拉喀什河”等。以“喀拉喀什河”为例,利用腾讯AI Lab词向量计算出的语义相似词如下:

墨玉河、和田河、玉龙喀什河、白玉河、喀什河、叶尔羌河、克里雅河、玛纳斯河

⒉ 新鲜度(Freshness): 该数据包含一些最近一两年出现的新词,如“恋与制作人”、“三生三世十里桃花”、“打call”、“十动然拒”、“供给侧改革”、“因吹斯汀”等。以“因吹斯汀”为例,利用腾讯AI Lab词向量计算出的语义相似词如下:

一颗赛艇、因吹斯听、城会玩、厉害了word哥、emmmmm、扎心了老铁、神吐槽、可以说是非常爆笑了

⒊ 准确性(Accuracy): 由于采用了更大规模的训练数据和更好的训练算法,所生成的词向量能够更好地表达词之间的语义关系,如下列相似词检索结果所示: Image:https://ai.tencent.com/ailab_op/ueditor/php/upload/image/20181203/1543803878473374.png

腾讯AI Lab词向量的构建

为了生成高覆盖率、高新鲜度、高准确性的词向量数据,腾讯AI Lab主要从以下3个方面对词向量的构建过程进行了优化:

⒈ 语料采集: 训练词向量的语料来自腾讯新闻和天天快报的新闻语料,以及自行抓取的互联网网页和小说语料。大规模多来源语料的组合,使得所生成的词向量数据能够涵盖多种类型的词汇。而采用新闻数据和最新网页数据对新词建模,也使得词向量数据的新鲜度大为提升。

⒉ 词库构建: 除了引入维基百科和百度百科的部分词条之外,还实现了Shi等人于2010年提出的语义扩展算法 [5],可从海量的网页数据中自动发现新词——根据词汇模式和超文本标记模式,在发现新词的同时计算新词之间的语义相似度。

⒊ 训练算法: 腾讯AI Lab采用自研的Directional Skip-Gram (DSG)算法 [6] 作为词向量的训练算法。DSG算法基于广泛采用的词向量训练算法Skip-Gram (SG),在文本窗口中词对共现关系的基础上,额外考虑了词对的相对位置,以提高词向量语义表示的准确性。

此份中文词向量数据的开源,是腾讯AI Lab依托公司数据源优势,对自身基础AI能力的一次展示,将为中文环境下基于深度学习的NLP模型训练提供高质量的底层支持,推动学术研究和工业应用环境下中文NLP任务效果的提升。

除发布此份中文词向量数据外,腾讯AI Lab长期以来在文本表示学习方面有着持续的投入,相关研究成果近期在ACL、EMNLP、IJCAI等自然语言处理及人工智能顶级会议上发表[7,8,9,10],并被应用于多个落地场景。未来,腾讯AI Lab将着眼于常规文本与社交媒体文本两种不同的文本类型,继续探索词汇、词组/实体、句子/消息、篇章/对话等各粒度文本对象的语义建模和理解,为自然语言处理领域的重要应用提供基础支持。

[1] Tomas Mikolov, Ilya Sutskever, Kai Chen, Gregory S. Corrado, and Jeffrey Dean:Distributed Representations of Words and Phrases and their Compositionality. NIPS 2013. [2] Jeffrey Pennington, Richard Socher, and Christopher D. Manning. GloVe: Global Vectors for Word Representation. EMNLP 2014. [3] P. Bojanowski, E. Grave, A. Joulin, T. Mikolov, Enriching Word Vectors with Subword Information. TACL 2017 (5). [4] Shen Li, Zhe Zhao, Renfen Hu, Wensi Li, Tao Liu, Xiaoyong Du. Analogical Reasoning on Chinese Morphological and Semantic Relations. ACL 2018. [5] Shuming Shi, Huibin Zhang, Xiaojie Yuan, and Ji-Rong Wen. Corpus-based Semantic Class Mining: Distributional vs. Pattern-Based Approaches. COLING 2010. [6] Yan Song, Shuming Shi, Jing Li, and Haisong Zhang. Directional Skip-Gram: Explicitly Distinguishing Left and Right Context for Word Embeddings. NAACL 2018. [7] Jialong Han, Yan Song, Wayne Xin Zhao, Shuming Shi, and Haisong Zhang. hyperdoc2vec: Distributed Representations of Hypertext Documents. ACL 2018. [8] Jichuan Zeng, Jing Li, Yan Song, Cuiyun Gao, Michael R. Lyu, and Irwin King. Topic Memory Networks for Short Text Classification. EMNLP 2018. [9] Yan Song and Shuming Shi. Complementary Learning of Word Embeddings. IJCAI 2018. [10] Yan Song, Shuming Shi, and Jing Li. Joint Learning Embeddings for Chinese Words and their Components via Ladder Structured Networks. IJCAI 2018.

数据规格

发布时间 2018年10月19日
许可协议 http://creativecommons.org/licenses/by/3.0/
内容来源 https://ai.tencent.com/ailab/zh/news/detial?id=22
词汇量 800多万
词汇所属语言 汉语
还没有任何文件记录.