腾讯AI实验室汉字词句嵌入语料库

Tencent_AILab_ChineseEmbedding

语料汉语字词腾讯

关于汉语单词和短语的连续分布表示的语料库。

下载所需积分：免积分下载

数据集发布者：数据集市

发布时间： 2020年04月07日

数据大小： 6.3GB

查看原始数据

数据介绍

该语料库为超过800万个中文单词和短语提供了200维矢量表示（也称为嵌入），这些单词和短语已在大规模高质量数据上进行了预训练。这些向量捕获了中文单词和短语的语义，可以广泛应用于许多下游中文处理任务（例如，命名实体识别和文本分类）以及进一步的研究中。

数据说明

预训练的嵌入位于Tencent_AILab_ChineseEmbedding.txt中。第一行显示嵌入的总数及其尺寸大小，以空格分隔。在下面的每一行中，第一列表示一个中文单词或短语，后跟一个空格及其嵌入。对于每个嵌入，其在不同维度上的值均由空格分隔。

与现有的中文嵌入语料库相比，我们的语料库的优势主要在于覆盖率，新鲜度和准确性。

覆盖范围。我们的语料库在词汇表中包含大量领域特定的单词或语，例如“喀拉喀什河”，“皇帝菜”，“不念僧面念佛面”，“冰火两重天”，“煮酒论”英雄”，但大多数现有的嵌入语料库均未涵盖。
新鲜度。我们的语料库包含最近出现或流行的新鲜单词，例如“恋与制作人”，“三生三世十里桃花”，“打呼”，“十动然拒”，“因吹斯汀”等。
准确性。我们的嵌入可以更好地反映中文单词或短语的语义，这归因于大规模数据和精心设计的训练算法。

数据引用

Yan Song, Shuming Shi, Jing Li, and Haisong Zhang. Directional Skip-Gram: Explicitly Distinguishing Left and Right Context for Word Embeddings. NAACL 2018 (Short Paper)

序号	名称	大小
1	Tencent_AILab_ChineseEmbedding.tar.gz	6.3GB

腾讯AI实验室汉字词句嵌入语料库

Tencent_AILab_ChineseEmbedding

相关数据

10种猴子图片数据集

僧伽罗语多语种TTS语料库

通用知识图谱数据集

数据介绍