7304

腾讯AI实验室汉字词句嵌入语料库

Tencent_AILab_ChineseEmbedding

语料 汉语 字词 腾讯

关于汉语单词和短语的连续分布表示的语料库。

免积分下载
数据集市
2020年04月07日
6.3GB

相关数据

10种猴子图片数据集
10种猴子图片数据集
用于细粒度分类的图像数据集 免积分下载
僧伽罗语多语种TTS语料库
僧伽罗语多语种TTS语料库
该数据集包含僧伽罗语的多扬声器高质量转录音频数据,由斯里兰卡... 免积分下载
通用知识图谱数据集
通用知识图谱数据集
ownthink致力于最大的中文开放知识图谱,目前已经对两千... 免积分下载

数据介绍

该语料库为超过800万个中文单词和短语提供了200维矢量表示(也称为嵌入),这些单词和短语已在大规模高质量数据上进行了预训练。这些向量捕获了中文单词和短语的语义,可以广泛应用于许多下游中文处理任务(例如,命名实体识别和文本分类)以及进一步的研究中。

数据说明

预训练的嵌入位于Tencent_AILab_ChineseEmbedding.txt中。第一行显示嵌入的总数及其尺寸大小,以空格分隔。在下面的每一行中,第一列表示一个中文单词或短语,后跟一个空格及其嵌入。对于每个嵌入,其在不同维度上的值均由空格分隔。

与现有的中文嵌入语料库相比,我们的语料库的优势主要在于覆盖率新鲜度准确性

  • 覆盖范围。我们的语料库在词汇表中包含大量领域特定的单词或语,例如“喀拉喀什河”,“皇帝菜”,“不念僧面念佛面”,“冰火两重天”,“煮酒论”英雄”,但大多数现有的嵌入语料库均未涵盖。
  • 新鲜度。我们的语料库包含最近出现或流行的新鲜单词,例如“恋与制作人”,“三生三世十里桃花”,“打呼”,“十动然拒”,“因吹斯汀”等。
  • 准确性。我们的嵌入可以更好地反映中文单词或短语的语义,这归因于大规模数据和精心设计的训练算法。

数据引用

Yan Song, Shuming Shi, Jing Li, and Haisong Zhang. Directional Skip-Gram: Explicitly Distinguishing Left and Right Context for Word Embeddings. NAACL 2018 (Short Paper)

序号 名称 大小
1 Tencent_AILab_ChineseEmbedding.tar.gz 6.3GB