关于汉语单词和短语的连续分布表示的语料库。
该语料库为超过800万个中文单词和短语提供了200维矢量表示(也称为嵌入),这些单词和短语已在大规模高质量数据上进行了预训练。这些向量捕获了中文单词和短语的语义,可以广泛应用于许多下游中文处理任务(例如,命名实体识别和文本分类)以及进一步的研究中。
数据说明
预训练的嵌入位于Tencent_AILab_ChineseEmbedding.txt中。第一行显示嵌入的总数及其尺寸大小,以空格分隔。在下面的每一行中,第一列表示一个中文单词或短语,后跟一个空格及其嵌入。对于每个嵌入,其在不同维度上的值均由空格分隔。
与现有的中文嵌入语料库相比,我们的语料库的优势主要在于覆盖率,新鲜度和准确性。
数据引用
Yan Song, Shuming Shi, Jing Li, and Haisong Zhang. Directional Skip-Gram: Explicitly Distinguishing Left and Right Context for Word Embeddings. NAACL 2018 (Short Paper)
序号 | 名称 | 大小 |
---|---|---|
1 | Tencent_AILab_ChineseEmbedding.tar.gz | 6.3GB |