该数据集包含从2009年采样的60,730维基百科的英语文章及其可比较的西班牙文章中提取的术语向量。
该数据集包含从2009年采样的60,730维基百科的英语文章及其可比较的西班牙文章中提取的术语向量。
我们使用此数据集来测试用于创建跨语言文档表示的各种模型,这些工作发表在[Platt et al。EMNLP-2010]和[Yih等。CoNLL-2011]。
此数据集的更多详细信息可以在自述文件中找到。
数据下载地址:
https://www.microsoft.com/en-us/download/details.aspx?id=52596