来自谷歌研究院的超大自然语言文本语料数据集。 许可:
数据集大约包含1900万个实例(文档,属性,值),其中document是Wikipedia文章的全文,而属性和值是来自WikiData项。这些(文档,属性,值)实例中的每个实例在其各自的行中都是JSON对象。未压缩时,其文件大小约为208GB。它分为约180个不同的文件,还通过训练集,测试集和验证集进行了拆分。