3232

维基百科阅读数据

WikiReading

维基百科 文本数据 英语 土耳其语 俄语 语料 自然语言处理 阅读理解

来自谷歌研究院的超大自然语言文本语料数据集。 许可:

免积分下载
数据集市
2020年04月07日

相关数据

10种猴子图片数据集
10种猴子图片数据集
用于细粒度分类的图像数据集 免积分下载
僧伽罗语多语种TTS语料库
僧伽罗语多语种TTS语料库
该数据集包含僧伽罗语的多扬声器高质量转录音频数据,由斯里兰卡... 免积分下载
通用知识图谱数据集
通用知识图谱数据集
ownthink致力于最大的中文开放知识图谱,目前已经对两千... 免积分下载

数据介绍

数据集大约包含1900万个实例(文档,属性,值),其中document是Wikipedia文章的全文,而属性和值是来自WikiData项。这些(文档,属性,值)实例中的每个实例在其各自的行中都是JSON对象。未压缩时,其文件大小约为208GB。它分为约180个不同的文件,还通过训练集,测试集和验证集进行了拆分。

还没有任何文件记录.