自然语言处理数据集-数据集市-免费数据资源共享网

行业数据

全部

机器学习训练数据

热门数据集

全网新闻数据(SogouCA) 2012版

搜狗实验室提供，来自若干新闻站点2012年6月—7月期间国内...

免积分下载

排序方式：默认，数量：49

微软WikiQA语料库

WikiQA Corpus

4314

WikiQA语料库是一组新的公开可用的问题和句子对，它们被收集并注释以用于开放域问题解答的研究。

2020-06-23 （61月前）免积分下载

Quora 问答数据集

quora-question-pairs

6529 499 MB

美国知识问答网站 Quora 上的问题答案数据集，可用以进行重复问题检测。

2020-06-23 （61月前）免积分下载

种类自然语言推理（MultiNLI）语料库

MultiNLI

6006 227MB

多种类自然语言推理（MultiNLI）语料库是一个众包的433k句子对的集合，带有文本蕴含信息。语料库以SNLI语料库为模型，但是不同之处在于它涵盖了多种口语和书面语体，并支持独特的跨语体泛化评估。

2020-05-01 （63月前）免积分下载

斯坦福自然语言推理（SNLI）语料库

SNLI

5912 90.17MB

SNLI语料库（1.0版）是一个57万个人工书写的英语句子对的集合，这些句子对经过手动标注以实现平衡分类，并带有enume，矛盾和中性标签，支持自然语言推理（NLI）的任务。

2020-05-01 （63月前）免积分下载

清华大学-科技知识图谱

SciKG

4471 273MB

SciKG是一个以科研为中心的大规模知识图谱，目前包含计算机科学领域，由概念、专家和论文组成。

2020-04-21 （63月前）免积分下载

Wikipedia多语言开放关系语料库1.0版

wikipedia_multilingual_relations_v1

4660 10.4GB

此数据集包含从多语言Wikipedia语料库https://www.wikipedia.org/中提取的开放关系短语。

2020-04-17 （63月前）免积分下载

5万多首英语歌曲的歌词数据集

55000_songlyrics

4889 69MB

这些是57650首英文歌曲的歌词数据集

2020-04-11 （63月前）免积分下载

圣经英语语音数据集

World English Bible

4115 6GB

大型的单人语音数据集

2020-04-07 （63月前）免积分下载

10W+知乎用户数据集

10w zhihu user dataset

6025 204.6 MB

来自北京大学开放研究数据平台，利用scrapy作为工具，爬取了知乎平台上十万余条用户个人主页数据，涵盖了用户性别、所在地、个性签名等多项属性。

2020-03-29 （64月前）免积分下载

实体和关系词标注数据集

ner_and_relation

4123 275MB

实体和关系词标注数据集。

2020-03-29 （64月前）免积分下载

AI2推理挑战赛（ARC）2018数据集

ARC2018

5344

ARC数据集包含从各种来源提取的7,787项科学考试问题，包括由AI2附属研究合作伙伴授权提供的科学问题。这些是纯文本的英语考试题，涵盖了文件中指示的多个年级。每个问题都有一个选项结构。

2020-03-29 （64月前）免积分下载

现代汉语语法信息词典

dictionary of modern Chinese grammar information

5863

现代汉语语法信息词典,含8万词的360万项语法属性描述。

2020-03-29 （64月前）免积分下载