自然语言处理数据集-数据集市-免费数据资源共享网

行业数据

全部

机器学习训练数据

热门数据集

全网新闻数据(SogouCA) 2012版

搜狗实验室提供，来自若干新闻站点2012年6月—7月期间国内...

免积分下载

排序方式：默认，数量：49

英语词汇数据库

WordNet

8050

WordNet是由Princeton 大学的心理学家，语言学家和计算机工程师联合设计的一种基于认知语言学的英语词典。

2020-12-31 （55月前）免积分下载

包含多个的文本分类数据集

Text Classification Datasets

4998

包含8个可用于文本分类的子数据集，样本大小从120K到3.6M，问题范围从2级到14级，数据来源于 DBPedia、Amazon、Yelp、Yahoo!、Sogou 和 AG

2020-11-30 （56月前）免积分下载

机器翻译数据集

Machine Translation of Various Languages

6707 15 GB

约30,000,000个句子及其翻译

2020-11-30 （56月前）免积分下载

实体专有名词数据集

JRC Names

4436 756.00Mb

JRC Names 是一个跨语言实体名称语料库，该语料库包含了大量跨语言人名和组织名称（称之为“实体”），包括不同语言的实体名称，包括汉语、英语、拉丁语、希腊语、阿拉伯语、斯拉夫语、日本语等。

2020-11-30 （56月前）免积分下载

WDW数据集

Who-did-What Dataset

4144 26 GB

一个阅读理解数据集

2020-11-30 （56月前）免积分下载

语义关系分类数据集SemEval2007 -Task4

SemEval2007 -Task4

4481 491 KB

小型数据集，包含 7 种关系类型和总共 1529 个注释示例。

2020-10-31 （57月前）免积分下载

仇恨言语识别数据集

hate-speech-and-offensive-language

5320 3MB

ICWSM 2017论文“自动仇恨语音检测和无礼语言问题”的作者贡献。

2020-10-31 （57月前）免积分下载

维基百科中英语-西班牙语术语向量的数据集

Data Set of English-Spanish Term Vectors from Wikipedia

4679

该数据集包含从2009年采样的60,730维基百科的英语文章及其可比较的西班牙文章中提取的术语向量。

2020-06-24 （61月前）免积分下载

来自必应查询的经过训练的双词嵌入语料

Dual Word Embeddings Trained on Bing Queries

4290 10.3GB

该数据仅出于研究目的而发布。DESM词嵌入数据集可能包含一些人可能会认为令人反感，不雅或其他令人反感的术语。Microsoft尚未审查或修改数据集的内容。

2020-06-24 （61月前）免积分下载

MSR抽象文本压缩数据集

MSR Abstractive Text Compression Dataset

3957 17.5M

该数据集包含具有相应较短（压缩）版本的句子和简短段落。每个输入文本最多可进行五次压缩，并对其含义保留和语法进行质量判断。

2020-06-23 （61月前）免积分下载

微软软研究院问答语料库

Microsoft Research Question-Answering Corpus

4261

微软研究院问答语料库

2020-06-23 （61月前）免积分下载

微软顺序问题解答（SQA）数据集

Microsoft Research Sequential Question Answering (SQA) Dataset

4800

用于回答问题的语义解析的最新工作集中于冗长而复杂的问题，如果在两个人之间的正常对话中提出问题，其中许多问题似乎是不自然的。

2020-06-23 （61月前）免积分下载