自然语言处理数据集-数据集市-免费数据资源共享网

行业数据

全部

机器学习训练数据

热门数据集

全网新闻数据(SogouCA) 2012版

搜狗实验室提供，来自若干新闻站点2012年6月—7月期间国内...

免积分下载

排序方式：默认，数量：49

Twitter情感分析训练语料库

Twitter Sentiment Analysis Training Corpus (Dataset)

10095 53.8MB

该情感分析数据集包含1,578,627条分类推文，每行标记为1表示积极情绪，0表示负面情绪。

2019-06-29 （72月前）免积分下载

多领域情感评论文本数据集

Multi-Domain Sentiment Dataset

7331 1.5GB

多领域情感数据集包含从Amazon.com获取的部分产品评论，评论包含星级（1至5星）。

2019-06-29 （72月前）免积分下载

Euler图学习开源数据集

euler raw graph data

7486 243.41MB

Euler图学习平台自研算法对应的开源图数据与样本数据

2019-01-24 （78月前）免积分下载

开放信息提取语料库（OPIEC）

OPIEC

5267 ~67 GB

OPIEC是一个开放信息提取（OIE）语料库，由整个英语维基百科构建而成。它包含超过3.41亿个三元组。

2019-12-16 （67月前）免积分下载

包含多个的文本分类数据集

Text Classification Datasets

4998

包含8个可用于文本分类的子数据集，样本大小从120K到3.6M，问题范围从2级到14级，数据来源于 DBPedia、Amazon、Yelp、Yahoo!、Sogou 和 AG

2020-11-30 （56月前）免积分下载

Quora 问答数据集

quora-question-pairs

6529 499 MB

美国知识问答网站 Quora 上的问题答案数据集，可用以进行重复问题检测。

2020-06-23 （61月前）免积分下载

百度实体标注数据集

Baidu entity annotation data set

4686 101MB

一个大规模的中文短文本语料库，用于实体识别和链接任务。BEL包含100K注释的短文本，以及对应于百度知识库中的实体的提及和链接。

2019-11-09 （68月前）免积分下载

全网新闻数据(SogouCA) 2012版

8776

搜狗实验室提供，来自若干新闻站点2012年6月—7月期间国内，国际，体育，社会，娱乐等18个频道的新闻数据，提供URL和正文信息。

2018-10-13 （81月前）免积分下载

AI2推理挑战赛（ARC）2018数据集

ARC2018

5344

ARC数据集包含从各种来源提取的7,787项科学考试问题，包括由AI2附属研究合作伙伴授权提供的科学问题。这些是纯文本的英语考试题，涵盖了文件中指示的多个年级。每个问题都有一个选项结构。

2020-03-29 （64月前）免积分下载

安然公司邮件数据集

Enron Email Dataset

9076 1.70 Gb

Enron Email Dataset 包括安然公司部分高管和中级管理人员150位员工500万封邮件消息，由美国联邦能源管理委员会进行调查期间发布。

2019-04-10 （75月前）免积分下载

谷歌AI自然语言对话数据集Taskmaster-1

Taskmaster-1

4397 80MB

包含 7708 个书面表达以及 5507 个口语表达数据。该数据集内容覆盖了六个生活领域，包括：订购披萨，创建汽车维修预约，设置租车，订购电影票，订购咖啡饮料和预订餐厅。

2019-09-11 （70月前）免积分下载

10W+知乎用户数据集

10w zhihu user dataset

6025 204.6 MB

来自北京大学开放研究数据平台，利用scrapy作为工具，爬取了知乎平台上十万余条用户个人主页数据，涵盖了用户性别、所在地、个性签名等多项属性。

2020-03-29 （64月前）免积分下载