新闻出版数据集-数据集市-免费数据资源共享网

行业数据

全部

机器学习训练数据

热门数据集

全网新闻数据(SogouCA) 2012版

搜狗实验室提供，来自若干新闻站点2012年6月—7月期间国内...

免积分下载

排序方式：默认，数量：12

Project Gutenberg 语言模型数据集

Project Gutenberg

4816

该数据集包含超过57,000种免费电子书。

2020-10-31 （57月前）免积分下载

印度新闻标题数据集

india-headlines-news-dataset

4321 226.84 MB

汇编了2001年至2017年印度“泰晤士报”发表的270万条新闻的标题。

2020-10-31 （57月前）免积分下载

微软ClueWeb重复新闻文章数据集

MS ClueWeb 09

4981 150MB

此数据版本是Omar Alonso，Dennis Fetterly和Mark Manasse于2013年12月在第九届亚洲信息检索协会会议上发表的《重复新闻报道检测》一书的配套文件。

2020-06-24 （61月前）免积分下载

2012年综合选举推文

Comprehensive 2012 Election Tweets

4795 767.86M

该数据集标识了收集到的3800万条推文，用于分析与2012年美国最新发布的社交媒体消息有关：2016年1月29日。

2020-06-24 （61月前）免积分下载

纽约时报带标注信息语料库

nyt-salience

4987 39.5MB

带注释的《纽约时报》语料库对实体显着性进行建模的资源

2020-05-19 （62月前）免积分下载

人民日报词性标注语料数据（199801）

PFR199801

6893 10.2M

人民日报语料资源为1998年人民日报1-6月份带词性标注的语料库中的1998年1月份的语料，可直接做词性标注训练使用，处理后也可以做实体识别模型训练用。

2020-05-19 （62月前）免积分下载

中文文本分类数据集THUCNews

THUCNews

6476 2.19 GB

THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成，包含74万篇新闻文档（2.19 GB），均为UTF-8纯文本格式。

2020-04-21 （63月前）免积分下载

新浪微博用户关系数据

Data of user relation in Sina Weibo

6390 5.3KB

数据集中包括用户320个，用户间关系526条

2020-04-07 （63月前）免积分下载

2017年中国发明专利数据

2017 China invention patent data

4761

本数据集源自润桐网（www.rainpat.com），由国家信息中心合作企业北京国信宏数科技有限责任公司提供，包含申请时间为2017年的全国专利数据，数据总量为277万条。

2020-03-29 （64月前）免积分下载

Jamalon阿拉伯图书数据集

jamalon-arabic-books-dataset

4570 7MB

超过8,000本阿拉伯地区的书本信息

2019-11-06 （68月前）免积分下载

爱尔兰时报新闻标题数据集

IRISH TIMES news title dataset

4608 47MB

1996年-2018年《爱尔兰时报》发布的142万条新闻标题的集合。

2019-09-30 （70月前）免积分下载

奥卢大学多媒体团队文档数据库

MediaTeam Oulu Document Database

5681 953.67MB

MediaTeam Oulu Document 数据集是一个文档扫描图像和文档内容数据集，包含 500篇 1975年之前的文档信息。

2019-03-31 （76月前）免积分下载