排序方式:默认,数量:12
Project Gutenberg 语言模型数据集

Project Gutenberg 语言模型数据集

Project Gutenberg
3388

该数据集包含超过57,000种免费电子书。

2020-10-31 (40月前) 免积分下载
印度新闻标题数据集

印度新闻标题数据集

india-headlines-news-dataset
2827 226.84 MB

汇编了2001年至2017年印度“泰晤士报”发表的270万条新闻的标题。

2020-10-31 (40月前) 免积分下载
微软ClueWeb重复新闻文章数据集

微软ClueWeb重复新闻文章数据集

MS ClueWeb 09
3643 150MB

此数据版本是Omar Alonso,Dennis Fetterly和Mark Manasse于2013年12月在第九届亚洲信息检索协会会议上发表的《重复新闻报道检测》一书的配套文件。

2020-06-24 (44月前) 免积分下载
2012年综合选举推文

2012年综合选举推文

Comprehensive 2012 Election Tweets
3453 767.86M

该数据集标识了收集到的3800万条推文,用于分析与2012年美国最新发布的社交媒体消息有关:2016年1月29日。

2020-06-24 (44月前) 免积分下载
纽约时报带标注信息语料库

纽约时报带标注信息语料库

nyt-salience
3368 39.5MB

带注释的《纽约时报》语料库对实体显着性进行建模的资源

2020-05-19 (45月前) 免积分下载
人民日报词性标注语料数据(199801)

人民日报词性标注语料数据(199801)

PFR199801
5042 10.2M

人民日报语料资源为1998年人民日报1-6月份带词性标注的语料库中的1998年1月份的语料,可直接做词性标注训练使用,处理后也可以做实体识别模型训练用。

2020-05-19 (45月前) 免积分下载
中文文本分类数据集THUCNews

中文文本分类数据集THUCNews

THUCNews
4432 2.19 GB

THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。

2020-04-21 (46月前) 免积分下载
新浪微博用户关系数据

新浪微博用户关系数据

Data of user relation in Sina Weibo
4650 5.3KB

数据集中包括用户320个,用户间关系526条

2020-04-07 (47月前) 免积分下载
2017年中国发明专利数据

2017年中国发明专利数据

2017 China invention patent data
3399

本数据集源自润桐网(www.rainpat.com),由国家信息中心合作企业北京国信宏数科技有限责任公司提供,包含申请时间为2017年的全国专利数据,数据总量为277万条。

2020-03-29 (47月前) 免积分下载
Jamalon阿拉伯图书数据集

Jamalon阿拉伯图书数据集

jamalon-arabic-books-dataset
3307 7MB

超过8,000本阿拉伯地区的书本信息

2019-11-06 (51月前) 免积分下载
爱尔兰时报新闻标题数据集

爱尔兰时报新闻标题数据集

IRISH TIMES news title dataset
3368 47MB

1996年-2018年《爱尔兰时报》发布的142万条新闻标题的集合。

2019-09-30 (53月前) 免积分下载
奥卢大学多媒体团队文档数据库

奥卢大学多媒体团队文档数据库

MediaTeam Oulu Document Database
4277 953.67MB

MediaTeam Oulu Document 数据集是一个文档扫描图像和文档内容数据集,包含 500篇 1975年之前的文档信息。

2019-03-31 (59月前) 免积分下载
共 1 页,当前第 1 页。