数据集中包括用户320个,用户间关系526条
THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。
该数据集标识了收集到的3800万条推文,用于分析与2012年美国最新发布的社交媒体消息有关:2016年1月29日。
汇编了2001年至2017年印度“泰晤士报”发表的270万条新闻的标题。
本数据集源自润桐网(www.rainpat.com),由国家信息中心合作企业北京国信宏数科技有限责任公司提供,包含申请时间为2017年的全国专利数据,数据总量为277万条。
人民日报语料资源为1998年人民日报1-6月份带词性标注的语料库中的1998年1月份的语料,可直接做词性标注训练使用,处理后也可以做实体识别模型训练用。
此数据版本是Omar Alonso,Dennis Fetterly和Mark Manasse于2013年12月在第九届亚洲信息检索协会会议上发表的《重复新闻报道检测》一书的配套文件。
MediaTeam Oulu Document 数据集是一个文档扫描图像和文档内容数据集,包含 500篇 1975年之前的文档信息。
1996年-2018年《爱尔兰时报》发布的142万条新闻标题的集合。