5213

中文文本分类数据集THUCNews

THUCNews

文本分类 中文 语料

THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。

免积分下载
数据集市
2020年04月21日
2.19 GB

相关数据

新浪微博用户关系数据
新浪微博用户关系数据
数据集中包括用户320个,用户间关系526条 免积分下载
2012年综合选举推文
2012年综合选举推文
该数据集标识了收集到的3800万条推文,用于分析与2012年... 免积分下载
印度新闻标题数据集
印度新闻标题数据集
汇编了2001年至2017年印度“泰晤士报”发表的270万条... 免积分下载

数据介绍

THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。我们在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。使用THUCTC工具包在此数据集上进行评测,准确率可以达到88.6%。

序号 名称 大小
1 README.md 1.01KB
2 THUCNews.zip 1.45GB
3 README.txt 1.01KB