4106

包含多个的文本分类数据集

Text Classification Datasets

文本分类 自然语言处理 搜狗 雅虎 Amazon Yelp Yahoo Sogou

包含8个可用于文本分类的子数据集,样本大小从120K到3.6M,问题范围从2级到14级,数据来源于 DBPedia、Amazon、Yelp、Yahoo!、Sogou 和 AG

免积分下载
数据集市
2020年11月30日

相关数据

Twitter情感分析训练语料库
Twitter情感分析训练语料库
该情感分析数据集 包含1,578,627条分类推文,每行标记... 免积分下载
多领域情感评论文本数据集
多领域情感评论文本数据集
多领域情感数据集包含从Amazon.com获取的部分产品评论... 免积分下载
Euler图学习开源数据集
Euler图学习开源数据集
Euler图学习平台自研算法对应的开源图数据与样本数据 免积分下载

数据介绍

Text Classification Datasets:一个文本分类数据集,包含8个可用于文本分类的子数据集,样本大小从120K到3.6M,问题范围从2级到14级,数据来源于 DBPedia、Amazon、Yelp、Yahoo!、Sogou 和 AG。

文件

需要翻墙,访问:Google driver

包含8个文件,文件名和大小分别如下:

ag_news_csv.tar.gz 11MB
amazon_review_full_csv.tar.gz 614MB
amazon_review_polarity_csv.tar.gz 656MB
DBPedia_csv.tar.gz 65MB
sogou_news_csv.tar.gz 366MB
yahoo_answers_csv.tar.gz 187MB
yelp_review_polarity_csv.tar.gz 159MB

相关论文

1.Joachims T. Transductive Inference for Text Classification using Support Vector Machines[C]// Sixteenth International Conference on Machine Learning. Morgan Kaufmann Publishers Inc. 1999:200-209. 2.Joulin A, Grave E, Bojanowski P, et al. Bag of Tricks for Efficient Text Classification[J]. 2016:427-431. 3.Zhang Y, Wallace B. A Sensitivity Analysis of (and Practitioners’ Guide to) Convolutional Neural Networks for Sentence Classification[J]. Computer Science, 2015. 4.Ji Y L, Dernoncourt F. Sequential Short-Text Classification with Recurrent and Convolutional Neural Networks[J]. 2016:515-520. 5.Chen G, Ye D, Xing Z, et al. Ensemble application of convolutional and recurrent neural networks for multi-label text categorization[C]// International Joint Conference on Neural Networks. IEEE, 2017:2377-2383.

数据规格

发布时间 2015年3月29日
还没有任何文件记录.