340

大型电影评论数据集

Large Movie Review Dataset

电影 评论 文本数据集 自然语言处理 Movie 电影评论 语料 评论数据

此数据集包含电影评论及其关联的二进制情绪极性标签。它旨在作为情绪分类的基准。本文档概述了如何收集数据集,以及如何使用提供的文件。

免积分下载
数据集市
2020年04月17日
80.2MB

相关数据

微软图像裁剪数据集;
微软图像裁剪数据集;
图像裁剪数据集包含由经验丰富的摄影师手动裁剪的1000张图像... 免积分下载
TWDNE 二次元头像数据集
TWDNE 二次元头像数据集
TWDNE(This Waifu Does Not Exis... 免积分下载
宠物精灵图像数据集
宠物精灵图像数据集
从第1代到第7代的所有神奇宝贝的图像,以及它们的类型(主要和... 免积分下载

数据介绍

核心数据集包含50,000个评论,均匀分为25k训练集和25k测试集。标签的整体分布是平衡的(25k pos和25k neg)。我们还包括另外50,000个未标记文档,用于无监督学习。在整个系列中,任何给定的电影都不允许超过30条评论,因为对同一部电影的评论往往具有相关评级。此外,训练集和测试集包含一组不相交的电影,因此通过记忆电影唯一的术语及其与观察到的标签相关联,不会获得显着的性能。在标记的训练/测试集中,负面评论的评分<= 4分,正评价的分数> = 7分(满分10分)。因此,评分更中性的评分不包括在训练/测试集中。在无监督的集合中,包括任何评级的评论,并且偶数个评论> 5且<= 5。

数据引用

  author    = {Maas, Andrew L.  and  Daly, Raymond E.  and  Pham, Peter T.  and  Huang, Dan  and  Ng, Andrew Y.  and  Potts, Christopher},
  title     = {Learning Word Vectors for Sentiment Analysis},
  booktitle = {Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies},
  month     = {June},
  year      = {2011},
  address   = {Portland, Oregon, USA},
  publisher = {Association for Computational Linguistics},
  pages     = {142--150},
  url       = {http://www.aclweb.org/anthology/P11-1015}
}

还没有任何文件记录.