大型电影评论数据集

Large Movie Review Dataset

电影评论文本数据集自然语言处理 Movie 电影评论语料评论数据

此数据集包含电影评论及其关联的二进制情绪极性标签。它旨在作为情绪分类的基准。本文档概述了如何收集数据集，以及如何使用提供的文件。

下载所需积分：免积分下载

数据集发布者：数据集市

发布时间： 2020年04月17日

数据大小： 80.2MB

查看原始数据

数据介绍

核心数据集包含50,000个评论，均匀分为25k训练集和25k测试集。标签的整体分布是平衡的（25k pos和25k neg）。我们还包括另外50,000个未标记文档，用于无监督学习。在整个系列中，任何给定的电影都不允许超过30条评论，因为对同一部电影的评论往往具有相关评级。此外，训练集和测试集包含一组不相交的电影，因此通过记忆电影唯一的术语及其与观察到的标签相关联，不会获得显着的性能。在标记的训练/测试集中，负面评论的评分<= 4分，正评价的分数> = 7分（满分10分）。因此，评分更中性的评分不包括在训练/测试集中。在无监督的集合中，包括任何评级的评论，并且偶数个评论> 5且<= 5。

数据引用

  author    = {Maas, Andrew L.  and  Daly, Raymond E.  and  Pham, Peter T.  and  Huang, Dan  and  Ng, Andrew Y.  and  Potts, Christopher},
  title     = {Learning Word Vectors for Sentiment Analysis},
  booktitle = {Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies},
  month     = {June},
  year      = {2011},
  address   = {Portland, Oregon, USA},
  publisher = {Association for Computational Linguistics},
  pages     = {142--150},
  url       = {http://www.aclweb.org/anthology/P11-1015}
}

还没有任何文件记录.

大型电影评论数据集

Large Movie Review Dataset

相关数据

微软图像裁剪数据集；

TWDNE 二次元头像数据集

宠物精灵图像数据集

数据介绍