4278

微软ClueWeb重复新闻文章数据集

MS ClueWeb 09

文本数据集 语料 文章比较 内容比较 自然语言处理 重复新闻 内容检测

此数据版本是Omar Alonso,Dennis Fetterly和Mark Manasse于2013年12月在第九届亚洲信息检索协会会议上发表的《重复新闻报道检测》一书的配套文件。

免积分下载
数据集市
2020年06月24日
150MB

相关数据

新浪微博用户关系数据
新浪微博用户关系数据
数据集中包括用户320个,用户间关系526条 免积分下载
中文文本分类数据集THUCNews
中文文本分类数据集THUCNews
THUCNews是根据新浪新闻RSS订阅频道2005~201... 免积分下载
2012年综合选举推文
2012年综合选举推文
该数据集标识了收集到的3800万条推文,用于分析与2012年... 免积分下载

数据介绍

此数据版本是Omar Alonso,Dennis Fetterly和Mark Manasse于2013年12月在第九届亚洲信息检索协会会议(AIRS 2013)上发表的《重复新闻报道检测》一书的配套文件。该软件包提供了约550万个文档标识符,其中包括ClueWeb'09“ A类英语”文档的子集,很可能来自新闻来源。该程序包还包含两组人工生成的标签。第一组标签是作者对456对文档的评估,包括近重复,非重复,包含,近重复无关或非重复无关。第二组标签是通过众包系统获得的710个标签,其中成对的商品被标记为近重复商品或非重复商品。

在本文中,我们调查了几乎重复的检测,特别是研究不断变化的新闻报道的检测。

这些故事通常主要由联合信息组成,并在当地替换标题、标题和添加与本地相关的内容。通过检测几乎重复的内容,我们仅向用户提供内容与以前查看的故事版本有重大区别的故事。我们扩展了以前的工作,并通过根据该窗口中术语文档中的术语频率对这些短语的反向文档频率在滑动窗口中加权短语来改进几乎重复的文档检测性能。我们尝试一个公开可用的网站集合的子集,该集合仅由来自新闻网站的文档组成。新闻文章尤其具有挑战性,因为联合文章的流行,其中非常相似的文章运行与不同的标题,并包围着不同的HTML标记和网站模板。我们用人工判断来评估这些算法权重,以确定相似性。我们发现,我们的技术优于具有统计意义的最先进的技术,在面对不同的文献收藏时,我们更具歧视性。

还没有任何文件记录.