7559

全网新闻数据(SogouCA) 2012版

全网新闻数据(SogouCA) 2012版

搜狗实验室提供,来自若干新闻站点2012年6月—7月期间国内,国际,体育,社会,娱乐等18个频道的新闻数据,提供URL和正文信息。

免积分下载
数据集市
2018年10月13日

相关数据

Twitter情感分析训练语料库
Twitter情感分析训练语料库
该情感分析数据集 包含1,578,627条分类推文,每行标记... 免积分下载
多领域情感评论文本数据集
多领域情感评论文本数据集
多领域情感数据集包含从Amazon.com获取的部分产品评论... 免积分下载
Euler图学习开源数据集
Euler图学习开源数据集
Euler图学习平台自研算法对应的开源图数据与样本数据 免积分下载

数据介绍

来自若干新闻站点2012年6月—7月期间国内,国际,体育,社会,娱乐等18个频道的新闻数据,提供URL和正文信息。

数据格式为

<doc> <url>页面URL</url> <docno>页面ID</docno> <contenttitle>页面标题</contenttitle> <content>页面内容</content> </doc>

注意:content字段去除了HTML标签,保存的是新闻正文文本

数据规格

相关任务 文本分类
事件检测跟踪
新词发现
命名实体识别
自动摘要
时间段 2012年6月~7月
来源 搜狗
版本 2012
原始链接 https://www.sogou.com/labs/resource/ca.php
还没有任何文件记录.