搜狗实验室提供,来自若干新闻站点2012年6月—7月期间国内,国际,体育,社会,娱乐等18个频道的新闻数据,提供URL和正文信息。
来自若干新闻站点2012年6月—7月期间国内,国际,体育,社会,娱乐等18个频道的新闻数据,提供URL和正文信息。
数据格式为
<doc> <url>页面URL</url> <docno>页面ID</docno> <contenttitle>页面标题</contenttitle> <content>页面内容</content> </doc>
注意:content字段去除了HTML标签,保存的是新闻正文文本
相关任务 |
文本分类 事件检测跟踪 新词发现 命名实体识别 自动摘要 |
时间段 | 2012年6月~7月 |
来源 | 搜狗 |
版本 | 2012 |
原始链接 | https://www.sogou.com/labs/resource/ca.php |