5080

人民日报词性标注语料数据(199801)

PFR199801

词性标注 人民日报 语料 文本数据 文本语料

人民日报语料资源为1998年人民日报1-6月份带词性标注的语料库中的1998年1月份的语料,可直接做词性标注训练使用,处理后也可以做实体识别模型训练用。

免积分下载
数据集市
2020年05月19日
10.2M

相关数据

新浪微博用户关系数据
新浪微博用户关系数据
数据集中包括用户320个,用户间关系526条 免积分下载
中文文本分类数据集THUCNews
中文文本分类数据集THUCNews
THUCNews是根据新浪新闻RSS订阅频道2005~201... 免积分下载
2012年综合选举推文
2012年综合选举推文
该数据集标识了收集到的3800万条推文,用于分析与2012年... 免积分下载

数据介绍

人民日报语料,分词和词性标注POS的语料(Chinese corpus for Word segmentation and par of speech)资源为1998年人民日报1-6月份带词性标注的语料库中的1998年1月份的语料,可直接做词性标注训练使用,处理后也可以做实体识别模型训练用。

PFR语料库是对人民日报1998年上半年的纯文本语料进行了词语切分和词性标注制作而成的,严格按照人民日报的日期、版序、文章顺序编排的。文章中的每个词语都带有词性标记。目前的标记集里有26个基本词类标记(名词n、时间词t、处所词s、方位词f、数词m、量词q、区别词b、代词r、动词v、形容词a、状态词z、副词d、介词p、连词c、助词u、语气词y、叹词e、拟声词o、成语i、习惯用语l、简称j、前接成分h、后接成分k、语素g、非语素字x、标点符号w)外,从语料库应用的角度,增加了专有名词(人名nr、地名ns、机构名称nt、其他专有名词nz);从语言学角度也增加了一些标记,总共使用了40多个个标记。

网盘下载:

https://pan.baidu.com/s/1eUGPJrfhUrzokbbDbobIxA

frcq

还没有任何文件记录.