人民日报语料资源为1998年人民日报1-6月份带词性标注的语料库中的1998年1月份的语料,可直接做词性标注训练使用,处理后也可以做实体识别模型训练用。
人民日报语料,分词和词性标注POS的语料(Chinese corpus for Word segmentation and par of speech)资源为1998年人民日报1-6月份带词性标注的语料库中的1998年1月份的语料,可直接做词性标注训练使用,处理后也可以做实体识别模型训练用。
PFR语料库是对人民日报1998年上半年的纯文本语料进行了词语切分和词性标注制作而成的,严格按照人民日报的日期、版序、文章顺序编排的。文章中的每个词语都带有词性标记。目前的标记集里有26个基本词类标记(名词n、时间词t、处所词s、方位词f、数词m、量词q、区别词b、代词r、动词v、形容词a、状态词z、副词d、介词p、连词c、助词u、语气词y、叹词e、拟声词o、成语i、习惯用语l、简称j、前接成分h、后接成分k、语素g、非语素字x、标点符号w)外,从语料库应用的角度,增加了专有名词(人名nr、地名ns、机构名称nt、其他专有名词nz);从语言学角度也增加了一些标记,总共使用了40多个个标记。
网盘下载:
https://pan.baidu.com/s/1eUGPJrfhUrzokbbDbobIxA
frcq