3290

频率最高的9933个最常用汉字数据集

most_frequent_chinese

汉语 语料 汉语研究 文本分析

数据的收集源于reddit用户areyde的一个简单的问题:“学习所有汉字意味着什么?”可以简化为“您可以为学习汉字制定什么目标?”

免积分下载
数据集市
2019年09月30日
1MB

相关数据

食品产品数据库(Open Food Facts)
食品产品数据库(Open Food Facts)
Open Food Facts是一个免费,开放,可比较的来自... 免积分下载
坠落检测数据集
坠落检测数据集
数据来自论文《Fall Detection》 免积分下载
三国人物结构化数据
三国人物结构化数据
来自github的一个三国人物信息数据集;数据主要整理自 维... 免积分下载

数据介绍

数据的收集源于reddit用户areyde的一个简单的问题:“学习所有汉字意味着什么?”可以简化为“您可以为学习汉字制定什么目标?”

在他看来,似乎最有用的是汉字出现的的频率。因此,他根据语料库 http://lingua.mtsu.edu/chinese-computing/statistics/char/list.php?Which=MO ,列出了所有的9,933个字符 。在本数据集中的每个汉字字符,其实都存储了以下信息:语料库中的出现次数,占该语料库的计算百分比,部首和字典代码,笔划数,发音和含义(如果存在)。

数据规格

汉字数量 9933个
数据使用协议 CC0 公共领域共享
还没有任何文件记录.