数据的收集源于reddit用户areyde的一个简单的问题:“学习所有汉字意味着什么?”可以简化为“您可以为学习汉字制定什么目标?”
数据的收集源于reddit用户areyde的一个简单的问题:“学习所有汉字意味着什么?”可以简化为“您可以为学习汉字制定什么目标?”
在他看来,似乎最有用的是汉字出现的的频率。因此,他根据语料库 http://lingua.mtsu.edu/chinese-computing/statistics/char/list.php?Which=MO ,列出了所有的9,933个字符 。在本数据集中的每个汉字字符,其实都存储了以下信息:语料库中的出现次数,占该语料库的计算百分比,部首和字典代码,笔划数,发音和含义(如果存在)。
汉字数量 | 9933个 |
数据使用协议 | CC0 公共领域共享 |