2843

大藏经切字图片数据集

TripitakaCharacterDataset

经文 大藏经 图片数据集 OCR识别 繁体

这是从大藏经经文图片中切分出的单个字的图片数据。

免积分下载
数据集市
2019年11月03日
13.9GB

相关数据

Caltech-256 数据集
Caltech-256 数据集
Caltech-256 是一个图像物体识别数据集,包含 30... 免积分下载
猫的图片数据集
猫的图片数据集
超过9,000张带有面部标注特征的猫的图像数据集 免积分下载
CACD 跨年龄人脸识别和检索数据集
CACD 跨年龄人脸识别和检索数据集
CACD 数据集是一个用于跨年龄的人脸识别和检索的大规模数据... 免积分下载

数据介绍

这是从大藏经经文图片中切分出的单个字的图片数据,全部是数据来自高丽藏。

格式说明 segmentation_character.sql.zip 导出的字信息数据库表,数据库为postgresql,其中的部分字段说明如下: char 对应的实际汉字 image 字图片文件的名称 page_id 字所在页面的ID left, right, top, bottom 切分的字图片在经文图片中的坐标 is_correct 这个值由人工标注,表示字图片与字是否对应正确,值为1表示正确,值为-1表示不正确,值为0时表示没有经过人工标注。 is_dirty 表示数据质量不好,待改进;用于前端的逻辑区分和标记。 accuracy 为程序标注的字对应的准确度,为-1与1000之间的整数,-1表示为计算,1000表示最准确。这个值是以人工标注的正确和不正确的数据为样本,训练分类器预测得到的值,分类器当前使用的算法为逻辑回归。 x00.tar x01.tar ... 字图片的打包文件,用一般的解压软件解压即可;每个字图片的路径为/ 注:在1.4版的数据包中accuracy为千分度的整形数值,即1代表1‰

数据规格

字数 7526
最后更新时间 2017年
还没有任何文件记录.