致力于解决文档中的表格检测与表格信息识别,并首次在业界同时开源表格检测和表格结构识别数据集,供研究人员使用。
TableBank是一个表格检测与识别的数据集,基于公开的、大规模的Word文档和LaTex文档,通过弱监督方法创建而来。与传统的弱监督训练集不同,TableBank不仅数据质量高,而且数据规模比之前的人工标记的表格分析数据集大几个数量级,其表格数据量达到了41.7万。
相关链接:https://www.msra.cn/zh-cn/news/features/tablebank
提示:数据下载需要进行申请;
表格数据量 | 41.7万 |
发布时间 | 2019年3月 |
数据协议 | Attribution-NonCommercial-NoDerivs License |