5540

微软表格数据集TableBank

TableBank dataset

TableBank 表格识别 表格检测 表格信息提取

致力于解决文档中的表格检测与表格信息识别,并首次在业界同时开源表格检测和表格结构识别数据集,供研究人员使用。

免积分下载
数据集市
2019年11月11日

相关数据

Twitter情感分析训练语料库
Twitter情感分析训练语料库
该情感分析数据集 包含1,578,627条分类推文,每行标记... 免积分下载
多领域情感评论文本数据集
多领域情感评论文本数据集
多领域情感数据集包含从Amazon.com获取的部分产品评论... 免积分下载
Euler图学习开源数据集
Euler图学习开源数据集
Euler图学习平台自研算法对应的开源图数据与样本数据 免积分下载

数据介绍

TableBank是一个表格检测与识别的数据集,基于公开的、大规模的Word文档和LaTex文档,通过弱监督方法创建而来。与传统的弱监督训练集不同,TableBank不仅数据质量高,而且数据规模比之前的人工标记的表格分析数据集大几个数量级,其表格数据量达到了41.7万。

相关链接:https://www.msra.cn/zh-cn/news/features/tablebank

提示:数据下载需要进行申请;

数据规格

表格数据量 41.7万
发布时间 2019年3月
数据协议 Attribution-NonCommercial-NoDerivs License
还没有任何文件记录.