回答有关给定图像的问题是一项艰巨的任务,既需要了解图像,也需要附带的查询。微软研究蒙特利尔的FigureQA数据集引入了一种新的可视化推理任务,专门用于图形图和图形的研究。
回答有关给定图像的问题是一项艰巨的任务,既需要了解图像,也需要附带的查询。微软研究蒙特利尔的FigureQA数据集引入了一种新的可视化推理任务,专门用于图形图和图形的研究。任务有一个额外的转折:所有问题都是关系问题,需要对基础情节的几个或全部元素进行比较。
图像由分析文档中常见的五种图形组成。为数据集选择了十五种问题类型,这些数据类型涉及关系全局和一对一上下文中的定量属性。这些属性包括最小值和最大值,大于和小于,中位数,曲线粗糙度和曲线下面积(AUC)等属性。训练和验证集中的所有问题都回答“是”或“否”。
有关任务,数据集和实验的更多详细信息,请阅读我们的论文:FigureQA:视觉推理的带注释的图形数据集。
单击下面的图将其放大并查看其一些问题,答案和边界框。
相关介绍: