美国知识问答网站 Quora 上的问题答案数据集,可用以进行重复问题检测。
Quora 是一个获取和分享知识的问答平台,它能够促进人们互相学习,以更好地认识这个世界。每个月有超过 1 亿的人访问 Quora,所以有许多人可能提出相似的问题。然而这些具有相似意图的问题可能会使得寻求者需要花费更多的时间,才能找到所需的最佳答案,而答题者可能也会觉得很多问题存在重复。
为了更好地发掘那些具有相似意图的问题,以帮助用户更快地找到问题的高质量答案,提高用户使用体验,Quora 在 Kaggle 上举办了本次竞赛: Quora Question Pairs。
本次比赛的目标是预测所提供的问题对中哪一个问题包含两个具有相同含义的问题。地面真相是人类专家提供的一套标签。理由真理标签本质上是主观的,因为句子的真正含义永远不能确切地知道。人的标签也是一个"嘈杂"的过程,理性的人会不同意。因此,此数据集上的基础真实标签应视为"知情",但不应 100% 准确,并且可能包括不正确的标签。我们认为,总体而言,标签代表一种合理的共识,但根据数据集中的各个项目的情况,这通常并非如此。
**请注意:**作为一种反作弊措施,Kaggle 已经用计算机生成的问题对补充了测试集。这些行不是来自 Quora,也不计入评分。训练集中的所有问题都是Quora的真实例子。
字段描述: