5501

Quora 问答数据集

quora-question-pairs

Quora NLP 自然语言处理 问答数据集 问题检测 问答 相似度

美国知识问答网站 Quora 上的问题答案数据集,可用以进行重复问题检测。

免积分下载
数据集市
2020年06月23日
499 MB

相关数据

Twitter情感分析训练语料库
Twitter情感分析训练语料库
该情感分析数据集 包含1,578,627条分类推文,每行标记... 免积分下载
多领域情感评论文本数据集
多领域情感评论文本数据集
多领域情感数据集包含从Amazon.com获取的部分产品评论... 免积分下载
Euler图学习开源数据集
Euler图学习开源数据集
Euler图学习平台自研算法对应的开源图数据与样本数据 免积分下载

数据介绍

Quora 是一个获取和分享知识的问答平台,它能够促进人们互相学习,以更好地认识这个世界。每个月有超过 1 亿的人访问 Quora,所以有许多人可能提出相似的问题。然而这些具有相似意图的问题可能会使得寻求者需要花费更多的时间,才能找到所需的最佳答案,而答题者可能也会觉得很多问题存在重复。

为了更好地发掘那些具有相似意图的问题,以帮助用户更快地找到问题的高质量答案,提高用户使用体验,Quora 在 Kaggle 上举办了本次竞赛: Quora Question Pairs。

本次比赛的目标是预测所提供的问题对中哪一个问题包含两个具有相同含义的问题。地面真相是人类专家提供的一套标签。理由真理标签本质上是主观的,因为句子的真正含义永远不能确切地知道。人的标签也是一个"嘈杂"的过程,理性的人会不同意。因此,此数据集上的基础真实标签应视为"知情",但不应 100% 准确,并且可能包括不正确的标签。我们认为,总体而言,标签代表一种合理的共识,但根据数据集中的各个项目的情况,这通常并非如此。

**请注意:**作为一种反作弊措施,Kaggle 已经用计算机生成的问题对补充了测试集。这些行不是来自 Quora,也不计入评分。训练集中的所有问题都是Quora的真实例子。

字段描述:

  • ID - 训练集问题对的 ID
  • qid1, qid2 - 每个问题的唯一 ID(仅在火车.csv 中提供)
  • 问题1,问题2 - 每个问题的全文
  • is_duplicate - 目标变量,如果问题1和问题2的含义基本相同,则设置为 1,否则为 0。
还没有任何文件记录.