3851

亚马逊开源的最大社交对话数据集Topical Chat

Topical Chat

语料 对话数据集 社交对话 交流 机器对话 人机对话 Topical Chat

亚马逊在GitHub上发布了超470万单词21万句子的语料库 , 并声称这个数据集支持“高质量”和“可重复”的对话系统研究 , 将成为研究界公开可用的最大的基于知识的社交对话数据集 。

免积分下载
数据集市
2019年10月10日
约80MB

相关数据

食品产品数据库(Open Food Facts)
食品产品数据库(Open Food Facts)
Open Food Facts是一个免费,开放,可比较的来自... 免积分下载
坠落检测数据集
坠落检测数据集
数据来自论文《Fall Detection》 免积分下载
三国人物结构化数据
三国人物结构化数据
来自github的一个三国人物信息数据集;数据主要整理自 维... 免积分下载

数据介绍

该数据集是为参加Alexa Prize Socialbot Grand Challenge 3竞赛的团队开发的,申请截止日期为2019年5月14日,比赛于2019年9月9日开始。所有参加Alexa Prize竞赛的团队将可以访问此数据集的扩展版本(扩展主题聊天数据集),其中包括正在进行的集合和注释的结果。

主题聊天数据集将包含超过210,000个句子(超过4,100,000个单词),可支持高质量,可重复的研究,将成为研究界公开可用的最大社交对话和知识数据集。

每个语料库的对话和对话轮次与提供给众包工作者的知识相关联,并且所述知识是从与一组实体相关的一系列“非结构化”和“松散结构化”的文本资源中收集的。

亚马逊高级首席科学家Dilek Hakkani-Tur在博客文章中明确表示,没有任何语料是与Alexa客户的互动。

该数据库是实现基于知识的神经反应生成系统的后续研究,解决其他公开数据集无法解决的自然对话中的难题。这将使研究者可以专注于研究对话中主题和知识选择方面的转换,以及如何在对话中融入事实和观点。

数据规格

所属机构 亚马逊公司
单词数量 470万
句子数量 21万
发布时间 2019年9月17日
相关比赛 Alexa Prize Socialbot Grand Challenge
文件格式 .json
数据引文 @inproceedings{Gopalakrishnan2019,
author={Karthik Gopalakrishnan and Behnam Hedayatnia and Qinlang Chen and Anna Gottardi and Sanjeev Kwatra and Anu Venkatesh and Raefer Gabriel and Dilek Hakkani-Tür},
title={{Topical-Chat: Towards Knowledge-Grounded Open-Domain Conversations}},
year=2019,
booktitle={Proc. Interspeech 2019},
pages={1891--1895},
doi={10.21437/Interspeech.2019-3079},
url={http://dx.doi.org/10.21437/Interspeech.2019-3079}
}
还没有任何文件记录.