亚马逊开源的最大社交对话数据集Topical Chat

Topical Chat

语料对话数据集社交对话交流机器对话人机对话 Topical Chat

亚马逊在GitHub上发布了超470万单词21万句子的语料库，并声称这个数据集支持“高质量”和“可重复”的对话系统研究，将成为研究界公开可用的最大的基于知识的社交对话数据集。

下载所需积分：免积分下载

数据集发布者：数据集市

发布时间： 2019年10月10日

数据大小：约80MB

查看原始数据

数据介绍

该数据集是为参加Alexa Prize Socialbot Grand Challenge 3竞赛的团队开发的，申请截止日期为2019年5月14日，比赛于2019年9月9日开始。所有参加Alexa Prize竞赛的团队将可以访问此数据集的扩展版本（扩展主题聊天数据集），其中包括正在进行的集合和注释的结果。

主题聊天数据集将包含超过210,000个句子（超过4,100,000个单词），可支持高质量，可重复的研究，将成为研究界公开可用的最大社交对话和知识数据集。

每个语料库的对话和对话轮次与提供给众包工作者的知识相关联，并且所述知识是从与一组实体相关的一系列“非结构化”和“松散结构化”的文本资源中收集的。

亚马逊高级首席科学家Dilek Hakkani-Tur在博客文章中明确表示，没有任何语料是与Alexa客户的互动。

该数据库是实现基于知识的神经反应生成系统的后续研究，解决其他公开数据集无法解决的自然对话中的难题。这将使研究者可以专注于研究对话中主题和知识选择方面的转换，以及如何在对话中融入事实和观点。

数据规格

所属机构	亚马逊公司
单词数量	470万
句子数量	21万
发布时间	2019年9月17日
相关比赛	Alexa Prize Socialbot Grand Challenge
文件格式	.json
数据引文	@inproceedings{Gopalakrishnan2019, author={Karthik Gopalakrishnan and Behnam Hedayatnia and Qinlang Chen and Anna Gottardi and Sanjeev Kwatra and Anu Venkatesh and Raefer Gabriel and Dilek Hakkani-Tür}, title={{Topical-Chat: Towards Knowledge-Grounded Open-Domain Conversations}}, year=2019, booktitle={Proc. Interspeech 2019}, pages={1891--1895}, doi={10.21437/Interspeech.2019-3079}, url={http://dx.doi.org/10.21437/Interspeech.2019-3079} }

还没有任何文件记录.

亚马逊开源的最大社交对话数据集Topical Chat

Topical Chat

相关数据

食品产品数据库（Open Food Facts）

坠落检测数据集

三国人物结构化数据

数据介绍

数据规格