谷歌开放全新自然语言数据集,该数据集中有超过 500 个电影偏好对话,表达了 10,000 多个偏好。
CCPE 全称为 Coached Conversational Preference Elicitation,它是我们提出的一种在对话中获得用户偏好的新方法,即它允许收集自然但结构化的会话偏好。通过研究一个领域的对话,我们对人们如何描述电影偏好进行了简要的定量分析;并且向社区发布了 CCPE-M 数据集,该数据集中有超过 500 个电影偏好对话,表达了 10,000 多个偏好。
具体而言,它由 502 个对话框组成的数据集,在用户和助理之间用自然语言讨论电影首选项时有 12,000 个带注释的发音。它通过两个付费人群工作者之间的对话收集,其中一个工作人员扮演「助手」的角色,而另一个工作人员扮演「用户」的角色。「助手」按照 CCPE 方法引出关于电影的「用户」偏好。
助理提出的问题旨在尽量减少「用户」用来尽可能多地传达他或她的偏好的术语中的偏见,并以自然语言获得这些偏好。每个对话框都使用实体提及、关于实体表达的首选项、提供的实体描述以及实体的其他语句进行注释。
偏好启发
在面向电影的 CCPE 数据集中,冒充用户的个人对着麦克风讲话,并且音频直接播放给冒充数字助理的人。「助手」则输出他们的响应,然后通过文本到语音向用户播放。
这些双人自然对话包括在使用合成对话难以复制的双方之间自发发生的不流畅和错误。这创建了一系列关于人们电影偏好的自然且有条理的对话。
在对这个数据集的观察中,我们发现人们描述他们的偏好的方式非常丰富。该数据集是第一个大规模表征该丰富度的数据集。我们还发现,偏好也称为选项的特征,并不总是与智能助理的方式相匹配,或者与推荐网站的方式相匹配。换言之,你最喜爱的电影网站或服务上的过滤器,可能与你在寻求个人推荐时描述各种电影时使用的语言并不匹配。
有关 CCPE 数据集的详细信息,请参阅我们的研究论文(https://ai.google/research/pubs/pub48414),该论文将在 2019 年话语与对话特别兴趣小组(https://www.aclweb.org/portal/content/sigdial-2019-annual-meeting-special-interest-group-discourse-and-dialogue-call-special)年会上发布。
对话框 | 502 个 |
发布时间 | 2019年 |