该数据集包含具有相应较短(压缩)版本的句子和简短段落。每个输入文本最多可进行五次压缩,并对其含义保留和语法进行质量判断。
该数据集是使用来自美国国家开放语料库(ww.anc.org)和众包的源文本得出的。
可以在随附的自述文件和论文中找到更多详细信息:“用于句子和短段落的抽象压缩的数据集和评估指标” [Toutanova,Brockett,Tran和Amershi,EMNLP 2016]。