该数据集包含了超过70万副的中文对联数据。
背景描述 该数据集包含了超过70万副的中文对联数据。
如何在线使用数据集 Python用户,输入ls ../input/couplet9518/ 查看数据路径 R用户,输入list.files("../input/couplet9518/") 查看数据路径
数据说明 数据集包含5个文件:
train_in.txt: 对联的上联。每行都是一个输入,每个词都用空格隔开。(训练集的输入) train_out.txt:对联的下联。每行都是一个输出。对应着 train_in.txt的每一行。每个词都用空格隔开。 (训练集的输出) test_in.txt : 对联的上联。每行都是一个输入,每个词都用空格隔开。(测试集的输入) test_out.txt : 对联的下联。每行都是一个输出。对应着test_in.txt的每一行。每个词都用空格隔开。 (测试集的输出) vocabs: 词汇文件。 添加<s>和<\s>作为第一个vocabs,它将用于在seq2seq模式下进行训练。 数据来源 该数据集源自github的用户Bin Wang的分享,数据获取源自一位名叫冯重朴_梨味斋散叶的博主的新浪博客(不过当前该博客由于一些不明原因无法访问),还是很感谢这位博主的贡献。
数据协议 | CC-BY 4.0 |