中国对联数据集

China Pair-to-Pair Data Set

对联中文语料百度春节中国

该数据集包含了超过70万副的中文对联数据。

下载所需积分：免积分下载

数据集发布者：数据集市

发布时间： 2019年01月24日

查看原始数据

数据介绍

背景描述该数据集包含了超过70万副的中文对联数据。

如何在线使用数据集 Python用户，输入ls ../input/couplet9518/ 查看数据路径 R用户，输入list.files("../input/couplet9518/") 查看数据路径

数据说明数据集包含5个文件：

train_in.txt: 对联的上联。每行都是一个输入，每个词都用空格隔开。(训练集的输入) train_out.txt:对联的下联。每行都是一个输出。对应着 train_in.txt的每一行。每个词都用空格隔开。 (训练集的输出) test_in.txt : 对联的上联。每行都是一个输入，每个词都用空格隔开。(测试集的输入) test_out.txt : 对联的下联。每行都是一个输出。对应着test_in.txt的每一行。每个词都用空格隔开。 (测试集的输出) vocabs: 词汇文件。添加<s>和<\s>作为第一个vocabs，它将用于在seq2seq模式下进行训练。数据来源该数据集源自github的用户Bin Wang的分享，数据获取源自一位名叫冯重朴_梨味斋散叶的博主的新浪博客（不过当前该博客由于一些不明原因无法访问），还是很感谢这位博主的贡献。

数据规格

数据协议

CC-BY 4.0

还没有任何文件记录.

中国对联数据集

China Pair-to-Pair Data Set

相关数据

食品产品数据库（Open Food Facts）

坠落检测数据集

三国人物结构化数据

数据介绍

数据规格