6845

中国对联数据集

China Pair-to-Pair Data Set

对联 中文语料 百度 春节 中国

该数据集包含了超过70万副的中文对联数据。

免积分下载
数据集市
2019年01月24日

相关数据

食品产品数据库(Open Food Facts)
食品产品数据库(Open Food Facts)
Open Food Facts是一个免费,开放,可比较的来自... 免积分下载
坠落检测数据集
坠落检测数据集
数据来自论文《Fall Detection》 免积分下载
三国人物结构化数据
三国人物结构化数据
来自github的一个三国人物信息数据集;数据主要整理自 维... 免积分下载

数据介绍

背景描述 该数据集包含了超过70万副的中文对联数据。

如何在线使用数据集 Python用户,输入ls ../input/couplet9518/ 查看数据路径 R用户,输入list.files("../input/couplet9518/") 查看数据路径

数据说明 数据集包含5个文件:

train_in.txt: 对联的上联。每行都是一个输入,每个词都用空格隔开。(训练集的输入) train_out.txt:对联的下联。每行都是一个输出。对应着 train_in.txt的每一行。每个词都用空格隔开。 (训练集的输出) test_in.txt : 对联的上联。每行都是一个输入,每个词都用空格隔开。(测试集的输入) test_out.txt : 对联的下联。每行都是一个输出。对应着test_in.txt的每一行。每个词都用空格隔开。 (测试集的输出) vocabs: 词汇文件。 添加<s>和<\s>作为第一个vocabs,它将用于在seq2seq模式下进行训练。 数据来源 该数据集源自github的用户Bin Wang的分享,数据获取源自一位名叫冯重朴_梨味斋散叶的博主的新浪博客(不过当前该博客由于一些不明原因无法访问),还是很感谢这位博主的贡献。

数据规格

数据协议 CC-BY 4.0
还没有任何文件记录.