排序方式:默认,数量:42
维基百科中英语-西班牙语术语向量的数据集

维基百科中英语-西班牙语术语向量的数据集

Data Set of English-Spanish Term Vectors from Wikipedia
395

该数据集包含从2009年采样的60,730维基百科的英语文章及其可比较的西班牙文章中提取的术语向量。

2020-06-24 (4月前) 免积分下载
来自必应查询的经过训练的双词嵌入语料

来自必应查询的经过训练的双词嵌入语料

Dual Word Embeddings Trained on Bing Queries
394 10.3GB

该数据仅出于研究目的而发布。DESM词嵌入数据集可能包含一些人可能会认为令人反感,不雅或其他令人反感的术语。Microsoft尚未审查或修改数据集的内容。

2020-06-24 (4月前) 免积分下载
MSR抽象文本压缩数据集

MSR抽象文本压缩数据集

MSR Abstractive Text Compression Dataset
191 17.5M

该数据集包含具有相应较短(压缩)版本的句子和简短段落。每个输入文本最多可进行五次压缩,并对其含义保留和语法进行质量判断。

2020-06-23 (4月前) 免积分下载
微软软研究院问答语料库

微软软研究院问答语料库

Microsoft Research Question-Answering Corpus
190

微软研究院问答语料库

2020-06-23 (4月前) 免积分下载
微软顺序问题解答(SQA)数据集

微软顺序问题解答(SQA)数据集

Microsoft Research Sequential Question Answering (SQA) Dataset
182

用于回答问题的语义解析的最新工作集中于冗长而复杂的问题,如果在两个人之间的正常对话中提出问题,其中许多问题似乎是不自然的。

2020-06-23 (4月前) 免积分下载
微软WikiQA语料库

微软WikiQA语料库

WikiQA Corpus
185

WikiQA语料库是一组新的公开可用的问题和句子对,它们被收集并注释以用于开放域问题解答的研究。

2020-06-23 (4月前) 免积分下载
Quora 问答数据集

Quora 问答数据集

quora-question-pairs
351 499 MB

美国知识问答网站 Quora 上的问题答案数据集,可用以进行重复问题检测。

2020-06-23 (4月前) 免积分下载
种类自然语言推理(MultiNLI)语料库

种类自然语言推理(MultiNLI)语料库

MultiNLI
635 227MB

多种类自然语言推理(MultiNLI)语料库是一个众包的433k句子对的集合,带有文本蕴含信息。语料库以SNLI语料库为模型,但是不同之处在于它涵盖了多种口语和书面语体,并支持独特的跨语体泛化评估。

2020-05-01 (6月前) 免积分下载
斯坦福自然语言推理(SNLI)语料库

斯坦福自然语言推理(SNLI)语料库

SNLI
539 90.17MB

SNLI语料库(1.0版)是一个57万个人工书写的英语句子对的集合,这些句子对经过手动标注以实现平衡分类,并带有enume,矛盾和中性标签,支持自然语言推理(NLI)的任务。

2020-05-01 (6月前) 免积分下载
清华大学-科技知识图谱

清华大学-科技知识图谱

SciKG
421 273MB

SciKG是一个以科研为中心的大规模知识图谱,目前包含计算机科学领域,由概念、专家和论文组成。

2020-04-21 (6月前) 免积分下载
Wikipedia多语言开放关系语料库1.0版

Wikipedia多语言开放关系语料库1.0版

wikipedia_multilingual_relations_v1
350 10.4GB

此数据集包含从多语言Wikipedia语料库https://www.wikipedia.org/中提取的开放关系短语。

2020-04-17 (6月前) 免积分下载
5万多首英语歌曲的歌词数据集

5万多首英语歌曲的歌词数据集

55000_songlyrics
438 69MB

这些是57650首英文歌曲的歌词数据集

2020-04-11 (6月前) 免积分下载
共 4 页,当前第 1 页。