自然语言处理数据集-数据集市-免费数据资源共享网

行业数据

全部

机器学习训练数据

热门数据集

全网新闻数据(SogouCA) 2012版

搜狗实验室提供，来自若干新闻站点2012年6月—7月期间国内...

免积分下载

排序方式：默认，数量：49

多语概念词典

multilingual concept dictionary

4284

包含两个词典数据中文概念词典（Chinese Concept Dictionary，CCD）和多语言概念词典（Multilingual Concept Dictionary，MCD）。

2020-03-28 （64月前）免积分下载

钓鱼欺诈网站识别数据集

phishing fraud website identification dataset

6834

sofasofa比赛数据。

2020-03-28 （64月前）免积分下载

豆瓣7类前100图书书评

Douban top 100 book comments

5028

豆瓣读书上关于700本热门书籍，近万条书评数据。

2020-03-25 （64月前）免积分下载

中文预训练词向量数据集

Chinese Word Vectors

5211

该库包含经过数十种用各领域语料（百度百科、维基百科、人民日报 1947-2017、知乎、微博、文学、金融、古汉语等）训练的词向量，涵盖各领域，且包含多种训练设置

2020-03-17 （64月前）免积分下载

常识问答文本数据集（CommonsenseQA）

CommonsenseQA

6094 4.5MB

常识问答（CommonsenseQA）是一种新的多选问答数据集，需要不同类型的常识知识来预测正确答案。它包含12102个问题，一个正确答案和四个候选答案。

2019-12-19 （67月前）免积分下载

开放信息提取语料库（OPIEC）

OPIEC

5267 ~67 GB

OPIEC是一个开放信息提取（OIE）语料库，由整个英语维基百科构建而成。它包含超过3.41亿个三元组。

2019-12-16 （67月前）免积分下载

Chinese Word Analogy Lists 单词类比数据集

Chinese Word Analogy Lists

3980 29.9 KB

该数据集包含 3 个领域的 1225 个单词的类比。具体内容有 687 个国家首都类词语，175 个城市省份类词语和 240 个家庭关系类词语。

2019-11-25 （68月前）免积分下载

语义分析数据集MSParS

Multi-perspective Semantic ParSing Dataset

4373 4.94MB

微软亚洲研究院自然语言计算组与微软必应（Bing）搜索引擎团队合作构建并发布了大规模、高质量、多类型的语义分析数据集。

2019-11-11 （68月前）免积分下载

微软表格数据集TableBank

TableBank dataset

6309

致力于解决文档中的表格检测与表格信息识别，并首次在业界同时开源表格检测和表格结构识别数据集，供研究人员使用。

2019-11-11 （68月前）免积分下载

百度实体标注数据集

Baidu entity annotation data set

4686 101MB

一个大规模的中文短文本语料库，用于实体识别和链接任务。BEL包含100K注释的短文本，以及对应于百度知识库中的实体的提及和链接。

2019-11-09 （68月前）免积分下载

清华大学开放中文词库（THUOCL）

THU Open Chinese Lexicon

5485 2.6MB

THUOCL（THU Open Chinese Lexicon）是由清华大学自然语言处理与社会人文计算实验室整理推出的一套高质量的中文词库，词表来自主流网站的社会标签、搜索热词、输入法词库等。

2019-11-03 （68月前）免积分下载

中文繁体字分词数据集 UD-Chinese-GSD

UD-Chinese-GSD

5155 400.69 MB

UD-Chinese-GSD 数据集是中文繁体自然语言处理数据集，用以中文分词等工作的训练，也可用作多语言编译器开发及跨语言研究。

2019-10-16 （69月前）免积分下载