排序方式:默认,数量:49
多语概念词典

多语概念词典

multilingual concept dictionary
3650

包含两个词典数据中文概念词典(Chinese Concept Dictionary,CCD)和多语言概念词典(Multilingual Concept Dictionary,MCD)。

2020-03-28 (55月前) 免积分下载
钓鱼欺诈网站识别数据集

钓鱼欺诈网站识别数据集

phishing fraud website identification dataset
6046

sofasofa比赛数据。

2020-03-28 (55月前) 免积分下载
豆瓣7类前100图书书评

豆瓣7类前100图书书评

Douban top 100 book comments
4290

豆瓣读书上关于700本热门书籍,近万条书评数据。

2020-03-25 (55月前) 免积分下载
中文预训练词向量数据集

中文预训练词向量数据集

Chinese Word Vectors
4532

该库包含经过数十种用各领域语料(百度百科、维基百科、人民日报 1947-2017、知乎、微博、文学、金融、古汉语等)训练的词向量,涵盖各领域,且包含多种训练设置

2020-03-17 (55月前) 免积分下载
常识问答文本数据集(CommonsenseQA)

常识问答文本数据集(CommonsenseQA)

CommonsenseQA
5079 4.5MB

常识问答(CommonsenseQA)是一种新的多选问答数据集,需要不同类型的常识知识来预测正确答案。它包含12102个问题,一个正确答案和四个候选答案。

2019-12-19 (58月前) 免积分下载
开放信息提取语料库(OPIEC)

开放信息提取语料库(OPIEC)

OPIEC
4496 ~67 GB

OPIEC是一个开放信息提取(OIE)语料库,由整个英语维基百科构建而成。它包含超过3.41亿个三元组。

2019-12-16 (58月前) 免积分下载
Chinese Word Analogy Lists 单词类比数据集

Chinese Word Analogy Lists 单词类比数据集

Chinese Word Analogy Lists
3363 29.9 KB

该数据集包含 3 个领域的 1225 个单词的类比。具体内容有 687 个国家首都类词语,175 个城市省份类词语和 240 个家庭关系类词语。

2019-11-25 (59月前) 免积分下载
语义分析数据集MSParS

语义分析数据集MSParS

Multi-perspective Semantic ParSing Dataset
3759 4.94MB

微软亚洲研究院自然语言计算组与微软必应(Bing)搜索引擎团队合作构建并发布了大规模、高质量、多类型的语义分析数据集。

2019-11-11 (59月前) 免积分下载
微软表格数据集TableBank

微软表格数据集TableBank

TableBank dataset
5540

致力于解决文档中的表格检测与表格信息识别,并首次在业界同时开源表格检测和表格结构识别数据集,供研究人员使用。

2019-11-11 (59月前) 免积分下载
百度实体标注数据集

百度实体标注数据集

Baidu entity annotation data set
4039 101MB

一个大规模的中文短文本语料库,用于实体识别和链接任务。BEL包含100K注释的短文本,以及对应于百度知识库中的实体的提及和链接。

2019-11-09 (59月前) 免积分下载
清华大学开放中文词库(THUOCL)

清华大学开放中文词库(THUOCL)

THU Open Chinese Lexicon
4537 2.6MB

THUOCL(THU Open Chinese Lexicon)是由清华大学自然语言处理与社会人文计算实验室整理推出的一套高质量的中文词库,词表来自主流网站的社会标签、搜索热词、输入法词库等。

2019-11-03 (60月前) 免积分下载
中文繁体字分词数据集 UD-Chinese-GSD

中文繁体字分词数据集 UD-Chinese-GSD

UD-Chinese-GSD
4354 400.69 MB

UD-Chinese-GSD 数据集是中文繁体 自然语言处理 数据集,用以中文分词等工作的训练,也可用作多语言编译器开发及跨语言研究。

2019-10-16 (60月前) 免积分下载
共 5 页,当前第 3 页。