包含两个词典数据中文概念词典(Chinese Concept Dictionary,CCD)和多语言概念词典(Multilingual Concept Dictionary,MCD)。
sofasofa比赛数据。
该库包含经过数十种用各领域语料(百度百科、维基百科、人民日报 1947-2017、知乎、微博、文学、金融、古汉语等)训练的词向量,涵盖各领域,且包含多种训练设置
常识问答(CommonsenseQA)是一种新的多选问答数据集,需要不同类型的常识知识来预测正确答案。它包含12102个问题,一个正确答案和四个候选答案。
OPIEC是一个开放信息提取(OIE)语料库,由整个英语维基百科构建而成。它包含超过3.41亿个三元组。
该数据集包含 3 个领域的 1225 个单词的类比。具体内容有 687 个国家首都类词语,175 个城市省份类词语和 240 个家庭关系类词语。
微软亚洲研究院自然语言计算组与微软必应(Bing)搜索引擎团队合作构建并发布了大规模、高质量、多类型的语义分析数据集。
致力于解决文档中的表格检测与表格信息识别,并首次在业界同时开源表格检测和表格结构识别数据集,供研究人员使用。
一个大规模的中文短文本语料库,用于实体识别和链接任务。BEL包含100K注释的短文本,以及对应于百度知识库中的实体的提及和链接。
THUOCL(THU Open Chinese Lexicon)是由清华大学自然语言处理与社会人文计算实验室整理推出的一套高质量的中文词库,词表来自主流网站的社会标签、搜索热词、输入法词库等。
UD-Chinese-GSD 数据集是中文繁体 自然语言处理 数据集,用以中文分词等工作的训练,也可用作多语言编译器开发及跨语言研究。