自然语言处理数据集-数据集市-免费数据资源共享网

行业数据

全部

机器学习训练数据

热门数据集

全网新闻数据(SogouCA) 2012版

搜狗实验室提供，来自若干新闻站点2012年6月—7月期间国内...

免积分下载

排序方式：默认，数量：49

CodeSearchNet挑战赛代码数据集

CodeSearchNet Dataset

4785 20GB

CodeSearchNet挑战赛是GitHub和Weights&Biases携手推出的一项新赛事，旨在推动语义代码搜索的相关研究。

2019-10-02 （68月前）免积分下载

斯坦福大学Sentiment140情感分析数据集

Sentiment140

8879 77.6MB

Sentiment140数据集是斯坦福大学的一个课堂项目产生的一个用于情感分析的数据集，数据抓取自twitter；这个流行的数据集能让你完美地开启自然语言处理之旅。

2019-09-23 （68月前）免积分下载

多域情绪分析数据集

Multi-Domain Sentiment Dataset

3978 1.5GB

一个稍老一点的数据集，用到了来自亚马逊的产品评论。

2019-09-23 （68月前）免积分下载

谷歌AI自然语言对话数据集Taskmaster-1

Taskmaster-1

4322 80MB

包含 7708 个书面表达以及 5507 个口语表达数据。该数据集内容覆盖了六个生活领域，包括：订购披萨，创建汽车维修预约，设置租车，订购电影票，订购咖啡饮料和预订餐厅。

2019-09-11 （69月前）免积分下载

谷歌AI自然语言对话数据集CCPE

Coached Conversational Preference Elicitation

4242 5MB

谷歌开放全新自然语言数据集，该数据集中有超过 500 个电影偏好对话，表达了 10,000 多个偏好。

2019-09-11 （69月前）免积分下载

Twitter情感分析训练语料库

Twitter Sentiment Analysis Training Corpus (Dataset)

9962 53.8MB

该情感分析数据集包含1,578,627条分类推文，每行标记为1表示积极情绪，0表示负面情绪。

2019-06-29 （71月前）免积分下载

短信文本分类数据集

SMS Spam Corpus v.0.1

5943 78KB

SMS Spam Corpus v.0.1是一组SMS短信标签消息，已收集用于SMS Spam研究。它包含两个英文短信息集合，包含1084和1319条消息，标记为合法或垃圾邮件。

2019-06-29 （71月前）免积分下载

多领域情感评论文本数据集

Multi-Domain Sentiment Dataset

7239 1.5GB

多领域情感数据集包含从Amazon.com获取的部分产品评论，评论包含星级（1至5星）。

2019-06-29 （71月前）免积分下载

安然公司邮件数据集

Enron Email Dataset

8942 1.70 Gb

Enron Email Dataset 包括安然公司部分高管和中级管理人员150位员工500万封邮件消息，由美国联邦能源管理委员会进行调查期间发布。

2019-04-10 （74月前）免积分下载

TED平行语料库

TED-Parallel-Corpus

5658 3.54GB

TED平行语料库是多语言平行语料库，包括多语言并行语料库和单语语料库。从TED会议www.ted.com 提取109种世界语言。

2019-04-10 （74月前）免积分下载

Euler图学习开源数据集

euler raw graph data

7401 243.41MB

Euler图学习平台自研算法对应的开源图数据与样本数据

2019-01-24 （76月前）免积分下载

腾讯AI Lab开源大规模高质量中文词向量数据

Tencent AI Lab Embedding Corpus for Chinese Words and Phrases

9129 6.3 GB

该数据包含800多万中文词汇，相比现有的公开数据，在覆盖率、新鲜度及准确性上大幅提高，为对话回复质量预测和医疗实体识别等自然语言处理方向的业务应用带来显著的效能提升。

2019-01-12 （76月前）免积分下载