CodeSearchNet挑战赛是GitHub和Weights&Biases携手推出的一项新赛事,旨在推动语义代码搜索的相关研究。
Sentiment140数据集是斯坦福大学的一个课堂项目产生的一个用于情感分析的数据集,数据抓取自twitter;这个流行的数据集能让你完美地开启自然语言处理之旅。
一个稍老一点的数据集,用到了来自亚马逊的产品评论。
包含 7708 个书面表达以及 5507 个口语表达数据。该数据集内容覆盖了六个生活领域,包括:订购披萨,创建汽车维修预约,设置租车,订购电影票,订购咖啡饮料和预订餐厅。
谷歌开放全新自然语言数据集,该数据集中有超过 500 个电影偏好对话,表达了 10,000 多个偏好。
该情感分析数据集 包含1,578,627条分类推文,每行标记为1表示积极情绪,0表示负面情绪。
SMS Spam Corpus v.0.1是一组SMS短信标签消息,已收集用于SMS Spam研究。它包含两个英文短信息集合,包含1084和1319条消息,标记为合法或垃圾邮件。
多领域情感数据集包含从Amazon.com获取的部分产品评论,评论包含星级(1至5星)。
Enron Email Dataset 包括安然公司部分高管和中级管理人员150位员工500万封邮件消息,由美国联邦能源管理委员会进行调查期间发布。
TED平行语料库是多语言平行语料库,包括多语言并行语料库和单语语料库。从TED会议www.ted.com 提取109种世界语言。
Euler图学习平台自研算法对应的开源图数据与样本数据
该数据包含800多万中文词汇,相比现有的公开数据,在覆盖率、新鲜度及准确性上大幅提高,为对话回复质量预测和医疗实体识别等自然语言处理方向的业务应用带来显著的效能提升。