该情感分析数据集 包含1,578,627条分类推文,每行标记为1表示积极情绪,0表示负面情绪。
多领域情感数据集包含从Amazon.com获取的部分产品评论,评论包含星级(1至5星)。
Euler图学习平台自研算法对应的开源图数据与样本数据
OPIEC是一个开放信息提取(OIE)语料库,由整个英语维基百科构建而成。它包含超过3.41亿个三元组。
包含8个可用于文本分类的子数据集,样本大小从120K到3.6M,问题范围从2级到14级,数据来源于 DBPedia、Amazon、Yelp、Yahoo!、Sogou 和 AG
美国知识问答网站 Quora 上的问题答案数据集,可用以进行重复问题检测。
一个大规模的中文短文本语料库,用于实体识别和链接任务。BEL包含100K注释的短文本,以及对应于百度知识库中的实体的提及和链接。
搜狗实验室提供,来自若干新闻站点2012年6月—7月期间国内,国际,体育,社会,娱乐等18个频道的新闻数据,提供URL和正文信息。
ARC数据集包含从各种来源提取的7,787项科学考试问题,包括由AI2附属研究合作伙伴授权提供的科学问题。这些是纯文本的英语考试题,涵盖了文件中指示的多个年级。每个问题都有一个选项结构。
Enron Email Dataset 包括安然公司部分高管和中级管理人员150位员工500万封邮件消息,由美国联邦能源管理委员会进行调查期间发布。
包含 7708 个书面表达以及 5507 个口语表达数据。该数据集内容覆盖了六个生活领域,包括:订购披萨,创建汽车维修预约,设置租车,订购电影票,订购咖啡饮料和预订餐厅。
来自北京大学开放研究数据平台,利用scrapy作为工具,爬取了知乎平台上十万余条用户个人主页数据,涵盖了用户性别、所在地、个性签名等多项属性。