来自HetRec 2011会议发布的数据集,从2113用户收集86,000个电影评分数据。
来自1867个用户的105,000 个书签信息。
Last.fm提供音乐推荐的数据集。来自1892位用户的92,800歌手的听歌记录; 对于数据集中的每个用户,包含他们最受欢迎的艺术家的列表以及播放次数。它还包括可用于构建内容向量的用户应用标签。
Book-Crossings是由Cai-Nicolas Ziegler根据 bookcrossing.com 的数据编写的图书评分数据集。 它包含90000个用户的270000本书的110万个评分。
Jester是由Ken Goldberg和他在加州大学伯克利分校的小组发展的,包含150个笑话大约600万的评分。 像MovieLens一样,Jester评分由互联网上的用户提供。
这是一个从通过爬虫爬取的谷歌应用商店的APP信息数据集,包含超过10万个APP信息;
气象数据要素包括1942年07月以来气温、气压、露点、风向风速、云量、降水量。气象数据来自美国国家气候数据中心(NCDC),每年更新。
空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI;全国空气质量数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。
从互联网收集的公开消息通知类短信数据集,大约有1百万条短信记录。
在2015年的8月31日,国务院放出了7000页的相关文件,这是截至目前放出的最大数据源。这些资料已经被整理,成为了可以直接被分析的数据。
MSMARCO数据集包含微软BING搜索的query以及query对应的top 10的搜索结果。超过人类的意思就是说,给定query和top 10搜索结果,机器找出的答案比普通人找的更准。
Sentinel-2任务是两颗卫星的陆地监测星座,提供高分辨率的光学图像,并为当前的SPOT和Landsat任务提供连续性。