2018年中国行政区省/市/县区/乡镇四级名称数据集。
包含乌云已确认漏洞和已公开漏洞的状态、厂商、Rank等数据用于分析哪些是良心厂商。
来自github的一个三国人物信息数据集;数据主要整理自 维基百科 、百度百科 和其他网络资源。
从亚马逊网站上抓取的 548552 个 商品的信息数据;数据采集自 2006 年夏天,数据集于 2007 年由斯坦福大学发布。
来自亚马逊的精美食品的评论组成的数据集,包含截止 2012 年 10 月份在 Amazon 网站上 568454 条食品评论数据,包括用户、评论内容、评论食品、食品评分等数据。
Notre Dame 数据集是巴黎圣母院大教堂的 715 张图像重建的数据集,于 2006 年由 Photo Tourism group 发布。
Social-Spammer-Heterogeneous 数据集是从名为 Tagged 的社交软件上收录的,它包含五百六十万的用户和八千五百万用户间的联系。
Adience数据集用于促进年龄和性别识别的研究。总共图像26580张年龄分布在0-60之间。这个数据集的目标是正确的预测年龄和性别。
亚马逊在GitHub上发布了超470万单词21万句子的语料库 , 并声称这个数据集支持“高质量”和“可重复”的对话系统研究 , 将成为研究界公开可用的最大的基于知识的社交对话数据集 。
数据的收集源于reddit用户areyde的一个简单的问题:“学习所有汉字意味着什么?”可以简化为“您可以为学习汉字制定什么目标?”
面对五花八门的生活垃圾,完全搞明白它们的最终归属并不容易,我们可以借助数据的力量,尝试建立分类模型。