Social-Spammer-Heterogeneous 数据集是从 tagged.com 网站上收录的,它包含五百六十万的用户和八千五百万用户间的联系。数据集中的每个用户包含四个特征和一个手动输入用以鉴定是否为垃圾账号的标签分类。数据集中的每个联系则代表了两个用户间的互动,且包含一个时间戳和类别。网络中对于用户间的联系共含有七种匿名类别。
数据集的原始任务是基于垃圾邮件发送者的关系和非关系特征对其进行识别(即分类)。
数据来源 | Tagged.com |
数据引用 |
@inproceedings{fakhraei2015collective, author = {Fakhraei, Shobeir and Foulds, James and Shashanka, Madhusudana and Getoor, Lise}, title = {Collective Spammer Detection in Evolving Multi-Relational Social Networks}, booktitle = {Proceedings of the 21th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining}, series = {KDD '15}, year = {2015}, isbn = {978-1-4503-3664-2}, location = {Sydney, NSW, Australia}, pages = {1769--1778}, doi = {10.1145/2783258.2788606}, publisher = {ACM}, } |