从在线开放数据库中发布,并可使用网络爬虫进行访问,我们检查了超过58,523,079个组和274,335,183个用户,其中48,676,355个组具有包含所有ID,成员列表和日期的信息。
QQ数据集(它是从在线开放数据库中发布的,并且可以使用网络爬虫进行访问),我们检查了超过58,523,079个组和274,335,183个用户,其中48,676,355个组具有包含所有ID,成员列表和日期的信息。
由于普通用户最多只能加入2000个群组,因此加入2000个以上群组的34个用户必须具有腾讯的上级许可,因此被视为腾讯设定的机器人或客户服务,从我们的分析中排除。
由于某些用户未显示其性别或年龄,或提供了一些看似虚假的信息(例如0岁),因此我们将没有性别信息或年龄小于10或大于70岁的用户排除在外。总体而言,有273,204,518位用户拥有性别信息,其中女性占42.5%(116,135,972),年龄在10至70岁之间的用户为244,521,321。
对于大多数QQ组,其ID,其性别和年龄的成员列表以及其创建日期都是已知的。我们的数据集中年龄最大和最小的组是在22分别于2005年9月9日和2011年3月25 日。因此,我们仅使用截至2011年3月25 日的数据。
数据内容:
相关论文:
[社交网络的实证研究-以腾讯QQ为例](