该数据集标识了收集到的3800万条推文,用于分析与2012年美国最新发布的社交媒体消息有关:2016年1月29日。
在线和社交媒体为公众讨论众多主题(包括政治对话)提供了越来越受欢迎的论坛。这些讨论的数字记录补充了民意测验的传统方法,并提供了更好地了解整个社会舆论的机会[ 1 ]。与传统方法相比,这些资源具有规模优势。全球有数十亿活跃参与者,在线和社交媒体有可能捕捉到很大一部分人口所揭示的行动和陈述的思想。这些来源还具有低延迟的优势。实时在线和社交媒体数据允许在事件发生时进行连续分析,并进行时间粒度的事件后分析对于隔离关键子事件的影响至关重要。
近年来,许多研究都集中在理解在线政治观点的表达,并探索将其用作调查和基本选举数据的替代数据收集方式,以此来预测选举,确定支持和相关任务。结果好坏参半。例如,虽然许多文献报道社交媒体的措施和政治结果[之间的正相关关系2,3,4 ],别人批评自己的方法和报告相互矛盾的,阴性结果[ 5,6,7]。这项研究中存在潜在问题的两个主要原因。首先,它经常关注标准数据和方法已经非常精确的选举结果。其次,它并不能说明数据随着技术及其用户的发展而具有独特的非平稳性,因此也不能解释数据如何与诸如支持,投票的可能性和捐赠之类的结果相关联。学术研究的一个明确定义的途径是改善标准的客观结果变量,并且可以合理地假设此新数据可以改善这些指标。但是,鉴于这些矛盾的结果,值得探索可能更适合此新数据的新技术和新结果变量。
在本文中,我们没有尝试重现传统任务,例如根据在线和社交媒体数据预测选举结果,而是退后了一步,并询问该数据与传统调查数据有何不同:
如果我们假设在线和社交媒体数据是某些假设的伪调查方法的输出,那么该方法与传统调查技术有何不同?
我们认为,对这个问题的严格回答(强调在线和社交媒体数据与金本位制调查方法之间的根本差异)可以为使用此类数据提供新的路线图。如果早期的论文着重于像调查数据那样对待数据,那么本文将定义该假设的界限。为此,我们将据我们所知,分析用于此目的的最大语料库是什么:在2012年选举周期内,一大批网络用户的全面搜索活动以及整套推文。我们将分析重点放在(伪)调查方法的两个基本特征上:(1)人口动态和参与伪调查。(2)伪调查中讨论主题的动态。
通过说明与传统调查方法相比,参与和主题覆盖范围如何更动态和更难以预测,我们的结果超出了以往的研究范围。除了证明在线和社交媒体平台的参与者不能代表离线人群(以性别和地理位置等主要人口为特征)之外,我们的研究还显示,参与者的参与每天(甚至是每小时)也会发生巨大变化,尤其是在关键事件周围。换句话说,在在线和社交媒体数据的实时性最能提供及时的见解的时代,参与者基础的组成变化最为明显。
结果,我们发现在线和社交媒体活动的功能就像一个“选择加入”面板,不同用户在不同时间以不同程度互动。现有的大多数研究都独立地计算了每个参与活动,而忽略了用户身份信息。如果这是一项调查,那将相当于允许用户根据需要进行多次响应。我们探讨了将在线人群视为一个小组而不是一个横截面的价值,因为一小部分用户(但人数众多)会反复讨论相同的主题并主导对话。
通过研究假想调查中参与者的主题,我们发现搜索和发推文的人群在不同时间贡献了不同类型的信息。具体来说,随着活动从内容共享转移到活动评论,他们讨论的主题会在重大事件中转移。如果这是一项调查,则相当于用户在不同时间回答系统上不同的问题。
简而言之,如果要将在线和社交媒体数据视为调查,则必须将它们确实视为不完善的调查。传统的调查遵循严格的程序,提出同样的问题-自1930年代后期以来,盖洛普(Gallup)就向其受访者提出了同样的总统批准问题-对代表人群的随机样本重复进行剖析。但是,搜索和社交“调查”实质上是在对自愿选择参与者选择性地回答自己选择的问题的各种非随机样本进行民意测验。
尽管传统调查非常严格,但仍然存在四个众所周知的错误:样本,覆盖率,不答复以及调查设计/执行;通过在这种情况下考虑在线和社交媒体,我们可以更好地了解其潜在价值。总的来说这就是所谓的调查总误差,如在深度在文献中所定义[ 8,9]。抽样误差是仅对一部分人口进行抽样的结果,覆盖误差是无法覆盖全部人口的结果,无响应误差是人口中的某些人未回答调查问卷,而调查误差是所有来自调查的设计/执行。在线和社交媒体数据样本量巨大,尽管缺少互联网无法访问的普通人群中的大多数人,但其覆盖面对于大多数人群来说也很强大。传统调查的回应率低于10%,而选举调查的回应率却下降[ 10],在线和社交媒体数据的等效响应率要低得多,因为在任何一天,只有一小部分的在线用户选择讨论任何主题。此外,由于研究人员解释数据无法控制问题,排序等,因此调查错误的情况要严重得多。因此,即使考虑传统调查的总调查错误的真实估计,他们在调查所提出的问题上的误差也可能较小。直。
研究人员应着重使用在线和社交媒体数据来获取具有错误优势或成本优势的结果,从而阻止进行调查。这是由于三个原因。
首先,搜索和社交媒体数据可以洞察不同在线人群之间的兴趣和参与程度。重要的是,询问谁在做出响应以及他们何时进行响应以及表达的主题和观点很重要。这同样适用于个人,可能会出于兴趣或支持而进行微观定位。用调查的术语来说,这意味着对于此问题,在线和社交媒体数据的调查误差较低,因为我们知道在线和社交媒体用户在讨论某个主题时正在回答的一个问题是他们是否对该主题感兴趣。此外,研究人员可以使用非代表性调查的最佳实践将数据重新加权为固定或代表性目标人群。
其次,在线和社交媒体数据可以解释为面板反应,而不是横断面,在纵断面中,可以通过纵向研究个人意见和行为的转变来获得见解。我们的详细数据显示了个人级别的重复操作。使用面板可以提供关于事件在整个过程中对话如何变化的独特见解。面板在大多数传统调查环境中的价格过高,将大多数传统调查限制在横截面上,因此,自然发生的面板调查,无论多么不完美,总比没有面板要好。
第三,这种方法可以在事后构造这种不完善的面板,在事后构造中,极易出错或传统测量无法做到。例如,在传统调查中,受访者在上次总统选举中投票的答案与现任总统当前的支持率高度相关[ 11 ]。而且,正如[ 12 ]在2013-2014年土耳其的Gezi抗议活动中所展示的那样,社交媒体数据的事后面板构造使研究人员能够拥有一个不完善但有用的数据集,以检查某事件的情绪,而这一事件太不可预测了,无法创建事前调查。
在线和社交媒体的规模和实时性有望将我们的见解范围扩展到新问题和领域。本文提供了对大量数据样本的独特描述,以及如何处理此类数据的新框架。我们的研究详细分析了为什么难以理解对在线和社交媒体数据的选择以及讨论隐式回答的问题,这是预测和控制这些问题之前所必需的。通过从调查研究的环境中应对这些挑战,我们可以提供一个框架,在调查研究中建立的文献基础上处理无人代表,专家组等问题。未来工作的方向说明了这些数据如何补充传统调查。