总统选举中的数字游戏

2016-11-03 17:46
南方周末 2016-11-03
关键词:选民竞选候选人

当总统竞选在社交网络上全方位展开时,其实是在诱导选民社交圈的社会认同;曾经以“为民众赋予权力”为基础的民主制度,在对个人隐私的窥探下,可能变成针对个人的行为操纵。人们以为是自己做出了选择;但其实只是坠入了精心设计好的罗网。

这和商业巨头们对消费者所做的事情很像;让潜在消费者心满意足地掏出钱包和投出选票,在本质上并无不同。

南方周末特约撰稿 叶平安

两年前深受好评的美剧《疑犯追踪》,每一集开场白都是同一句话:“你正在被监视着。”

这不是《1984》里“老大哥在看着你”的简单翻版,而是信息时代的真实写照。今天世界上最不缺的就是人们留下的数字痕迹:每一次注册登录、每一次网络搜索、每一步行走、每一条社交网站上的状态更新,都会被忠实记录,被分析和整理,最终做出针对你的个性化决策。

这些决策不仅用在商业活动、娱乐和营销中,美国大选也不例外。2016年的美国总统竞选被德国《商报》称作“第一次数字化竞选”,在这场盛大的政治活动中频繁出现了许多名词:大数据、社交网络、软件机器人、黑客,甚至是维基解密。两党候选人都组织起了庞大的技术班底,将大量资金花在获取和使用投票者的信息上,并且借助社交网络的力量,将自己获胜的希望最大化。

今天的候选人们已经意识到,以互联网为基础的信息技术可以在政治角逐中起到巨大的作用。人们将自己的信息放在网上,让各种网站记录自己的个人和财产信息,在社交网络上公开发表观点。这些公开的信息可以用来描绘出特定用户的面貌,其准确程度远远超过人口普查的结果。在这些数据中,蕴藏着商业和政治的新机会——虽然并非清晰可见,但是的确是个金矿。

这和传统的美国大选很不一样。2008年奥巴马获选的重要原因之一,正是借助了互联网的优势。在他竞选成功后,《纽约时报》的一篇文章写道:“如果没有互联网,奥巴马就不可能是总统。”奥巴马和选民们在社交网站上的互动,帮助他获得了历史上最多的选民票,以及数额最高的小额募捐资金。

4年之后,奥巴马将在数据应用上的优势再度扩大:在整个竞选活动中,几乎所有行为都有数据做支撑。无论是出席哪位明星的募捐晚宴,在哪些网站和网民互动,甚至是对不同类型的选民采用不同的动员方式——这些都纳入有海量数据支撑的计算当中。按照《连线》杂志的说法,奥巴马在竞选连任时,“对当初帮他入主白宫的69,456,897名美国人姓甚名谁了如指掌。”

所以在今年的美国总统大选中,两党对数据收集、分析、整理和使用的高度重视,也就不算是难以理解的举措了。

数据的力量

在进入新世纪之前,美国总统竞选采用的还是延续多年的方式:电视广告、电子邮件、上门拜访、社区活动和巡回演讲。在2000年的选战中,候选人开始用互联网来募集竞选资金和动员志愿者;2004年,刚刚发展起来的数据挖掘技术就成了竞选中的秘密武器,用来分析特定群体的需要,然后为他们定制针对性的信息和传播渠道。

奥巴马的两次参选真正把数据分析技术带进了竞选活动中。通过与独立数据分析公司的合作,候选人团队可以通过互联网与潜在投票者建立联系,说服他们奥巴马才是美国的正确领导者。在第二次竞选时,数据挖掘已经成了奥巴马团队的战略核心,同时发展出大量说服投票者的技术。

在2016年的美国大选中,新技术被开发出来,过去的传统技术被应用到极致。美国总统竞选从来都是一项注重公众参与的活动,了解公众的需求,获得公众的喜好再加以满足,是入主白宫的根本;现在的候选人们早已意识到,数据技术是必要的途径。

和大多数政治分析家不一样,内特·希尔沃从来不靠自己的政治经验来预测结果。这位前审计顾问和德州扑克职业玩家,因为以算法模型准确预测了2008和2012年的总统大选和各州投票结果而名声大噪,以至于每一次竞选活动之后,报纸杂志都会说:“内特·希尔沃预测认为……”

但是其实内特·希尔沃认为什么并不重要,重要的是他的预测模型如何认为。在个人网站上,希尔沃展示了候选人的当选概率,实时更新——每次有什么公众事件,或者有了新的民意调查结果,这些概率就会变化。这些概率是预测模型计算出来的;而预测模型则建立在数据事实的基础之上。

民意调查结果,一直是总统大选时最倚重的数据来源。在长达半年的总统竞选活动中,会有许多组织通过不同方式进行大量调查,将结果汇总成民意调查数据。“在抽取数据来进行分析上,你需要一个系统的方法。”希尔沃在接受《财富》杂志的采访时说,“民调结果如果是来自纪录更好的民意专家,在系统的权重就会更高。”

这只是希尔沃预测模型的一个侧面。他的模型收集整理来自各个渠道的民意调查数据,根据历史表现调整它们的重要性,靠大量数据抹平单次调查结果中可能出现的偏差,改善模型的准确性并且做出预测——收集、处理、运算、反馈,循环往复,逐渐完善。

在更大的数据规模上,总统候选人们也采用了同样的策略,所依赖的数据来源也不仅仅是民意调查结果,还涵盖了诸多社交网站和公开及私有的数据库。及时收集这些数据,并且帮助制定策略以获得更多选民的技术,成了两党候选人的重要武器。

“我们喜欢用‘武器化这个词……用数据来洞察不同阵营的选票上下变化。”深根分析公司(Deep Root Analytics)的分析主管大卫·西赖特说,这家公司为共和党候选人唐纳德·特朗普提供数据分析支持。在民主党扮演同样角色的是“目标明智”公司(TargetSmart),它的首席执行官汤姆·伯尼尔认为,随着对大数据技术的重视,在今年大选中将不再会出现奥巴马那样独占优势的状况,两党的技术武器变得更加旗鼓相当。

这家公司正在尝试更有创新意义的做法:将美国超过2亿的选民资料,与大型网站与社交网络上的个人账号相互匹配起来。这将是一个巨大的突破;可以将网络行为对应到具体的个体,再和已经构成的、庞大的用户个人数据相结合,最终完全由准确数据来驱动竞选策略。

传统上的美国总统竞选,候选人代表的是利益集团的声音;但是在大数据时代,每一个选民都变得重要起来。由数据驱动的竞选策略,将会帮候选人筛选出吸引特定选民的最佳行为。这意味着电视广告的时段和内容、网站广告的选择和展示时间,甚至是应该用电子邮件还是电话来争取这位选民的选票。

这和商业巨头们对消费者所做的事情很像;让潜在消费者心满意足地掏出钱包和投出选票,在本质上并无不同。这同样也说明,政治家入主白宫的争夺已经进入了“微竞争”时代——胜利取决于是否能比竞争对手更深入地挖掘潜在选民的个性化需求,并且适时满足这些需求。

两方都在争取那些摇摆的投票者,这些人可能因为某个细微的举动、某句话就转投另一个阵营。摇摆投票者们的意识形态、价值观和哲学各有不同,乐于接受的信息方式和接受信息的渠道不同,对候选人的关注点也不一样。英国的剑桥分析公司与共和党签订了价值五百万美元的订单,帮助特朗普分析可能争取到的摇摆投票者,并且改善针对他们的信息传递方式。这家公司的素材来自超市购物记录、电视节目播放记录和互联网浏览记录,为每个用户建立4000-5000个数据点,精确将用户分类,并且设计专门的方案来说服他们。

数据决定了谁将会是下一任美国总统,总统竞选也从政治经验和民众倾向的复杂判断变成了精准微妙的数字游戏。候选人的技术顾问们通过各种活动、数据库和社交网站构建选民数据库,再精益求精地改善算法,以求设计出最可能赢得选民的政策、说辞,甚至是细微的动作和外套的颜色。这是高度定制化的竞选策略,背后隐藏的是对选民详细资料的透彻了解。这些技术可以达到相当精细的程度:今年8月,共和党在一次宣传活动中,通过10万个网页向社交网站“脸书”(Facebook)的用户展示了广告,而其中每一个网页都瞄准了一位不同类型的选民。

投网民所好

在全民上网时代,想要接触到选民不再困难,想要了解他们的需求和观点也不是遥不可及的任务。社交媒体正在成为新的主要新闻源,仅仅从2013年到2015年,通过脸书和推特(Twitter)之类社交媒体来获得新闻的用户比例就增长了30%;在年轻人中,比例还会更高。甚至是今年的候选人辩论也延伸到了社交媒体上,成了全天候的多方对话,而不再只是电视上三小时的激烈辩论直播。

在2016年10月18日晚上最后的总统候选人辩论时,大众不仅关注辩论本身,也同时在关注以推特为代表的社交媒体。数据分析公司实时收集用户的言论,再把结论发给大众。辩论刚刚结束,结果就已经出现:和特朗普有关的言论中,带有负面情绪的内容占了62%;和克林顿有关的言论中,带有正面情绪的占了54%。

社交媒体的互动特性使收集观点和预测投票变成了常规的实时活动,两个阵营都在收集各大社交网站的数据,分析每一次发布的转发和评论,再仔细考虑下一次发布的措辞。在了解选民信息和倾向的基础上,竞选团队和选民甚至可以深入地一对一沟通,从而加深彼此关系,并获得更多选票。

这并非毫无必要:2012年,《自然》杂志上的一篇论文证明,社交网站上的用户在政治倾向上,会受到自己网络好友的影响。对于争取那些还没有决定要投票给谁的选民来说,这一点尤为重要。识别用户之间的社交关系,带动那些摇摆者投向某个方向,也是重要的竞选策略。深根分析公司的大卫·西赖特说:“我们的市场随时有新的数据来源加入。如果我们能够利用社交媒体数据来更好地理解人们消费方式、人们与社交媒体连接的方式,这将会更有价值。”

“更有价值”意味着更多了解,更多投其所好。这也许不全然是件好事。

偏离选举的初衷

两亿多投票选民的个人信息和爱好倾向,在大量计算设备的加持下,够得上“大数据”的标准。但是它能做出正确的决策,能给人们带来想要的领袖吗?人们只是希望如此罢了——大数据并非预言家,也不是万灵丹。

2009年,谷歌公司的研究人员在《自然》杂志上发表论文,介绍了他们开发的“谷歌流感趋势”系统。这套系统的假设很简单:当人们搜索与“流感”有关的关键词时,很有可能已经患上流感了。它的原理也不算复杂,只是按照地区和时间筛选出搜索“流感”和类似关键词的搜索记录,根据搜索量的大小来判断流感的严重程度、发展情况和涉及地区,然后预测它的发展趋势。

在当时,这是一套准确率相当高的预测系统——和疾控中心发布的真实结果相关度高达96%。疾控中心发布流感预测结果需要两周,而谷歌流感趋势系统只需要一天。它曾经被视为大数据的胜利;但是几年后突然失效了。在2012年12月的流感爆发中,这套系统给出的预测,比疾控中心的实际数据高了一倍。

谷歌流感预测系统过于关注相关性而非因果性,追踪现象而非原因,最终谬之千里。这种情况在大数据应用中并不少见。人们总是一厢情愿地认为已经收集到了足够多的数据,就足以反映世界的全貌,但事实并非如此。事物之间的隐秘关联甚至难以被意识到,当然并不会被全部收集和分析出来。

即使能够收集选民的数据,也不意味着会得出准确的结果。在科学实验中,为了得出客观的结果,观察者不应该介入系统当中;但选举过程并非科学实验,而对数据的挖掘和展示本身也会影响到整个系统。每次预测的变化都会引发大量媒体报道和社交网络话题,这些话题会影响选民的投票意愿,继而又影响预测算法的结果。这样的效应可能会导致整个系统都偏离了方向。

最重要的是,以数据驱动的竞选策略,可能会偏离选举制度的初衷。通过对选民分类来区别对待,让政治变得更像是商业化的营销活动。脸书在两年前的一项实验证实,可以通过控制用户接收到的信息流来操纵用户的情绪。当总统竞选在社交网络上全方位展开时,其实是在诱导选民社交圈的社会认同;曾经以“为民众赋予权力”为基础的民主制度,在对个人隐私的窥探下,可能变成针对个人的行为操纵。人们以为是自己做出了选择;但其实只是坠入了精心设计好的罗网。

这并不奇怪。在奥巴马的第二个任期中,世界变化得更快了。今天人们对网络生活的态度、对信息工具的依赖,以及对网络渠道的重视程度,都和四年前不能同日而语。信息技术正在影响我们思考和做出决策的方式,而“影响他人”也已经有了全然不同的含义。

这让2016年的总统大选,变成了全新的开始。政客们和他们的竞选团队固然会更了解选民们的个人信息,但也会更清楚民众的愿望;数据虽然提供了更多诱导大众的工具,但也让政客们更多受制于民众真正的需要。

候选人们已经意识到,他们所身处的世界,信息正在变得更公开透明。技术搭起了桥梁,让候选人和选民不再是彼此陌生的概念;政客们将会更认真地考虑民众的想法,而选民们将会更乐于发出自己的声音。这应该是双赢吧。

猜你喜欢
选民竞选候选人
Task 6
第十五届“中国大学生年度人物”入围候选人展示(以姓氏笔画为序)
竞选美德好少年
庆城县南庄乡扎实开展选民登记工作
竞选班干部
第一次竞选大队委
首届启功教师奖候选人名单
阅读理解两则
“失事”与“不幸”