大数据语境中的民意：研究路径与趋势（上）

2016-05-30 02:41沈菲王天娇

教育传媒研究 2016年2期

沈菲　王天娇

【内容摘要】本文通过对比传统语境与大数据语境民意研究的异同，尝试对大数据民意挖掘的主要路径和趋势进行梳理，认为，一方面，合理使用大数据可以提高政府的民意收集效率、提高政府效率和社会的开放度；另一方面，过度使用大数据榨取商业价值，可能会限制个体的选择自由并侵犯个人隐私。总之，大数据是工具，如何使用才是关键。

【关键词】民意研究；大数据；路径；趋势＼

一、传统语境中的民意研究

现代意义上的民意调查，普遍认为可追溯到19世纪20年代美国总统竞选期间的“草根调查”（straw poll）①。早期美国的政党政治孕育了各党派内部在总统选举前的投票意愿清点。但各自党内的票数清点，无助于了解对手的民意支持情况，这就为媒体作为第三方机构介入民调领域提供了契机。

1824年，美国特拉华州当地的两家报纸在威尔明顿市展开了总统候选人的喜爱度调查。②此次调查的效果虽然并不理想，但它开启了美国报业收集民意、预测选举的时代。在此后的一个多世纪里，美国出现了大量调研机构，包括报纸、杂志等媒体，参与到政治态度、选民倾向的调查中来。③

最广为人知的民意调查或许要数19世纪二三十年代美国《文学文摘》杂志对美国大选的一系列预测。当时，该杂志秉承“样本量越大，调查结果越准确”的思路④，按汽车牌照和固定电话记录中的邮寄地址，给上百万人邮寄并回收了“模拟选票”。《文学文摘》杂志用这种方法多次成功预测了美国总统竞选结果，确立了邮寄回收问卷方法在民意研究中的地位。然而，盲目追求大样本的民意调研在1936年被证实存在严重缺陷。

1935年，盖洛普博士成立了美国民意研究所（即盖洛普民调公司的前身），并誓言该所的民意调查不接受任何利益集团的赞助。1936年，《文学文摘》杂志用200万张模拟选票预测兰登当选总统。盖洛普则利用配额抽样法，仅从全国抽取了1000个样本就成功预测了罗斯福当选。⑤《文学文摘》杂志随后停刊，而现代民调渐渐引入抽样、统计推断等概念，进入了使用小规模科学抽样代表性数据的时代。

在过去的大半个世纪，随着媒体技术的发展，基于问卷和抽样的民意调研方法日趋便捷与多元。从早期的入户面访和邮寄问卷，到20世纪70年代中期随着美国家庭电话拥有量激增而产生的电话调查⑥，再到计算机技术带来的各种民调系统，包括计算机辅助电话访问系统（CATI），计算机辅助面访系统（CAPI）、计算机辅助自主访问系统（CASI）和計算机辅助网络调查系统（CAWI）等。

问卷电话调查法对量化社会科学研究做出了巨大贡献，不过这种数据收集方式正在受到多方面的挑战。根据美国皮尤研究中心的统计，电话调查的接触率从1997年的90%下降到2012年的62%，合作率从42%下降到14%，而应答率则从36%下降到9%。⑦除了应答率的大幅下降直接影响调查数据的质量，电话调查的数据收集成本也十分高昂。有研究指出，从2000年到2004年，在爱尔兰进行电话调查一个有效样本的成本已从4.48欧元飙升到15.65欧元。⑧

互联网问卷调研的出现，给传统民调带来了新的生机。网络问卷调研成本低、回收快、资料汇总过程中不易出现人工误差。特别是在敏感问题的数据收集上，网络调研更具优势。克鲁托（Kreuter）等人⑨发现，相较于电话调查，人们更愿意在填答网络问卷时回答令人尴尬的问题，也更易于承认自己做过的社会不良行为（socially undesirable behavior）。网络调研平台还能嵌入多媒体资料，利用后台数据库收集填答问卷的行为数据。这些功能不仅有助于鉴别问卷填答的质量，也可以直接服务于特定的研究主题。例如，格瑞特（Garrett）和斯特劳德（Stroud）⑩利用网络实验，复现了网民在网络新闻接触过程中的主动选择行为——通过操纵人们“看到”的新闻内容，更清楚地了解了选择性接触行为及其背后的动机。

网络调查虽然高效，但在样本和成本两方面也有其局限性。首先，大量网络调研使用的是方便样本，即在各种网络空间设置问卷链接，等待感兴趣及有时间的网民点击填答。如此样本未必符合目标人群的人口统计特征，且样本框的缺失也使得应答率无从计算。更严谨的做法可以是有偿借助专业网络调研网站的样本库（如问卷星、SurveyMonkey、SSI等），“配制”出符合特定人口统计特征的样本（如性别比例、年龄分布、收入结构等）。但由于此类服务的费用往往随配制条件的增加和样本量的扩大而提高，因此要得到高质量的网络调研样本，成本依旧不菲。

随着计算机硬件技术的发展，存储、传输、处理数据的能力和速度与日俱增。今天的数据生产速度已经远远超过了人类历史上的任何时期。截至2012年，全球每天生产的数据量达2.5亿字节（billion gigabytes），且当时人类90%的数据是在2010-2012年的两年间产生的。有分析指出，海量数据约25%是结构化的，剩下的75%是非结构化的文本、音频和视频。人类社会生活产生的海量数据是否在民意研究方面有其价值？答案是肯定的。传统的民意调研机构已经开始积极探讨和尝试使用互联网社交媒体进行民意线索的收集；新兴科技企业则更走在创新的前沿，提出大数据环境下民意研究的新理念。云计算服务提供商、大数据技术的领军企业Cloudera，曾呼吁民意研究者“停止以提问方式获取信息，而着手分析公众在网络上的表达和行为”。毫无疑问，大数据时代的到来重新提供了民意研究的思路、方法与手段的机遇。

二、“自然”数据和“被动”参与者

对大数据的定义，学界和业界一直争议不断。目前认可度较高的是源自3V理念的4V模型。微软、IBM以及美国国家标准技术研究所目前均采用这一定义。早在2001年，道格·莱尼（Doug Laney）就以3V理念对大数据做了限定。3V指的是海量（volume）、快速（velocity）和多样（variety）。其中，“海量”即数据的量级空前巨大；“快速”指的是数据产生的速度极快，这要求及时完成收集和分析工作，才能“抓住”源源不断产生的新数据；“多样”意即数据类型的多样化，这既包括了传统研究中用到的结构化数据，也包括了大量的半结构化（semi-structured data）和非结构化的数据（unstructured data），如视频、音频、网络文本等。

此后10年间，3V一直是微软、IBM等公司沿用的大数据定义。直到2011年，國际数据资讯公司（IDC）在3V的基础上提出了第四个V，即“价值”（value）。 “价值”强调的是通过快速抓取技术和分析技术，高效地从海量数据中提取有价值的信息。正如Facebook的副总工程师杰·帕瑞克（Jay Parikh）所言，能否提取到有实用价值的信息，也成为区别“大数据”（big data）和“一大堆数据”（a bunch of data）的主要依据。

无论是3V还是4V，都是自然科学和工程学界的定义视角。对社会科学研究者而言，大数据具有两个极其重要却常被忽视的特性。第一，大数据通常是二手数据，数据挖掘者一般不参与数据的生产和设计。肖恩·泰勒（Sean Taylor）从概念上区分“找到的”数据和“制造的”数据之间的区别，并指出：大数据的产生不是以研究和数据挖掘为目的，而是用户的行为、表达被研究者“找到”后形成的数据。第二，大数据研究的数据生产者是“被动”的研究参与者，这与传统调研方式中，参与者有意识的参与特定研究的调研模式不同。对民意研究而言，被动式的数据采集方式（如内容分析与历史文献分析）并非在大数据时代才出现。

“第一次世界大战”期间，法国通信管理局就曾经通过审阅士兵家书来探查士气，以求把握战场民意动态。历史学家经常通过历史材料梳理民情，理解特定的历史事件。

1937年，在英国，一位记者、一位人类学家和一位纪录片导演共同成立了“大量观察法”（mass observation）社会研究小组，旨在记录英国社会的各个角落在自然状态下各类人物的对话。而传统的民意调研，提问是数据收集的核心——研究者通过文字提问，参与者提供答案。大数据则需要研究者灵活使用“被动的”研究参与者，接受杂乱无章的数据和新的统计技术。（未完待续）