大数据研究经典的研读与批判——读维克托·迈尔-舍恩佰格《大数据时代》有感*

2016-03-24 08:09:49
关键词:辨析大数据时代伦理

谭 天

(暨南大学 新闻与传播学院,广州 510632)



大数据研究经典的研读与批判
——读维克托·迈尔-舍恩佰格《大数据时代》有感*

谭天

(暨南大学 新闻与传播学院,广州 510632)

摘要:作者在研读维克托·迈尔-舍恩佰格《大数据时代》后,对舍恩佰格的三个主要观点展开讨论并提出质疑,认为随机样本和全体数据同样需要,精确性和混杂性各有所用,相关关系离不开因果关系。文章还介绍了国外学者关于大数据伦理的讨论。

关键词:大数据;辨析;伦理

如今说起新媒体和互联网,必提大数据,似乎不这样说就OUT了。而且人云亦云的居多,不少谈论者甚至还没有认真读过这方面的经典著作,如舍恩佰格的《大数据时代》(迈尔·舍恩伯格、库克耶著,盛杨燕、周涛译,浙江人民出版社 2013年出版)。维克托·迈尔-舍恩伯格何许人也?他现任牛津大学网络学院互联网研究所治理与监管专业教授,曾任哈佛大学肯尼迪学院信息监管科研项目负责人。他的咨询客户包括微软、惠普和IBM等全球顶级企业,他是欧盟互联网官方政策背后真正的制定者和参与者,他还先后担任多国政府高层的智囊。这位被誉为:“大数据时代的预言家”的牛津教授真牛!那么,这位大师说的都是金科玉律吗?并不一定,读大师的作品一定要做些功课才好读懂,同时也须具备批判意识,如果能做足功课又具备相应的理论功底,就能与之进行一场思想上的对话。

一读

《大数据时代》是国外大数据系统研究的开山之作。舍恩伯格分三部分来讨论大数据,即思维变革、商业变革和管理变革。在第一部分“大数据时代的思维变革”中,舍恩伯格旗帜鲜明地亮出他的三个观点:一、更多:不是随机样本,而是全体数据;二、更杂:不是精确性,而是混杂性;三、更好:不是因果关系,而是相关关系。对于第一个观点,我不敢苟同。一方面是对全体数据进行处理,在技术和设备上有相当高的难度;另一方面是不是都有此必要,对于简单事实进行判断的数据分析难道也要采集全体数据吗?我曾与香港城市大学的祝建华教授讨论过。祝教授是传播学研究方法和数据分析的专家,他认为一定可以找到一种数理统计方法来进行分析,并不一定需要全部数据。联系到舍恩伯格第二个观点中所说的相关关系,我理解他说的全体数据不是指数量而是指范围,即大数据的随机样本不限于目标数据,还包括目标以外的所有数据。我认为大数据分析不能排除随机抽样,只是抽样的方法和范围要加以拓展。

我同意舍恩伯格的第二个观点,我认为这是对他第一个观点很好的补充,这也是对精准传播和精准营销的一种反思。“大数据的简单算法比小数据的复杂算法更有效。”更具有宏观视野和东方哲学思维。对于舍恩伯格的第三个观点,我也不能完全赞同。“不是因果关系,而是相关关系。”不需要知道“为什么”,只需要知道“是什么”。传播即数据,数据即关系。在小数据时代人们只关心因果关系,对相关关系认识不足,大数据时代相关关系举足轻重,如何强调都不为过,但不应该完全排斥它。大数据从何而来?为何而用?如果我们完全忽略因果关系,不知道大数据产生的前因后果,也就消解了大数据的人文价值。如今不少学者为了阐述和传播其观点往往语出惊人,对旧有观念进行彻底的否定。

世间万物的复杂性多样化并非非此即彼那么简单,舍恩伯格也是这种二元对立的幼稚思维吗?其实不然,读者在阅读时一定要看清楚他是在什么语境下说的,不要因囫囵吞枣的浅读而陷入断章取义的误读。比如说舍恩伯格在提出“不是因果关系,而是相关关系。”这一论断时,他在书中还说道:“在大多数情况下,一旦我们完成了对大数据的相关关系分析,而又不再满足于仅仅知道‘是什么’时,我们就会继续向更深层次研究的因果关系,找出背后的‘为什么’。”由此可见,他说的全体数据和相关关系都在特定语境下的,是在数据挖掘中的选项。

大数据研究的一大驱动力就是商用。舍恩伯格在第二部分里讨论了大数据时代的商业变革。舍恩伯格认为数据化就是一切皆可“量化”,大数据的定量分析有力地回答“是什么”这一问题,但仍然无法完全回答“为什么”。因此,我认为并不能排除定性分析和质化研究。数据创新可以创造价值,这是毫无疑问的。舍恩伯格在讨论大数据的角色定位时仍把它置于数据应用的商业系统中,而没有把它置于整个社会系统里,但他在第二部分大数据时代的管理变革中讨论了这个问题。在风险社会中,信息安全问题日趋凸显,数据独裁与隐私保护成为一对矛盾。如何摆脱大数据的困境?舍恩伯格在最后一节“掌控”中试图回答,但基本上属于老生常谈。我想,或许凯文·凯利的《失控》可以帮助我们解答这个问题?至少可以提供更多的思考维度。正如舍恩伯格在结语中所道:“大数据并不是一个充斥着算法和机器的冰冷世界,人类的作用依然无法被完全替代。大数据为我们提供的不是最终答案,只是参考答案,帮助是暂时的,而更好的方法和答案还在不久的未来。”[1]谢谢舍恩伯格!让大数据讨论从自然科学回到人文社科。由此推断,《大数据时代》不是最终答案,也不是标准答案,只是参考答案。

然而,并不是所有的人都能看懂《大数据时代》。有一位资深新闻学者读了《大数据时代》后坦然道,没看懂。然而他却断然道“技术决定论”是不对的。我说他是瞎说。他还问我为什么呀?我说您不是说没看懂吗?其实这是一本工具理性的书,并没有太多论及价值取向。因此,要读懂此书必须具备一些数据科学的基本知识和基本概念,比如说什么叫数据?什么叫大数据?数据分析与数据挖掘的区别,数字化与数据化有什么不同?读前做些功课,读起来就比较好懂了。

再读

概念是研究的逻辑起点,“大数据”到底是什么?在百度上搜索到的解释是,“大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。”大数据的4V特点:数量(Volume)、速度(Velocity)、品种(Variety)和真实性(Veracity)。但舍恩伯格认为大数据并非一个确切的概念。他在书中的一段诠释更具人文色彩和社会意义:“大数据是人们获得新的认知、创造新的价值的源泉;大数据还是改变市场、组织机构,以及政府与公民关系的方法。”[2]其实,概念的界定要看研究者从哪个角度来研究它而定。

科学家的治学态度是严谨的,而人文学家更具有想象力。一些对大数据不甚了然的人往往夸大了它的作用,甚至把它神化。舍恩伯格认为大数据的核心是预测。“大数据不是要教机器像人一样思考。相反,把数学算法运用到海量的数据上来预期事情发生的可能性。”[3]舍恩伯格甚至不回避大数据所产生的负面影响,他在第七章里谈到让数据主宰一切的隐忧。我觉得这是实事求是的科学态度。在量子力学里有一个测不准原理:一个微观粒子的某些物理量(如位置和动量,或方位角与动量矩,还有时间和能量等),不可能同时具有确定的数值,其中一个量越确定,另一个量的不确定程度就越大。它是解释微观世界的物理现象,信息社会中的大数据会不会也有类似情况呢?如果我们再把凯文·凯利的《失控》对比来读的话就更有意思了,这样我们对整个物质世界及至人类社会就有了更全面、更深刻的洞察。从物理王国到生物世界,再到信息社会;从公共卫生到商业应用,从个人隐私再到政府管理,大数据无处不在。与此同时,从哪个角度探讨用什么方法研究,舍恩伯格都不会忘记大数据服务人类、造福人类的终极目的和价值所在。“大数据并不是一个充斥着运算法则和机器的冰冷世界,其中仍需要人类扮演重要角色。人类独有的弱点、错觉、错误都是十分必要的,因为这些特性的另一头牵着的是人类的创造力、直觉和天赋。偶尔也会带来屈辱或固执的同样混乱的大脑运作,也能带来成功,或在偶然间促成我们的伟大。这提示我们应该乐于接受类似的不准确,因为不准确正是我们之所以为人的特征之一。”[4]用中国话来说就是“人无完人”,人类在收获大数据带来的红利的同时也要承受它带来的危害。这不是对立统一的辩证唯物主义,我把它看作带着欧洲批判学派色彩的科学发展观。

问题是研究的价值基点,“大数据”不是舍恩伯格研究的问题,而是研究对象,他研究的是数据处理和信息管理问题,同时也讨论信息安全和网络伦理问题,还引发哲学上的思考,哲学史上争论不休的世界可知论和不可知论转变为实证科学中的具体问题。可知性是绝对的,不可知性是相对的。“大数据”之所以为大是因为它引发人类生活、工作和思维的大变革。从这个意义上来看,《大数据时代》的意义不仅在于它讨论了若干重大问题,而且对研究者开出了一个问题清单,从而引发更多人来探讨这些有趣的问题。

《大数据时代》实际上主要是一本讨论数据挖掘的书,数据挖掘与数据分析是不同的概念,数据挖掘一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性的信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。而数据分析的目的是把隐没在一大批看来杂乱无章的数据中的信息集中、萃取和提炼出来,以找出所研究对象的内在规律。数据挖掘主要运用计算机来进行处理,而数据分析既要用计算机也要人工分析,是计算机科学与人文价值判断的统一结合。换言之,《大数据时代》并不是一本讨论大数据所有问题的书。

《大数据时代》也是一本讨论互联网发展的书,从数字化到数据化,同时有浓厚的未来学色彩。当文字变成数据,我们进入了互联网;当方位变成数据,我们进入了物联网;当沟通变成数据,我们进入了下一代互联网。一切可量化,万物皆数据,正是当今互联网世界的真实写照。面对于这样的世界及世界的未来,在《大数据时代》出现最多的词是“思维”和“方法”,因此也可以把这本书视为思维科学应用研究的书。

三读

2013年国庆节前一天,中共中央政治局常委们来到中关村搞集体学习,调研、讲解、讨论创新驱动发展战略。包括习近平总书记、李克强总理在内的七位常委全部出动来到中关村,这是历史上没有过的。百度、联想和小米的负责人,有了一次直面最高层汇报工作的机会。雷军和柳传志,讲解的都是本公司的各种情况,李彦宏则没有讲百度的广告业务发展得如何好,而是讲起了大数据。在讲解中,李彦宏认为大数据有两个重要价值:一是促进信息消费,加快经济转型升级;二是关注社会民生,带动社会管理创新。这些价值也是目前党和国家领导人最为重视的,可见《大数据时代》既有理论价值也有现实意义。

当今大数据正在影响着新闻传媒业,大数据新闻、大数据营销、舆情分析、受众(用户)研究……数据分析师变身新闻编辑,大数据正改变新闻生产流程,大数据在创造传媒新业态。“不妨想象一下,随着数据的进一步增加,坐拥用户资源的新媒体完全有能力通过数据挖掘,分析用户癖好,向电视台定制一部电视剧甚至向好莱坞定制一部电影。到那个时候,电视台一如那些家电厂商们,曾经产业链的上游‘王者’,将彻底成为一个产业链最低端的内容代工厂。”[5]然而,情形也远没有人们想象的那么乐观。李彦宏指出目前多数所谓的大数据公司其实还是空壳子,因为数据还没有完全开放。他认为必须在政府层面上推动才能真正实现大数据的开发与利用。我在讨论大数据时代的舆情监测与预警时说道:“经典自由主义传播学说对媒体的定位:秉持公正、客观立场的媒体被称为代表公众监督政府行为的‘看门狗’。其实,媒体既是公众利益也是国家利益的‘看门狗’。要看好门就要瞭望、洞察社情民意,传统媒体信息反馈渠道单一,视野、人力十分有限。而开放互动的新媒体平台却大有可为。作为公共信息发布平台的微博可以成为政府及时了解社情民意,从而选择正确治理路径的‘导盲犬’。”[6]遗憾的是目前我国的六大数据平台都没有能够开放,基础数据还不能实现共享,真正的大数据时代还没有到来。

与国内不少教科书写法的专著相比,国外的书写得更有趣,尤其是大学者写的,不仅视野开阔,而且能够深入浅出。《大数据时代》不到22万字,却有上百个学术和商业的实例,丰富翔实的例子让读者感到通俗易懂,深奥的理论看起来也不费劲。这恐怕与舍恩伯格既是学者也是专家,既有理论又有实践有关。反观我们些学者故弄玄虚而示高明,实际上是把读者拒之门外。我觉得优秀的科学家也应该是一个科普作家,优秀的学者也应该是一个不错的传播者。当然国外学术著作也有一个翻译问题,这本书译得还不错。此外,《大数据时代》还附有不少IT界名流的推荐意见,虽是出版商的发行所为,但对解读此书也不无益处。

除了《大数据时代》,舍恩伯格还有一本《删除》也值得一读。要研究大数据不能只读一本书,该书译者周涛教授还推荐了三部国内出版的大数据方面的专著:《证析》《大数据》《个性化:商业的未来》。相比《大数据时代》的宏大视野,这些书就大数据某一局部问题给出深刻的介绍和洞见。我也推荐读一读中国工程院李国杰院士和中科院计算所副总工程学旗合写的文章《大数据研究:未来科技及经济社会发展的重大战略领域——大数据的研究现状与科学思考》。

虽说开卷有益,但是由于每个人的时间、精力有限,对于一个研究者来说,不读什么书甚至比读什么书更重要。我认为书有三种:有用的书,主要是应用类的专业书;无用的书,主要是形而上的思想类;无字的书,人间百态,社会现实。可偏重但不应偏废。对于学生来讲这三类“书”都该读一些,对于研究者来说则要读哪些解决关键问题的书,《大数据时代》就是这样一部书。当然,并非每一个读者都是研究大数据的,但进入大数据时代,还有什么东西与数据完全没有关系呢?麦肯锡全球研究机构认为,未来十年里有12项对经济发展产生重大影响的技术,其中包括三项新媒体技术:移动互联网、物联网和云计算。这三项新媒体技术都与大数据密切相关,而这些新媒体新技术的发展都影响着当今的新闻传播业。阅读此书至少给我们研究新闻传播学带来一些启迪。我觉得一本书的价值不在于让你顶礼膜拜,而是引发广泛而深入的讨论。

并读

显然,不能就大数据论大数据,听听其他学者从价值理性层面来讨论大数据或许更有助于我们对大数据的了解。大数据计算方法大大扩展了人们在计量、识别及求知事物方面的能力范围。但与此同时,它也给学术研究者带来一系列政治及伦理上的难题。[7]两位著名的网络研究者Danah Boyd 和 Kate Crawford早在2011年就曾发表《“大数据”的关键问题》一文。作者列举了几个由“大数据”方法所带来的核心问题,即大数据如何改变了“对知识的定义、对客观性与精确性的要求、语境与意义的生成、数据的接触权限以及实践中的伦理与责任”等。最新一期的Media Culture & Society邀请五位传播学者结合自己的研究将“大数据”问题的建构与隐私、知识、权力、控制等全球性议题相勾连,开展专题讨论。

Boyd和Crawford在《大数据的关键问题》中强调了“对‘大数据’接触的限制将造成新的数字鸿沟”。这一观点得到了Anita Chan的认同,其认为由于“大数据”方法在数据获取上弥补了人为数据收集难度大、费时长、耗材高的缺陷,因此吸引了科技领域的研究兴趣,但这也使得一些关键的问题被遗漏。比如,人们往往认为“大数据”的获取是容易的,却忽略了真正庞大而关键的社交数据(如交易数据)只有社交网络公司自己才能获取。因此,数据的所有权与商业的规则正影响着相关研究的内容与形态。有能力的研究者们通过资本或所有权获得大数据,并做出和无法获取这类数据的研究者们完全不同的研究成果来。长此以往,这一数据接触壁垒将影响“大数据”科学发展的趋势。同时,作者认为同样难以预估的,是大数据接触壁垒所引发的后果,是“大数据”获取实现之后将会发生什么:当学术机构与公司以研究为名合作研究“大数据”后,他们之间的伦理边界将如何确定?

与如火如荼的“大数据”相对的方法应该叫什么?在Andre Brock看来,与其称之为略带轻蔑之意的“小数据(Small Data)”,不如因其对复杂意义的深度阐释而称其为“深数据(Deep Data)”。文章开门见山地抛出观点,认为阐释(interpretation)才是数据分析的核心所在。只有在研究者承认数据库的起源、偏好型的选择及信息科技中的符号性资源都隐藏着某种意识形态,并开始对其检视时,数据分析才最为有效。Boyd与Crawford的经典文本批评了以收集推特数量来佐证研究效度的思路,质疑此类研究中“用户”“最低限度活跃用户(minimally active users)”“独立用户(unique users)”等概念是否被厘清。而在Brock看来,此类问题甚为普遍。他指出,将用户行为界定为“在特定平台上交流”脱离了此间蕴含的文化与技术机理,在“大数据”研究中,这样的概念显然不能阐明用户表达动机的多样性。因此作者在文末倡议研究者们不要只对网络行为做工具性的分析,相反,应该有机地整合批判性的科技文化理论框架,以此来解读用户的网络行为与生产内容。“人都生存于特定的文化之中,因此‘大数据’研究不是特定数据的转化,在形式与内容上,它都指涉着某种道德的辨析。”

来自中国香港的学者邱林川以其两年前在阿里巴巴参观时的经历开头:在公司内部的某个房间里,一张巨大的屏幕以地图的形式呈现着淘宝网发生实时交易的地点。透过屏幕,能看到中国沿海及内陆在交易量上的巨大差异。这一切,是正在购买商品的用户们所完全不知悉的。“数据的易得并不意味着它就是符合道德的”,Boyd和Crawford如是说。邱林川也认为“大数据”的伦理问题必须以一种全球性的、联系的视角去看待,尤其在信息科技迅猛发展的中国,这类问题更为明显,也更肆无忌惮。相比西方,监管的缺失使得中国的数据挖掘者们更肆无忌惮地绕行法律、挖掘和滥用数据信息。因此,在邱林川看来,数据在何种形势下以何种目的进行开发,才是真正的伦理问题。对比起强权政府的信息管控,日渐崛起的商业力量对数据的不法利用同样可怕。它们通过对用户信息进行商业性的分析,调整着相关的法律应对策略,在讨巧地实现商业效益的同时,使用户在自己社交行为的选择上逐渐失去主动权。作者将上述现象类比为“第二次圈地运动”,即通过知识产权对弱势者在信息、图像与思想上的又一次劫掠。在作者看来,当下的问题实则是一体两面的。即一方面要寻求在数据浪潮中自保,另一方面则应思考如何规范政府及商业力量的权限。

学者们还对数据与知识定义、数据与语境问题进行了探讨。笔者认为,随着大数据的发展和应用,这些讨论还会不断地深入。舍恩伯格在《大数据时代》结尾中写道:“凡是过去,皆为序曲。”读完此书,我们对大数据的认识才刚刚开始。

[参考文献]

[1] [2][3][4]维克托·迈尔-舍恩伯格、肯尼思·库克耶.大数据时代[M].杭州:浙江人民出版社,2013:89.

[5] 赵赛坡.大数据面前,电视台恐将沦为内容代工厂[EB/OL].http://www.tmtpost.com/69643.html.

[6] 谭天.微博:反映舆情的“双刃剑”[N].中国社会科学报,2013-5-8.

[7] 学术声音:传播学者如何激辩“大数据”[EB/OL].微信公众号《复旦引擎》,2015-9-22.

(责任编校:朱德东)

Study and Reading as well as Criticism on Big Data Research Classics

——Reading Viktor Mayer·Schonberger’s Big Data

TAN Tian

(SchoolofNewsandCommunication,JinanUniversity,Guangzhou510632,China)

Abstract:After studying and reading Viktor Mayer and Schonberger’s Big Data, the author discusses and points out questions on Schonberger’s three main points and considers that random samples and the whole data are the same important, that accuracy and mixture should be properly used and the correlation can not be deviated from the causality. This paper also introduces the foreign discussion on Big Data in foreign literature.

Key words:Big Data; analysis; ethics

中图分类号:G43

文献标志码:A

文章编号:1672- 0598(2016)01- 0099- 05

[作者简介]谭天,男;暨南大学新闻与传播学院教授,硕士生导师。

[收稿日期]*2015-10-19

doi:12.3969/j.issn.1672- 0598.2016.01.016

猜你喜欢
辨析大数据时代伦理
《心之死》的趣味与伦理焦虑
怎一个“乱”字了得!
——辨析“凌乱、混乱、胡乱、忙乱”
“论证说理”与“沟通说服”:高考论述类与实用类写作之异同辨析
护生眼中的伦理修养
活力(2019年19期)2020-01-06 07:37:00
大数据时代下图书馆的服务创新与发展
科技视界(2016年21期)2016-10-17 19:30:45
大数据时代高校学生知识管理
科技视界(2016年21期)2016-10-17 18:42:37
从“数据新闻”看当前互联网新闻信息传播生态
今传媒(2016年9期)2016-10-15 22:06:04
医改莫忘构建伦理新机制
中国卫生(2014年6期)2014-11-10 02:30:52
“征、伐、侵、袭、讨、攻”辨析
语文知识(2014年1期)2014-02-28 21:59:05
婚姻家庭法的伦理性及其立法延展