文/刘林平 唐斌斌 蒋和超
大数据有“原罪”吗?
——与潘绥铭教授商榷
文/刘林平 唐斌斌 蒋和超
《新视野》2016年第3期发表了潘绥铭教授《生活是如何被篡改为数据的?——大数据套用到研究人类的“原罪”》一文(以下简称“潘文”)。他认为,大数据不能套用到对人类的研究中。大数据把人类的行为及其结果也给量化了,从自然科学侵入到人文社会研究,从“科学”蜕变为“唯科学主义”。大数据在操作层次上将人类生活实践改造成“数据”的过程中不可避免会出现“现实生活被裁剪”“社会情境被忽视”“主体建构被抹煞”“生活意义被取消”的问题。“潘文”还进一步认为,量化研究具有原罪,其缺陷与弊病根本无法避免,“大数据崇拜”,其实就是“唯科学主义”在人类历史面前一败涂地后的末日哀鸣。我们不能同意这些论断,下面对此提出若干商榷意见。
关于大数据,现在还没有得到公认的准确定义。一般认为,大数据不同于传统数据之处在于:它不是通过抽样调查所获取的样本数据,而是人类活动的实时记录,并大都可以通过互联网存储、获取、交换和分析。“潘文”中对于大数据(包含小数据)的性质、特点存在若干误解,这是需要澄清的。
其一,大数据记录的都是单独个人的行为吗?
“潘文”引用了一篇文章作为依据说“大数据记录的都是单独个人的行为”,然后就此质问“在这个现实世界里,难道真的存在一种与他人毫无关系的个人行为吗?难道个人的一切行为,不都是在一定的人际关系中,才会产生,才会带来某种结果吗”?
事实是,大数据既有个体(比如网上购物)层面的数据,也有组织层面(比如企业活动)的数据,还有地区层面乃至全球层面的数据;既有个体单独活动(比如浏览网页)的数据,也有人际交往(比如Facebook、twitter和微信、QQ等的好友关系)的数据。而利用电话、手机与社交网络的大数据开展的研究已有不少。比如,社交网络与经济发展的研究、社会网与恋爱的研究、弱关系与信息传播的研究等。
其二,精神活动的信息无法获得、无法监测吗?
“潘文”断言:“人类一切精神活动的信息,在可预见的未来,仍然不但是无法获得的,而且根本就是无法监测的。”但是,网络上人们所发布的大量文献(博客、微博、照片等)难道不是人们精神活动的结果吗?这些难道不是大数据的组成部分吗?与此相连,“潘文”指出:“无论大数据监测到多少人类的行为,它究竟是如何分辨出其中主体建构的成分呢?首先,以网购的大数据为例,即使您收集到全部的上网痕迹,而且全都数字化地一览无余,那您怎么知道人家就真的就是这样想的呢?这种‘客观测定’,离矿物学很近,可是人却是有主观意志的啊,您是怎么监测到的?连物理学还有个‘测不准原理’呢,何况对于人的主观意愿?”
在这一段话中,潘教授首先否认在大数据中有关于人类思维、精神活动成果的数据存在;其次,他将人们的行为与想法(动机、期望、判断等)割裂开来,认为以客观行为完全不能判断主观想法;再次,以网络购物数据为例,他也忽视了网购中购物者对商品与店家的直接评价。最后,潘教授关于大数据测不准的说法,正是基于对数据的不了解。任何测量都有误差,大数据正是通过大样本消除误差。大数据的客观性有利于消除问卷调查中易于产生的回忆误差。物理学中的“测不准”原理并不是普遍适用于任何自然现象与社会现象的,如果人们的主观意愿完全是测不准的,那么社会科学中关于主观意志、精神现象的研究就是瞎折腾。
其三,大数据不能表现人的偏好吗?
“潘文”说:“以购物网站记录下来的数据为例,它确实可以容纳数千万人在购物时不知不觉地留下的近乎无穷无尽的痕迹;但是,这就能反映出这些人的购物偏爱吗?难道这些人就再也不在实体商店中买东西了吗?难道他们在一时一事上表现出来的偏爱就永恒不变吗?难道他们的每一次上网购物都能得到自我满足吗?”
潘教授认为大数据不能表现人的偏好,这完全是误解。就以他所提出的购物数据为例,首先,网上购物对商品与店家服务的评价,对于品牌、样式、质地、价格的选择就表现出了偏好。其次,潘教授质疑说“难道这些人就再也不在实体商店中买东西了吗”?他这里的意思似乎是要用网上购物的数据去推论实体店购物行为。网上购物数据反映的是网上购物的行为,其中也包含了偏好,至于是否可以用来推论实体店购物行为与偏好则是不同的问题,实体店购物也有实体店购物的数据,这些数据也是大数据的一部分。潘教授将两种购物形式混淆在一起,以为只有网上购物才有大数据,而实体店购物则没有,网上购物数据不能推论实体店购物行为,并由此莫名其妙地去责难大数据。再次,潘教授接着说“难道他们在一时一事上表现出来的偏爱就永恒不变吗”?这一质疑更加表明他对大数据的不了解,网上购物所形成的数据是一个连续的、不同时点所组成的面板数据,它恰好可以很好地反映人们购物行为与偏好随着时间变化的变化,而一次或数次问卷调查却难以反映这种变化。
其四,大数据是空中楼阁吗?
“潘文”认为:“我们的一切社会背景、生活状况和成长经历……往往仅仅存在于我们自己的经验与记忆之中;往往难于言表,更往往无法记录。从‘客观监测’的角度来说,根本就是‘风过无痕’。”然后就凭此推断“对于了解人类生活而言,大数据其实根本就是空中楼阁”。问题在于:如果我们的社会背景、生活状况和成长经历“难于言表、无法记录”,那么社会科学又凭什么研究社会与人呢?潘教授对性工作者的研究,不是也要表现和记录她们的生活吗?如果这些东西是不能“客观监测”而只能主观回忆的,潘教授又怎么保证自己研究的客观、真实与可靠呢?
这里的关键在于,“我们的一切社会背景、生活状况和成长经历……往往仅仅存在于我们自己的经验与记忆之中”,所指的“我们”只是现在或过去的一代或多代人,由于时代的局限,在互联网及其相关设备还没有得到充分应用的前提下,的确,许多生活经历只能用回忆的方式去复述。但是,时代是在发展的,全方位记载人们活动轨迹的可能性越来越大,而实际的记载也越来越多,就像凯文·凯利所描述的“生活流”。潘教授则以静止的观点看待科技的发展,妄下断言。
与潘教授所说的正好相反,大数据并不是空中楼阁,而是人们生活的实时记录,在这个意义上,它超出回忆性的数据,更为真实与准确。它也不仅仅是人们生活的自然、物理与生理记录,它也是可以记载人们的社会交往、精神生活与思维活动产物的数据。
“潘文”认为,对大数据进行加工:界定、分类、定义、赋值 “完完全全是研究者自己在主观地、人为地、强制地‘整理’那些‘可获得信息’,把人类生活的痕迹,完完全全地篡改为自己的世界观和价值观所能接受的‘数据’。往好里说,这叫做无可避免地加工;往坏里说,这就是赤裸裸地伪造”。将大数据加工看作是“篡改”,然后说成是“赤裸裸地伪造”,这里完全是一个偷换概念甚至是一个赤裸裸更换概念的过程。
人类的任何研究都是一个加工过程,如果不加工,那我们就无法认知任何事物。质性研究、问卷调查和理论研究都是一个加工过程。没有加工就没有理论抽象。即使是最初浅的认知都有加工的过程。
进一步说,任何定量的研究过程都有一个数据加工的过程,即使使用自己设计的问卷进行调查,数据加工也不可避免。研究者必须要对数据进行审查、清理、重新分类等,才能进行研究工作。在质性研究过程中,研究者对观察、访谈资料也必须进行加工整理,完全不进行加工地地道道使用原始资料的情况非常罕见。在这一加工过程中,研究者不可避免地要从自己的研究目的出发来使用数据,世界观与价值观内涵在研究者的头脑中,当然会发挥作用。不过,对数据的加工有好的加工和坏的加工,无论是定性研究还是定量研究都是如此。
问题在于:潘教授认为对大数据的加工一定是坏的加工,甚至是篡改和伪造。不知道他究竟有何证据:潘教授是阅读并仔细研究了有关大数据的大量研究才有此发现呢?还是基于本人的“世界观与价值观”就做此判断呢?如果潘教授认定大数据加工是“赤裸裸地伪造”,他应该举出一些典型的案例来支持自己的判断。
在大数据的研究中,对原始数据进行加工已经成为一个非常专业的数据挖掘过程。这一过程包含对各种各样的数据进行抓取(获取)、整理、分类和匹配,需要一定的技术手段,但与质性研究中获取数据、整理记录、分类抽象在思维逻辑上并无本质区别。而在潘教授看来,自己对性工作者的调查与研究过程是一个正确的过程(尽管他没有明说),而大数据的研究加工过程则一定错误。我们想请教潘教授的是:在您的研究过程中,世界观与价值观就没有发挥作用吗?您本人对性工作者的研究是如何保证不是一个“篡改”与“伪造”的过程呢?
潘教授所谓的数据“篡改”或“伪造”的说法,还表明他将研究的认知过程与研究伦理混淆起来。科学研究并不是一个绝对正确的过程,在数据处理(清理、分类、调整等)的过程中出现错误是正常现象,但这与弄虚作假违反研究伦理是完全不同性质的问题。
潘教授的自相矛盾还在于:一方面,他承认用问卷调查的数据进行研究是可以的,但另一方面,他却断然否认大数据可以用于社会科学研究。如果只是从对数据的加工方面来看,问卷调查主要是一种事前加工的过程(即预设题目来进行测量),大数据是一种事后加工的过程(即直接对数据进行加工),在是否加工的问题上,两者并无本质区别。
基于对大数据的若干误解,“潘文”认为:“大数据并不是研究者主动去收集的人类行为及其结果,而是五花八门的所谓‘客观记录’……大数据所获得的信息,首先是极端片面;其次是漫无边际;第三是支离破碎;第四是毫无意义;根本不能用于任何量化的分析。”这一结论是非常武断的。
其一,大数据虽然不是社会科学研究者设计好的类似问卷调查所获取的数据。但大数据并不是就没有设计。比如,我们可以利用手机来收集使用人的方位,这牵涉到经纬度(经纬度是人们通常用来准确定位地理位置的指标),对人的地理位置移动的测量是非常准确的。这绝不是潘所说的“漫无边际”。
其二,大数据中的许多数据,主要是根据自然科学(包括工程技术科学、医学等)现有测量方法而记录和呈现的,社会、人文指标较少,但并非没有,比如社交网站中的家庭、婚姻与朋友状况。这说明社会科学的研究及其测量方法还没有自然科学成熟和得到社会的广泛认可与应用,但并不意味着大数据就不能运用到社会科学研究中,因为社会科学研究也往往借用自然科学所使用的指标,比如医疗社会学的研究就必须使用医学测量的指标。进一步说,一些指标既是自然的也是社会的,比如年龄、性别等,既反映人的自然属性,也表现了人的社会属性。
其三,潘教授认为大数据不能用于任何量化分析,但是,量化的商业分析也不行吗?事实是,大数据不但可以用于自然科学研究,也可以运用于社会科学研究,不但可以进行商业、管理分析,也可以用于社会分析。若干大数据的研究已经证明了这一点。
其四,“潘文”认为大数据“极端片面”“支离破碎”,指出:“所谓的大数据,其实一点都没有超出‘小数据’原有的局限性:裁剪生活,撕碎人生;非要把整体生存的‘人’,视为一堆杂乱的零碎。在实际生活中,人类绝对不是,也不可能是这样来‘量化地’认知和行动的。因此,大数据其实并不是帮助人类思考,而是企图取代和控制人类的生活经验,是人工智能的噩兆。”
在潘教授看来,定量的数据就是剪裁生活,就是撕碎人生。但即使是质性研究,比如潘教授对性工作者的研究,难道不剪裁生活吗?为什么用数据就是剪裁就是撕碎,而用访谈或观察进行质性研究就不是撕碎呢?
对人与社会的研究,都是选择一个或数个侧面,任何的研究都是裁剪,只有裁剪的好坏,而没有剪裁不剪裁的问题。完整地表现一个人、一个群体或一个社会的全部生活是基本不可能的事情。定量与定性研究在表现人的生活时,区别在于:前者对生活进行测量,将生活理解为一个个变量,寻找变量之间的关系;后者则以一个一个的故事进行叙述,从中探讨故事的前因后果。定量研究没有可能也没有必要穷尽所有变量,只要抓住关键的变量探讨其中的关系就可以了。同样,定性研究也没有可能没有必要将生活的所有细枝末节都呈现出来。
潘教授的逻辑混乱在于:他将现实的人的生活与对这种生活的研究混为一谈。的确,如潘教授所说,人们的实际生活是完整的。但是,对此进行研究却必须有所取舍。潘教授能否告诉我们,你从头至尾完完整整地记录或叙述过一个性工作者的全部人生历程吗?如果有,你是用什么方法与技术手段做到这一点的呢?
“潘文”在结论处提出所谓“原罪”的说法:“原罪不但是与生俱来的,而且是背负终身的,不能通过人自己的救赎而被消除。很可惜,量化研究也是如此。无论其技术手段如何发达,无论其数据多么大,一旦应用于人文社会研究,其缺陷与弊病就根本无法避免,充其量也不过是程度的减轻而已。”
世界上任何一种研究范式(包含方法、手段与技术)都是有缺陷的,量化研究当然有其缺陷,但并不能被武断地断言具有“原罪”。在潘教授看来,量化研究(包括大数据)将现实生活剪裁得支离破碎、忽视了社会情景、抹煞了主体建构、取消了生活意义。他无视定量研究作为社会科学的主流研究范式所取得的丰硕成果,混淆科学研究的性质、方法、过程与其社会功能的区别,以偏见乱下结论,以静止、片面的眼光看待大数据的发展。
在我们看来,大数据的发展是当代科技革命的产物,它给社会科学研究提供了新的机遇,有可能带来研究范式的革命性变化。它不但适用于自然科学领域里的研究,也同样可以并且实际上被运用于社会科学研究领域。当然,世界范围里运用大数据进行社会科学研究还起步不久,具体的大数据也有其缺陷,但它犹如新生的婴儿,对此抱有期望是正常的,而将之扼杀却是罪恶的。
(刘林平系南京大学社会学院教授,唐斌斌、蒋和超系南京大学社会学院博士研究生;摘自《新视野》2016年第4期)