再论生活是如何被篡改为数据的
——回应刘林平教授的质疑

2016-02-27 19:52潘绥铭
新视野 2016年4期
关键词:刘文方法论社会科学

潘绥铭

再论生活是如何被篡改为数据的
——回应刘林平教授的质疑

潘绥铭

我在《新视野》2016年第3期发表《生活是如何被篡改为数据的?——大数据套用到研究人类的“原罪”》后,引起争论,这是好事,求之不得。其中刘林平教授等撰写了《大数据有“原罪”吗?——与潘绥铭教授商榷》(以下简称“刘文”),对我的观点提出全面质疑。细读之后,觉得这些质疑未必能够成立,撰此短文以作答复。

首先说明,我的文章说的是:在大数据产生的过程中,究竟发生了什么?也就是说,大数据究竟是“如何产生的”?其中包含了哪些先天缺陷?应该反思什么?其主题是:绝不应该认为大数据天生就是对的,更不应该盲目崇拜。可是“刘文”第一部分所质疑的却是大数据“能不能产生”,然后反复论证其“可以产生”。这不仅与我的文章风马牛不相及,而且恰恰是拒不反思的“大数据崇拜”的典型表现之一。

还应指出,“刘文”忽视了我的结论:“当然,这并不是说,量化研究和大数据就一定不能用,而是表达三层意思:首先,它们都不能质疑更不能取代各种非量化的人文社会研究;其次,只有对这些先天缺陷进行深刻反思,并且予以充分展示的量化研究,才有资格在人文社会研究中保留一席之地;第三,两种研究就像是两条铁轨,缺一不可,但又平行延伸,永不交叉。”这就是说,“刘文”实际上偷换了我的文章的主旨,自己发明出一个风车,然后与之作战。为此,我必须把话说得更清楚一些。

其一,生活不是都会主动发出信息。所谓的大数据,至少到目前为止,仍然主要是各式各样的监测,也就是收集人类生活的各种各样的信息。由此,大数据的第一个“元假设”就是:只要信息收集得足够多,那么就足以了解生活,也就是“越大越好”。

可是问题就出在这里。人类的某些活动是可以主动地发出信息的,例如网上购物或者出行等等,但是绝大多数的其他生活活动,却不会、也不可能主动地发出任何信息,例如静思等等。所以,大数据的“原罪”并不是“收集得不够多或者不够准”,而是必然忽略掉那些不主动发出信息的人类生活。也就是说,数据无论多么大,也不可避免地会遗漏生活,甚至可能挂一漏万。

鉴于“刘文”误解了我的本意,我在此再强调一下:我并没有说过大数据不能产生,而是提醒大数据崇拜者,是不是意识到这样的遗漏了呢?

其二,信息不会自己变成数据。对于大数据已经收集到的“信息”来说,从一开始,它们就是可以做出分析的“数据”吗?凡是做过任何一种数据处理的人都知道,这绝对不可能。可是大数据的第二个“元假设”却是“一切皆可量化”。那么无论是谁,他/她/它究竟如何把信息给转化为数据的呢?这种量化的过程难道不需要界定、筛选、赋值等等司空见惯的处理工作?

还是针对“刘文”的误解,我在此再说一遍:这不等于说信息就不能转化为数据,而是提醒大数据崇拜者,是不是意识到这种转化中充满了人为篡改的成分呢?

其三,加工与伪造,没有什么可争的。“刘文”的第二部分,花了很大篇幅来论证大数据是“加工”不是“伪造”。但是这半点意义都没有,因为我的原文是:“往好里说,这叫做无可避免地加工,往坏里说,这就是赤裸裸地伪造。”也就是说,我和“刘文”在事实层面上本无争论,“刘文”的长篇大论,要说的其实仅仅是一句话:只许说好,不许说坏!这再次成为大数据崇拜的典型表现之一。

最后强调一下,在我的原文中,我曾说明:“本文所论述的一切,其实都是来自于人文社会研究中,久已存在的对于‘量化研究’的批评。”也就是说,我文章中的几乎所有观点,我都没有著作权,都是100多年来人文社会科学的质性研究者不断反思的成果。因此,“刘文”的奇怪逻辑,可能仅仅是出于不熟悉学科史而已。尤其是,“刘文”所说的“主体建构的研究取向”,真的使人感到莫名其妙。我只能提醒一下:这在方法论和认识论的层次上叫做“主体间性”,研究成果汗牛充栋,我就不再一一列举相关文献了。

“刘文”反复提出:社会调查与大数据是同一性质,而且把这当作得意的重大质疑。其实这可真是一个初级错误。而且我估计,可能还有不少人没有意识到这个初级错误,因此不得不再多说一些。

在关于大数据的争论中,其实早就有很多批判者指出:定量的社会调查和社会科学研究都是先有假设,然后收集数据,最后用统计学来检验这个/这些假设是否能够成立。可是大数据却反其道而行之,是没有任何假设地去漫无目标地收集信息,然后再大海捞针般地去得出结论。这种区别,集中起来就是一句话:任何自称为“科学”的对于人类的研究,究竟需要不需要“假设—检验”这一最基本的研究方法?[1]

这是大数据崇拜的另外一个命门,也是一个根基式的争论。但是因为它没有涉及我文章中的主题“信息如何变为数据”,所以我才没有从这个方向展开论述,只是提到一句:“在最开始,你收集到的,就是可以用来分析的数据吗?在社会学的问卷调查中,这是有可能做到的。”现在我也不想给出任何评判,还是希望从根子上挖一挖:与社会调查相比,大数据其实还有另外一个“原罪”。

社会科学中的问卷调查属于方法论意义上的实证主义范畴内的科学主义流派,来源于对于自然科学基本研究方法之一的“受控条件下的、可重复的、试验”[2]这三大原则的模仿。[3]也就是说,定量的社会调查,由于调查者自己需要进行“试验”(实地调查),因此不得不主动地追求“受控条件”(例如问卷、调查方法和操作情境都必须严格统一)与“可重复”(例如信度检验);结果客观上也就达到了模仿自然科学的效果,实现了自己的科学性。

可是大数据却恰恰相反。由于它一开始就没打算进行“由调查者来操作的试验”(实地调查),而是依赖于对人类行为的监测,所以也就不需要“受控条件”和“可重复”;结果自然科学研究方法的三大原则,在大数据里就荡然无存。也就是说,大数据绝不是做得不够,而是根本不需要这三大原则。这就是它的非科学(不是反科学)的性质,任何基于科学性的统计技术都无法改善之,因为两者牛头不对马嘴。

因此,社会调查与大数据之间的区别,已经超出统计技术与调查方法的操作层次,实际上是方法论层次上的冲突焦点,甚至需要从认识论层次上来进行分析。[4]

当然,为了防止再次被人误解,我要再说一次:“这并不是说,量化研究和大数据就一定不能用……只有对这些先天缺陷进行深刻反思,并且予以充分展示的量化研究,才有资格在人文社会研究中保留一席之地。”也就是说,我愿意相信,大数据实际上很有可能去模仿自然科学方法论的三大原则,也可能朝着检验自己的信度和效度的方向发展。问题仅仅在于:如果大数据崇拜者连自己的“非科学性”都意识不到,那还有什么可说的呢?

最后不得不提一句,“刘文”拿出我对性工作者的定性访谈,当作质疑的依据。这就使我不得不怀疑,该作者可能不了解定量调查与定性调查之间长达百年的争论。[5]实际上,这不仅是两种方法论之争,甚至可以说是两种世界观的差异。[6]将定性调查与大数据相提并论,显然混淆了两者的性质。

注释:

[1]张晓强、杨君游、曾国屏:《大数据方法:科学方法的变革和哲学思考》,《哲学动态》2014年第8期。

[2]金观涛:《控制论与科学方法论》,北京:新星出版社,2005年。

[3]参见陈蓉霞:《社会科学与自然科学:此科学非彼科学》,《自然辩证法通讯》2004年第4期。

[4]以上的论说,基本上是引自我本人的论述(参见潘绥铭、张娜、黄盈盈:《网站调查与实地调查的实证对比研究:样本偏差程度及其方法论意义》,《江淮论坛》2009年第4期),只是把原文中的批判对象“网站调查”改为“大数据”。

[5]参见张学广:《科学主义、人文主义的演进与生存危机》,《社会科学》2007年第1期。

[6]参见秦英君:《在科学与人文之间——百年来科学与人文思潮评析》,《清华大学学报》(哲学社会科学版)2007年第1期。

责任编辑 刘秀秀

作者简介:潘绥铭,中国人民大学性社会学研究所教授、博士生导师,北京市,100872。

猜你喜欢
刘文方法论社会科学
《云南社会科学》征稿征订启事
《北京科技大学学报》(社会科学版)
《河北农业大学(社会科学版)》2021年喜报
汉学方法论值得关注
UAF的方法论意义
抓改革落实,习近平的十大方法论
积财千万,无过读书
乖僻自是,悔悟必多
损人益己,恐非仁恕之道
凡事当留余地,得意不宜再往