探究大数据视野下复杂性科学研究的新方法

2017-07-28 12:33马健文
商情 2017年26期
关键词:路径依赖大数据

马健文

【摘要】复杂性科学与大数据技术诞生于本世纪之交的科技革命,复杂性科学和大数据技术相继出现。大数据技术被一些学者认为是复杂性科学的技术实现,复杂性科学是大数据技术的理论表述。大数据应用于复杂性科学研究已成热议,然而大数据技术是否符合复杂性科学理论的全部特质还需要细致的考量。这里从理论和技术两方面入手,以前者为主。理论上,通过比对二者的特征差异进行考量。技术上,分析具体实践应用难题。

【关键词】大数据 复杂性科学 线性与非线性 可逆性与不可逆性 路径依赖

一、复杂性科学概述

早期自然哲学伊始,人类就不曾停下探寻世界本原的脚步,尽管各家对世界本原的构成之物众说纷纭,但无一例外都赞同有所谓的世界本原的存在。按照寻求本原的方法论传统,哲学家们得出了比较贴近近代物理学的说法。认为物质可以无限制的拆分成更小的构成部分,直到最小的世界本原。这种哲学思想就演变为后来的还原论的科学方法。

复杂性科学是系统科学理论的分支学科,系统科学理论源生于贝塔朗菲的“一般系统论”。正如哲学家西蒙( H Simon)阐明的那样,“一般系统论”在经过一个良好的开端后,因缺乏来自具体科学成果的供给也开始走向死亡。正因如此,哲学家和系统学家开始为系统科学理论寻求新的出路,于是作为一种新的发展方向的复杂性科学诞生。“复杂性的概念,它指的是复杂系统内部关系和外部关系的某种基本性质,并着重从信息、描述和计算的角度来研究这些性质。例如系统元素及其关系的多样性,这些联系或关系的缠结性、非线性、多层级性和非对称性,以及这些关系处于有序与混沌之间的边缘性都指的是复杂性。”

若采取比较容易的理解方法,可以从与之相对的牛顿的机械还原论入手,牛顿认为物质是由微小粒子通过机械线性叠加而成,世间万物均可以如此分成更细微的事物,直到构成世界的最小微粒。牛顿的理论学说建立在决定论的简单性原则上,经典力学认为线性叠加态是万物固有模态。然而随着现代科学的演化,这种线性思维越来越多的暴露问题。简单系统在现有宇宙系统中只占少部分,物质更多的是处于复杂系统当中。简单系统的线性思维在面对有机生命现象和主体自我意志系统之时往往无能为力,因为传统的机械力学将构成事物的各部分视为孤立静止的要素。

传统还原论认为事物具有线性叠加性,因而可以通过仔细探究这些细小的部分,来达到了解整体的目的。这种窥斑见豹的思维方式对近代科学探索大有裨益,但在随后的深入研究中遭遇瓶颈。由此萌生了复杂系统的思维路径,转向与牛顿机械还原论相对的学科走向。

为了避免传统还原论科学的局限性, 复杂性科学依照整体论和非还原论的方法论。复杂系统具有中等数目并基于局部信息做出的行动智能型、自适应性主体系统。简单系统各部分具有均衡性,而复杂系统中的个体具有智能性,且其中一部分的变化并不能引起整体比例性的变化。能够精确预测月食时间,但却无法精确预测天气现象的事例充分表明了这一点。相比前者,后者的系统内部不是线性叠加的,而是局部自适应和不均衡的,因而机械还原论的方法不再具有适用性。

二、大数据时代的思维方式

大数据时代的到来,引发各个领域不同程度的变革。大数据带给现今人类社会算法的革新以及认知的变革。这表现为三个方面:第一,由随机抽样采集到研究全体数据的变革。第二,由力求高精准到找寻大致范围的变革。第三,由热衷因果关系到追求相关关系。

(一)随机抽样采集到研究全体数据

大数据处理技术来源于信息爆炸产生的计算超负荷的技术难题,后受商业利益驱动,而逐渐发展为一种互联网商业模式。

算法问题的解决使得无法得到理论证明得到了充分的数据支持。大数据思维,开始将问题纳入量化维度。理念的变革带来数据运用方式的变革,原有少量抽样数据的信息获取方式被遍取式的数据测量模式所取代。这不仅能够宽泛全面的获取信息,还可以帮助提升信息的精准度,使得事物细节充分显现。

(二)高精准到找寻大致范围

数据总量的提升固然能将想要把握的事情进行更加细致的描摹,但数据的海量性势必造成数据的参差性。这种掺杂进来的细微瑕疵难以导致最终结果的大范围变动,因而适当放宽结果的精准度不会在根本上颠覆研究的结果。这种方法与建立在小数据基础上的精确技术不同,海量的数据样本的采集使得小的让步与牺牲成为可能。

(三)因果关系到相关关系

从找寻因果关系转向探索相关关系是人类思想变革的一个重要飞跃,因果关系模型历来是哲学学者争论的焦点,黑天鹅理论使得因果关系确证性受到极大冲击,进而使科学的真理性问题备受争议议。大数据时代的来临,为各领域的发展提供了新的思考方式,一场由热衷因果关系到追求相关关系的认识变革悄然发生。从追问“为什么”到追问“是什么”,复杂性系统十分经济的解决着社会所面临的问题。

在具体科学实践中,因果关系的找寻十分艰难,现在大数据所提供的新的思维方式节省了探究因果关系的步骤。人们转到因循相关关系路径,不再过分重视事物缘由,然而这不意味着抛弃因果关系,而只是将相关关系作为一种更加便利、快捷、经济的思考途径。相关关系也许不能准确告知事件的发生原因,但却能够为事件的发生及其走向提供重要的迹象。“在许多情况中,这种提醒的帮助作用已经足够巨大。”相关关系虽然给予了解决问题的新启示,但相关性思维能否抵消掉复杂性科学中独立个体的自适应情境始终是认知有效性讨论的一大障碍。

尽管相关关系的思维方式与复杂性科学的理论内核存在着高度相似性,但能否将大数据思维用于复杂性科学问题的解决还需要通过具体应用实践中理论特性的比对来加以考证。

三、大数据用于解决复杂性科学

(一)大数据解决复杂性科学的浅层合理性

复杂性科学与大数据技术诞生于本世纪之交的科技革命,二者理论、特征、思維和历史进程上均有较大关联。从科技史的角度来说,科学与技术的发展不具有同步性,呈现为交互的推动模式。科学理论倚赖先进技术的检验,技术沿革能够带来验证方式的精确化,同时填补理论漏洞甚至破解理论困境。同时,技术领域的进展,有时以科学理论为诱因,以科学理论导引新技术。

也正因为复杂性科学和大数据技术出现时间的历史相继性,一些学者将大数据视为复杂性科学的技术实现;相应的,将复杂性科学视为大数据的理论表述。此种意义上可将二者视为系统性理论的不同分支,但这不能成为大数据理论适用于复杂性科学的理由。

就特性而言,二者确有高度契合性,但深入的研究分析便可以发现其中的严重分歧。如果未经深入探究与思考,鉴于大数据与复杂性科学的特征的相似性,很容易就过于乐观的认为可以将大数据的技术用于解决复杂性科学问题。然而,这种技术应用目前不但在实践环节毫无进展,在理论本身也是存在巨大问题,理论上大数据能否用于解决复杂性科学问题很需要业内学者的关注与探究。

(二)大数据解决复杂性科学的深层理论缺憾

正如前文提及的那样,就大数据技术能否运用于解决复杂性科学问题需要细致的考量分析。从二者比较明显突出的特征差异着手,可以初步的得出一些理论与技术不协调、不适用的结论。这样的分析研究对于调整复杂性系统理论的研究路径具有重要意义,对于大数据的技术革新,还有复杂性系统理论的匹配技术的探索有很强的推动力。

大数据与复杂性科学在三组特征的比对中可发现明显差异,这样的差异性、不相适应性可以表明大数据技术应用于复杂性科学的障碍,而且这种差异性、不相适应性表现出一种无法颠覆的理论本质上的缺憾。这三组差异特征分别是可逆性与不可逆性;线性与非线性;路径依赖原则与均匀弥散化原则。下面从这三个方面进行分析讨论。

(1)不可逆性与可逆性。“发现自己处在一个可逆性和决定论只适用于有限的简单情况, 而不可逆性和随机性却占统治地位的世界之中”。[ 伊·普里戈金、伊·斯唐热:《从混沌到有序》[M],曾庆宏、沈小峰译,上海:上海译文出版社,2005年,第26页。]因此,“物理科学正在从决定论的可逆过程走向随机的和不可逆的过程”。近代物理学还原论的无限可分原则以及局部性原则没有把时间与空间纳入科学探究的考察范围,以至于走向了极端,并认为数学模型可以将宇宙中的一切事物进行量化计算。但这种论断随着宇宙学的发展而不断遭到打击。

宇宙学熵熷理论的创立使得各门学科诞生了新的理论研究模型,通过反证法,热力学三大定律的不可逆性被广为接受。于是在简单系统之外又发展出了复杂系统,正因复杂系统的不可逆特性以及它与简单系统的截然对立性,使得复杂性科学受到越来越多的关注。新兴的大数据技术作为数据的堆叠并不存在时间先后的壁垒,大数据寻找数据与事物关联性的作法排除了因果性中的的前后相继性。由此,可以简单推断出大数据计算技术的可逆性特征,所以大数据对复杂性系统做出的逆向预测是无法得到验证的,因而也无法作为结论来进行进一步推演。

大数据时代海量数据运算的现实特性能够模糊计算过程同时达到理想结果。如若世界本真的按照因果原则进行演化,那么大数据技术不仅无法为多因一果以及多果一因的情势提供解读路径,而且数据处理过程也因呈现黑匣状态而无法得到认知。正如查尔斯·汉迪所说:“你不能认为未来是过去的延续……因为未来将会不同。这确实有必要抛开在过去所用的方式,以适应未来。”

(2)非线性与线性。这一组特征与上一组有着巧妙的联系性,线性原则与可逆原则可以视作是在不同方面对同一事物的表达。一个系统遵从线性原则,那么它亦是可逆的。如果一个现象是可逆的,那么它必遵循线性原则,二者互为充要条件。所谓的线性原则就是把构成整体的各部分视为不具自主性的部分,研究其中的一部分便可得知整体情况。

复杂性系统是非线性的,它不具有简单的加和性,而大数据技术中的每个数据都是独立的构成单元具有线性叠加性。虽然大数据也可以通过扩大数据总量来模拟非线性特征,但大数据技术的本性是线性的。用本性为线性的大数据技术去解决非线性的复杂性系统科学是荒谬的。对于非线性系统而言,所有微小的差别在系统中都会经历路径的非线性放大。但大数据技术却无法做到这一点,尽管可以创造出一个相似的数学模型并模拟出非线性放大形式,但是无法确定这个数据非线性放大路径,如果计算出的输出结果与复杂性系统的现象相契合,那也只不过是“小”概率事件。

(3)均匀弥散化与路径依赖。复杂性系统大多只具有局部有序性,这也是近代物理学可以运用线性原则来进行预测的原因,而在大布局上呈现混沌,宇宙学中的熵熷和大爆炸理论模型就是很好的例证。复杂性系统通过各部分的自适选择从而达到均匀的弥散化。大数据技术,如上所说是无法进行事先路径选择的,不过这与大数据路径依赖的特征并不矛盾。运用大数据进行预测需要事先设定一个合理的模型,其实就是为这些数据的计算输出设计一个运行路径,在这之后数据按照路径进行分布性的预测。值得注意的是,数据、路径、输出结果,在模型建立之初就已被确定,其结果输出需参照以上变量。而复杂性系统的各个部分均具有自适性,并进行着不可逆的非线性运动。若想将大数据技术应用于复杂性科学,那么路径选择难题将是无法逾越的障碍。

经过一系列特征差异的比较,大数据技术作为解决复杂性科学的新方法无论在理论上还是技术层面,都存有适配性难题。从哲学层面来讲,大数据用于解决复杂性系统科学的方法有两种:其一是基于大数据技术,建立能够匹配适应复杂性系统的新型输出模型;其二是无限扩大路径选择方案的样本,用海量的数据选择来尽可能囊括事件发生的可能性。以上两种解决方案各有其弊端,以大数据模型为根基建立新型自适性模型要跨越两种模型的范式差异。第二解决方案的实现需要建立在大数据技术运算能力的革新,就目前的运算水平与速度来讲,还难以达到如此高的样本处理能力。

参考文献:

[1]齐磊磊.系统科学、复杂性科学与复杂系统科学哲学[J].广州.系统科学学报,2012.

[2]维克托·迈尔—舍恩伯格,肯尼思·库克耶著.大数据时代:生活、工作与思维的大变革[M].盛杨燕、周涛译,浙江:浙江人民出版社,2012.

[3]伊·普里戈金,伊·斯唐熱.从混沌到有序[M].曾庆宏、沈小峰译,上海:上海译文出版社,2005.

[4]黄欣荣.从复杂性科学到大数据技术[J].长沙理工大学学报,2014.

[5]郭元林.论复杂性科学的诞生[J].自然辩证法通讯,2005.

猜你喜欢
路径依赖大数据
政策变迁中的路径依赖:我国养老公平问题审视
大数据环境下基于移动客户端的传统媒体转型思路
基于大数据背景下的智慧城市建设研究
数据+舆情:南方报业创新转型提高服务能力的探索