大数据时代对建模仿真的挑战与思考

2013-01-12 12:05胡晓峰
军事运筹与系统工程 2013年4期
关键词:范式建模模型

胡晓峰

(国防大学 信息作战与指挥训练教研部,北京100091)

1 引言

近两年来,“大数据”这个词已经被广泛提及,甚至有被用滥了的嫌疑。但大数据究竟会对科学研究带来哪些影响,还需要更深入的研究。对受到直接影响的建模仿真领域来说,同样面临这个问题。大数据给建模仿真带来哪些困惑、挑战和机遇?这就是本文讨论的主要问题。

2 大数据及其特性

2.1 大数据的概念及影响

什么是大数据?这个概念虽然听起来很熟悉,但至今仍没有一致认可的准确定义。一般用4个V来进行说明:第一个V(Volume),即规模性,指的是体量大,一般在TB、PB乃至EB以上;第二个V(Variety),即多样性,也就是信息的种类多,并以各种信息载体形式存在;第三个V(Velocity),即高速性,要求处理速度要在合理时间之内;第四个V(Value),即价值性,或者叫真实性(Veracity),是说大数据一般是高价值低密度,有时也指那些真实性很强的数据,如监控录像等。

维基百科从处理方法上对大数据进行定义,即:大数据指利用常规软件工具去捕获、管理和处理数据所耗时间超过可容忍时间限度的数据集。当然,还有专家这样定义:大数据是在赛博空间“人、机、物”三元交互融合后产生出来的结果。

我们早就知道“海量数据”等类似的词,但为什么现在又提出“大数据”概念并引起如此广泛的重视?我认为主要是以下几个原因:第一,信息技术的发展创造了数据产生和处理的条件。像云计算及网络、存储设施、数据库等技术的发展,以及现在刚冒出苗头来的像物联网、RFID的使用以及视频监控等技术的普及应用等,都是如此。第二,互联网运用的广泛普及。互联网带来了大量数据,例如社交网络、博客、微信、基于位置服务、搜索服务等,已经遍地开花。有统计显示,“近两年产生的数据等于2010年前人类产生数据的总和”,也就是每两年数据翻一番,可见数据爆炸性的发展。第三,各类大数据应用产生了很好的效果并对其提出了更高的要求。对数据的深度挖掘获得了出人意料的效果,已远超早期数据挖掘“啤酒与尿布”等经典案例的水平,出现了诸如“纸牌屋”“点球成金”这样的新传奇,并且得到各界的广泛关注。

各国政府对大数据十分关注。美国奥巴马政府2012年3月发布了“大数据研究与发展倡议”,已将其作为美国未来发展的重要战略,并作为国家战略启动了“大数据发展计划”。如果跳出技术来看国家战略问题,我认为奥巴马政府之所以如此,就是要试图通过“大数据发展计划”,重现信息高速公路计划给美国人带来的互联网霸权。从斯诺登事件中我们可以发现,美国的互联网霸权已经置其他国家于非常危险的境地,美国关于数据处理的能力也远远超出我们的想象,而我们可能还浑然不知。现在,美国人已经把目光瞄准到大数据等未来新的领域,就是要为创造未来的大数据霸权奠定基础。

经济界对大数据也很关心。达沃斯经济论坛发表了关于大数据的研究报告,成为论坛上各国首脑和企业家关注的主题,很引人注目。论坛的主题就叫“大数据、大影响:国际开发的新可能”。我国各有关部门和企业也十分重视,召开了很多会议,许多企业家也发表了一些重要的言论。

学术界是大数据概念的提出者,更是十分关注。2008年,《自然》杂志推出大数据专刊,研究“PB时代的科学”,探讨科研形态变化,认为“以数据为准绳的理念指导,以及强大的计算能力支撑,正在驱动一次科学研究方法论的革命”。《科学》杂志2011年也推出专刊“Dealing with Data”,围绕“数据洪流”展开讨论,将大数据深度分析看成是未来的研究重点和突破点。同时,各类学术机构也纷纷组织各种研究和探讨,发表了大量研究报告,召开了各种会议,并成立了许多大数据学术组织等。

2.2 大数据的重要特征

大数据到底是什么?值得我们这么兴师动众吗?主要疑问集中在以下三个方面:一是大数据与以前一些数据概念有哪些不同?它与我们早期提出的海量数据(Massive Data)、超大规模数据(Very Large Data)有何不同?是不是一个意思?如果是一个意思,之前的一些数据概念就是大数据;但如果不是,又应该是什么意思?二是大数据方法与过去的数据方法有什么差异?比如说,我们早就提出了数据挖掘的概念,以及数据分析的这套方法,但现在又来说大数据的数据挖掘和数据分析,它们有什么不同?三是大数据应用与过去基于数据分析的应用又有什么不同呢?最典型的如商业智能BI(Business Intelligence),就是用数据分析得到一些对未来的洞见。现在大数据出来了,这又有什么不同?这些名词我们都不陌生,但是何以能又掀起了一个如此值得大家关注的热门话题?我个人认为最根本的是,大数据带来了全新的研究思维和方式,主要表现在四个革命性变化的特征上。

(1)从局部到全体:将网络化的大数据作为分析对象。不同于以往的方法,直接面向全体的数据,这里“全体”主要指的是某项研究的所有数据,或者说是网络化的数据。主要表现在两个方面:第一个方面,网络化的数据分析,“数据大”是条件,这不是过去那种只对少量样本数据进行分析的数据分析,而是直接面向整体数据,或者叫做所有数据,甚至说是全部数据的数据分析。没有一定规模的量,没有这个“大”字数据分析是不成立的。而网络化则是核心,网络化最重要的一点是,它终结了还原论的分解式分析方法,从整体关系进行考虑。也有专家认为,如果没有网络,大数据也不能成立。第二个方面,对数据的处理完全不同于传统数据库方法。在大数据方法中,一是要将“局部的和明确的数据”转化为“所有几乎全部且不明确”的数据。有专家打了一个很好的比喻:我们过去的数据库处理是在池塘里抓鱼,池塘里养了多少鲤鱼、鲢鱼、草鱼都是心中有数的,投放多少就会收获多少,这就是“池塘里抓鱼”,是我们原来的处理方式;而现在大数据方法是要在“大海里捞鱼”,有“鱼”与否并不知道,也就是有什么问题也不知道,需要我们想各种方法把“鱼”捞出来。我觉得这个比喻非常恰当。二是要变“脱机”处理为“联网”处理。数据处理的同时数据还可能发生变化,因为它与网络的关系极为密切!通过网络,可以将人类的个体知识汇总为人类的整体知识。打个比喻,也许我们早就知道了治疗癌症的方法,但为什么至今仍无法治愈癌症呢,就是因为这些知识分散在许多人的脑子里。而网络则提供了将这些知识联系到一起的条件。正是因为如此,大数据的处理规模、类型、模式、工具、对象都会有所不同。

(2)从单纯到繁杂:接受数据的繁杂和不精确。我们常用的数据库一般要求数据是非常干净的,不干净还要加以清洗。而大数据则要以非结构化、种类繁多的数据为主,因此就要抛弃对有条理和纯净数据的偏爱,容忍凌乱数据的存在。在操作上,不以“匹配性查找、增删改管理”为数据库应用目标,而是更深层次的应用。“海量”“超大规模”指的都是数据量,而没有涉及到数据的本质问题。另外,大数据方法的不确定性和涌现性特点比较突出。在不确定性方面,包括数据来源不确定、处理模型不确定、模型参数学习也不确定等。在涌现性方面,包括演化模式的涌现、群体行为的涌现、网络智慧的涌现等。这些都可以找到大数据的不确定性和涌现性的影子。

(3)从因果到关联:更强调相关性而非因果性。大数据最重要的思想是放弃对事情原委的追究,取而代之的是对相关性的接纳,因此它更适合于回答“是什么”,而不是回答“为什么”。这就为“知其然而不知其所以然”找到了依据:直接获取答案,不去问为什么。也就是说,它可以告诉你这样不会错,但是为什么,不知道。之所以如此,是因为许多事物的因果关系是难以明确的,有的可能是找不到,而也有的可能是根本就不存在这样的因果关系。这就完全颠覆了我们过去关于牛顿、爱因斯坦科学体系下因果关系明确的还原论思想,当然这个问题大家还可以进一步探讨。因此,大数据方法认为,根据海量数据的相互关系,已经足以产生新的发现。也就是因为如此,美国和欧盟都展开了一些相关的研究,初步统计大概有20多个研究计划,比如说“大脑扫描计划”“星球皮肤计划”“太空追踪计划”等,都或多或少采用了这个思想。

(4)从简单到深入:更强调深度和间接分析。将简单分析方法发展为大数据的深度分析方法。我们过去的智能分析实际上还是强调以因果关系为主的简单分析,主要针对已有数据的分析,如商业智能BI的因果分析。但是大数据具有了自己明显的特色,更关注深度、间接、外推分析等。有许多数据分析结果的质量依赖于数据量的多少,比如说苹果公司手机的SIRI语音识别,就是根据大量联网数据进行分析的,而不是过去那种少量样本的训练。还有的分析属于外延分析,也就是分析的结果并不是分析的初衷,而是通过这个结果得到另外的结论,比如说基于搜索词的流感趋势分析,就是典型的范例,分析的是搜索词,但结果却是流行病的预警。还有就是按需分析,有意地产生所需数据,再进行分析,比如说“数据客”。

这些革命性的特征变化,在很多有关大数据的会议上都在反复探讨,大家都有自己的看法。本文重点研究它对建模仿真带来的影响,以及它会带来哪些挑战和机遇。

3 大数据带来的挑战和机遇

3.1 以大数据为基础的第四范式是否存在

科学研究的范式(Paradigm)是托马斯·库恩在1959年《科学革命的结构》一书中首先提出的概念。所谓范式,是指那些在一段时间内为科学家集团或者称为“科学家研究共同体”,所共同接受的科学信念,是用于指导现实科学研究的一组假说、理论、准则和方法的总和。也就是我们大家都公认的一些科学研究方法。一旦范式无法指导新的研究就会发生危机,产生出新的科学成就,这就叫科学革命,而科学革命的结果就是一种新范式的诞生,这个过程就叫“范式转换”。因此,从一个范式到另一个范式不是渐进的,只会是跳跃式的。这就是托马斯·库恩提出的范式的概念。

现在已经存在的科学范式,总的来说主要有以下几种,这是大家已经公认的:第一范式称为“科学实验”,主要是通过实验的方法观测、记录、归纳和验证来得到科学发现。比如说伽利略的斜塔落球实验,以及天文观测实验等,都属于这类。第二范式是理论推导,也就是通过逻辑推导、数学证明得到发现。爱因斯坦的相对论是典型代表。第三范式是科学计算,其中最重要的是建模仿真,所以也有人将其简单地称为建模仿真范式。中国系统仿真学会专门组织过学术沙龙讨论建模仿真是不是第三范式这个问题。通过科学计算、建模仿真的方法来得到科学发现,虽然有不同看法,但大多数人还是认可科学计算及建模仿真是第三范式的。

那么,第四范式是什么呢?是不是大数据范式呢?第四范式是微软公司的吉姆·格雷提出来的。他说,数据探索性的研究方式,也就是基于数据密集型的科学发现,是未来一个非常重要的趋势。这些科学研究从以数学模型计算为中心的方式,将要转为以对海量数据处理为中心的方式。在数据达到一定规模之后,科学研究的模式就会发生根本的转变,“量变”转换为“质变”,这就是一种新的范式的诞生。因此,大数据可以独立于基于数学模型的科研形式,单独成为一种新的科研范式。针对他提出的这个观点,现在已经有了很多的争论。

第一种观点认为第四范式成立。只要数据量足够大,只靠数据可以完成科学发现,因此不再需要数学模型。传统观点认为,数据只是模型仿真运行实验的基础,打比喻说,模型是“引擎”,而数据是“汽油”。而现在数据可以成为发现的主体,通过仪器采集、网络收集、仿真系统生成等方法获取数据之后,数据就可以脱离模型成为科学发现的主体了。这就是所谓的“数据优先”模式。

《连线》主编克里斯·安德森曾有一个惊人的断言:“数据的洪流使传统科学方法变得过时”,“相互关系已经足够,没有了具有一致性的模型、统一的理论和任何机械式的说明,科学也可以进步”。我体会他的意思,也就是说,建模方法对于科学而言,并不是必须的。其实,模型的形式是很多样的,一个沙盘可以是模型,一个公式也是一个模型,各种各样的科学方法都是建立在各种不同种类模型基础上的。但是他认为未来模型可以不要了,大数据方法就是一种新的科研范式,特别是搜索方法可以发展成为一种科学研究的方式。正如我们每次开展研究前都喜欢“Google一下”,或者“百度一下”,查查看看有什么东西可以参考。可见这种方法已经成为了科学研究一种常见的手段。

因此有人认为,在这种情况下,科学研究将会产生三个重大的变化:第一,将一般科研活动中“精心设计并提出问题”的研究环节,变为关键词的选择,因而就不再需要假设,也不需要理论的指导;第二,摆脱实验的束缚,在海量观测数据或现实镜像世界中去寻找关联。即使有个别模型,也不影响其整体理论的存在,也就是所谓的相关性理论;第三,不再对研究结果进行解释,因而出现了能够预测但不解释的科学,这在以前我们会觉得匪夷所思,但现在却非常正常。有人说有五种科研方法:亚里士多德提出的逻辑方法,培根提出的实验方法,牛顿提出的数学方法,以及费米提出的模拟方法等,现在又多了一个谷歌提出的关联方法。

第二种观点认为第四范式不成立。认为单独将大数据的分析独立出来,并不能形成独立的科学研究模式,更不能单独进行科学发现。大数据需要获得大量的数据,这些数据要么从现实中采集,要么利用仿真获得,它们都是科研过程中一个不可缺少的组成部分,不能割裂,大数据方法只是使分析方法更丰富了一些而已。任何分析都需要模型,没有数学模型是不可能进行分析的。即使谷歌搜索,也用到了各种搜索算法和匹配排序模型,使用数据都需要初筛,初筛就要用到模型和假设。正是由于模型和计算机的辅助,才能理解和驯服大量的数据,因此,脱离开模型的数据范式,也就是第四范式是不能成立的。

这种观点认为,要说第四范式是一种新的科研范式,是不是显得这种范式太粗糙了?新的发现依靠的居然是毫无技术含量的重复性计算,而不是科学家的敏锐思想。对科学结果只预测不解释又有什么意义呢?数据量的增加可以提高研究的质量,但不会引起科学研究方法的本质变化。“不解释”只能说明认识活动还没有完成。“大数据”是否预示着科技“去人类化”?这会改变科学家在科研活动中的角色,也将改变科研活动的基本规律。我们知道,科学的神圣任务是“揭示隐藏在混沌世界中的有序结构”,难道可以只靠网络和计算机的蛮力就可以完成吗?科学家的思考就不再重要了吗?这就是第二种观点的主要思想。

在这里我们还要回答一个问题,就是大数据的出现,是否动了仿真的“奶酪”?因为我们知道,以大数据为基础的第四范式是从第三范式(仿真建模/科学计算)中独立出去的,因而需要回答两个方面的问题。一方面需要回答,第四范式是否成立?它发生的实质性变化是确实需要“范式转换”,还是仅仅是对第三范式的一种扩充,或者只是其一种特殊形式?在讨论第三范式的时候曾经说到,如果从一个坐标轴来看,以现实观测为主要形式的科学实验范式占据着一端,完全抽象的理论研究占据着坐标轴的另一端,而建模仿真则以“虚拟现实”的方式,正好居于这个轴的中间,非常合适和匹配,具有某种科学上的“完美性”。但现在大数据来了,那它应该摆在什么位置呢?是不是应该成为一个菱形?另一方面,如果第四范式成立,它又应该包括哪些内容,它对第三范式产生什么影响,第三范式又会发生什么变化?因为它与其直接发生冲突了。有人说,从推理角度看,理论推导可以看成是演绎推理,科学实验可以看成是归纳推理,而建模仿真可以看成是类比推理,大数据呢?有人说应该是合情推理,是否真的如此?

3.2 大数据给建模仿真带来的挑战

大数据理论的出现,对传统建模仿真学科带来了挑战,很多问题需要我们认真地研究和讨论,因为这些挑战有可能会动摇或变革原有仿真理论的基础。谷歌研究部主任彼得·诺维格有一句名言:“所有的模型都是错误的,进一步说,没有模型也可以成功。”怎么去理解这句话?《复杂》杂志也认为:“量子力学和混沌摧垮了精确预测的希望,哥德尔和图灵的结果摧垮了数学和计算无所不在的希望。”大数据会不会也是这样,摧毁我们原来一些根深蒂固的观点呢?它会带来哪些挑战呢?

3.2.1 对仿真基本理论的挑战

众所周知,仿真是基于相似性理论的,但它可否基于相关理论?我们知道,系统仿真是建立在相似性理论基础之上的,通过对实际系统的建模,使两者之间具有相似性,因而推论,如果输入相似,则认为输出也应该是相似的,从而从仿真系统中得到实际系统的结果,达成仿真的目的。用相似性中的类比方法来获取结果,是仿真科学最基础的观点。

仿真的目的就是发现问题和预测未来,时间轴前推就可以是预测。但在某些情况下,大数据方法可能做得更好,比如可以在预测方面做得更好。例如,已有研究证实,通过分析谷歌中相关搜索词语的统计结果,如“流感症状”等,可比国家疾控中心早一周预测流感的暴发。它依据的是相关性,通过外延效应进行间接预测,而且这种结果与官方结果相关性竟然高达97%,当然这是美国人得出的结果。但如果我们真的去建立“流感预测”仿真模型,可能费了半天的劲,还建不出来数学模型,或者建出来的模型也很粗糙,根本不能用,因为很难找到两者之间直接的因果关系。所以问题是,基于相关理论是不是可以部分取代基于相似理论的建模仿真?

3.2.2 对建模方法的挑战

有没有不要数学模型的仿真?某些复杂的事物未必有可行的数学模型,比如说它的复杂度非常高,计算量非常大,在可行的时间内做不到等。但我们可以建立起认识问题的“数据模型”,比如说谷歌关联研究等。也就是说,大数据可以为我们提供利用“数据模型”的新途径。

有人举过一个例子:知道不知道你们的第一好友是谁?在没有数学模型的情况下,通过对网络数据的统计,我们可以知道结果。这就是,35岁以前第一好友都是自己的老婆或者是自己的老公,但是在45岁以后,老公的第一好友还是老婆,但是老婆的第一好友已经不是老公了,而是她们的儿女。如果没有这个数据,大多数人还以为老婆的第一好友仍是自己呢,其实已经不是了。这种方式主要是针对那些“可以描述但不能用模型数学方程解释”的现象。因而“绕开理论(不再建模),直接获取答案”就成为了一种新方法。但是能否获得纯理论性的发现,还有待进一步的发展。那么,这就是又一个问题:基于数据模型的仿真是不是存在?

我们知道,只要是模型,就都是有所简化的,都只是针对问题某一侧面的描述,没有一个模型能够把事物百分之百都模拟出来。正如建模理论的先驱、物理学家费利浦·安德森在诺贝尔获奖仪式上说:“建模的艺术就是去除与问题无关的部分,建模者和使用者都面临一定的风险。建模者可能遗漏至关重要的因素,使用者则有可能无视模型只是概略性的,意在揭示某种可能,而太过生硬的理解和使用实验及计算的具体结果样本。”就是说,模型的使用者和模型的建造者在理解上可能是不一样的。对于一些复杂的事物,由于很多规律无法了解,即使建立起某种模型,也很难真正起到作用。比如说火灾模型、经济模型、人群模型等,都属于这一类。可能某一次会蒙中结果,但是更多的时候还是做不到的,出来的结果跟实际不一样,甚至完全相反。比如经济模型,很多人总是问经济学家,为什么你们总是预测不出经济危机?经济学家总是无言以对,或者说模型还有问题。但能不能建立起这种复杂的模型,其实还是成问题的。是不是有些规律根本就无法用数学模型描述?或者至少现在我们的知识水平还无法描述这些模型?这就引出了一个新的问题,是否会出现一些新类型的模型?

大数据的出现产生了一些新类型的模型。举两个例子:第一个例子是镜像模型,也就是对现实的缩微模型。大数据可以利用真实世界的镜像作为模型研究,这个镜像指的是可以反映现实社会某个侧面的东西,比如说网络。采用现实世界中的某个代表性镜像模型,例如微博空间,就可以充当比较完美的现实缩微模型,来研究巨量的社会人群行为。也就是说,用小社会代替大社会,去了解社会的情感变化、舆论演化、信息传播等东西。更直白一点,过去的仿真是“以假代真”,现在则是以“小真”代“大真”。这是否也能够算作一个模型?过去对一些复杂事物,我们讲试点、蹲点、调研,其实也就是这样的方式,现在我们可以利用网络来研究,是否就是以“小真”代“大真”的模型研究?

利用镜像模型,可以完成“真实版”的仿真。比如有报道说,对推特、脸谱上的人群情绪分析,可以提前25分钟预测股市涨跌。这件事情的现在,可能是另外一个事件的未来,我称之为“纠缠相关”。举个例子:过去曾出现过一个假新闻,说奥巴马遇刺了,也就是新闻乌龙,很快引起股市暴跌。之后很快又更新了新闻,说这个消息搞错了,之后股市又升回去了。这其实也可以看成是一个真实的仿真过程,虽然两个事件之间从模型角度看没有直接关系,但却产生了很深的影响。假如有人利用这种方式在一个空间里面发出这个消息,它就可能会变成利用仿真结果来控制系统的情况,如控制股市的涨跌从而渔利,这是一个很值得关注的事情。但这种镜像模型我们可以称之为仿真吗?

第二个例子是“嵌入式”平行仿真。这种“嵌入式”模型可以兼顾“过程”与“结果”,可以一边仿真一边分析预测,因此也可以称为“半现实”仿真。很多人对“嵌入式”仿真很重视,一直在做研究,很多设备直接“嵌入”系统中,通过仿真快速得出未来的预测结果。在大数据情况下,我们可以将这个方法引入到网络之中,利用网络产生的大数据,根据“过去和未来”的全面情况深入分析,超前预测和及时处置。过去是现实的真实数据,而未来是仿真出来的结果。这种方式是嵌入平行仿真的范畴,就是又有真实的,又有虚拟的,将两者兼顾起来。同样问题是,这种基于大数据处理的“半现实”平行嵌入模型是仿真吗?

3.2.3 对仿真方法的挑战

是否可以用搜索和仿真代替仿真实验?“仿真是基于模型的实验”,而实验的目的是为了发现事物的规律,从而达到认识世界的目的。既然大数据不需要模型也可以得到结果,那么仿真是否可以利用搜索或统计来完成?

由于一些事物太过复杂,很多数据我们已经有了,但却没有办法找到所要的东西。大数据则为解决这个问题提供了新的方法。例如,我们从收集到大量宇宙观测数据中寻找“大爆炸”或其他天文规律的证据,这比建立多少个宇宙模型都更直截了当,直奔主题。你不需要建模,直接搜索就可以,且很多科学一线研究都这么做。很显然,这种方式属于实验科学观测数据的分析。还有一些数据来自于科学计算,计算工作早已做完了,收集了大量的数据,剩下的只是对数据的搜索和选择。

再看下面的例子。斯诺登曝光的“棱镜计划”中,可以看到用搜索和统计分析就可以解决很多模型无法解决的问题。它是从大量元数据中寻找可能的联系人,预测“恐怖分子”的位置。再举一个例子,美国一个大学的学生课外作业,就是研究本·拉登到底藏在哪里了。他们做了一个模型,然后在网上搜集数据,预测本·拉登躲藏的位置。最后抓到本·拉登的地方跟学生预测的距离,只相差100多英里,他们用的方法叫做生物地理信息学。这个模型并不是真正的模型,而是建立在数据分析基础上的模型,是通过对现实数据搜索来完成的。这种实验结果越来越趋近于真实。所以,这种以搜索统计分析为基础的方式,是否也是一种仿真实验呢?

3.2.4 对仿真平台的挑战

现有的仿真平台能否满足大数据的要求?利用大数据为建模仿真服务,首先需要解决平台问题。但我们具有搜集所有大数据的能力吗?像美国人搞的“星球皮肤计划”,需要在全世界设立大量的传感器。斯诺登曝光的“棱镜计划”,美国国家安全局花费巨资建立了一系列基础性的设施,光是存储设备就不得了。它不仅要有条件拿到数据,而且还要不与法律冲突。美国人有这个条件,很多公司都是他们的,但也有一定的隐私、安全等方面的限制。但我们就做不到,这些公司不会听我们的。这些都需要一些基础设施和条件的,比如我们具备处理和存储PB、EB以上乃至更大数据的能力吗?能够运行镜像模型(例如全因特网络的镜像)吗?如果能运行,需要多少计算机、能源够不够都是问题。谷歌公司的服务器都需要为它专门建个电站来供电。我们有能够深度分析和挖掘的软件及方法吗?这些都是平台的新问题。

3.3 大数据给建模仿真带来的机遇

大数据应该说是一个时代,也就是以数据优先、数据为王的“大数据时代”。这个时代将会给许多事情带来很大的变化和机遇,对建模仿真也不例外。有人说大数据时代正是信息社会从“量变”走向“质变”的表征,或者说,信息化社会在大数据时代才算真正到来。从另一方面说,建模仿真也许在这个门槛上会发生根本性的变化,可能会重构仿真科学的体系,增强仿真科学的活力。那么大数据时代会给建模仿真带来哪些机遇呢?

3.3.1 为仿真结果分析提供更好的手段

传统的仿真结果分析大多数比较直接和简单,只是简单的结果数据分析和简单的解释。而大数据可以提供更深入的分析和预先处理手段。比如说,在科学实验领域,对粒子碰撞产生的物理数据生成与分析现在取得重要进展,寻找到希格斯玻色粒子,在只有“1万亿分之一”的概率下取得结果,其中关键的技术就是大数据分析。

还有一些以前用到的仿真科学方法,和大数据方法的思路是一致的,如数据分析、数据挖掘、数据耕耘方法等,它们既需要随时产生新的数据,也需要对仿真数据进行筛选,这两者是一个不断迭代的过程。比如说,数据耕耘方法就是把仿真和数据分析两者套在一个环里的一个大循环过程。大数据的出现,可以为解决这种大规模的仿真数据处理提供新的思路。

3.3.2 为复杂系统建模仿真提供新出路

复杂系统建模仿真问题是一个非常困难的问题。大数据方法的出现,是不是为解决复杂系统仿真问题开辟了新的出路?

复杂系统仿真主要难在以下几个方面:一是复杂系统的非线性性质与不确定结果带来的挑战。既然复杂性导致因果关系不能确定,采用相似性原理又如何建模?二是系统动态结构对系统适应性建模的挑战。因为复杂系统的结构总在不断变化中,模型又如何适应这种变化?既然模型的结构都在变,那么在复杂系统中以不变应万变的模型就根本建不起来。三是涌现性仿真难以做到。目前我们常常采用基于Agent的方法来做这个事情,但这是不是合适的方法?正是因为这些难题没有解决,也就使得诸如社会仿真、经济仿真、战争仿真等复杂系统仿真非常困难。

但是大数据的出现为复杂系统的整体分析提供了条件。大数据的出现抛弃了对因果关系的追求,这就避开了一个最难以解决的问题,从而把重心放到了寻找相关关系上。放弃还原论的分解建模研究,代之以对“整体数据”的分析,承认对复杂事物无法建模,直接从“现实”中去寻找问题答案,这可能是一条新的出路。大数据可以将分解出来的各种碎片又重新组成一个网络,使得我们再次回到了整体而不是仅仅只关心局部。

但是谁来收集或产生这些“大数据”呢?一般来说有两个方法:一个方法是直接利用真实的镜像数据;第二个方法则是由大型仿真系统来产生这些数据。这里有两个案例:第一个是“活地球模拟器”项目,由瑞士大学的一名教授提出,并得到了二十几个诺贝尔奖获得者的支持。该项目主要思想是试图对欧洲社会进行全面仿真和数据收集、分析,以解决复杂现实问题,包括经济问题、交通问题、人口问题等。

第二个例子,是我们自己的例子,是利用真人参与的仿真演习来获取联合作战过程的全面仿真数据。开始并不对数据做过多的筛选,而是将这些多维数据全面收集起来,然后再根据需要用于后续的深入研究,也取得了很好的结果。以此为基础,可以分析作战体系结构、层次和能力等问题,今后还可以做更多的研究分析。我们收集仿真数据不像以前那样仅针对某个问题,而是进行全维的获取,获取完了之后,再去寻找答案。这就是不预设问题的“某一侧面”,这是大数据方法最基本的条件。这种方式和过去的仿真分析不同之处在于,不是有目的的局部收集,而是全维产生并多角度分析数据,这样更能反映出它的整体,而不是局部性。局部性可能会切掉一些你认为无关紧要但却可能是至关重要的东西。

3.3.3 有助于实现智能仿真

智能仿真也是复杂系统仿真的一种,且更具挑战性,非常困难,但现在已经可以看到大数据方法带来的曙光。有人说,智能分为三个方面:自然智能、计算智能和数据智能。也就是说,数据智能已经开始脱离计算智能而独立存在了。目前有两种成功的智能仿真系统,都是IBM公司完成的,代表了两种不同的方法。

第一种,以IBM的“深蓝”和“更深的蓝”为代表。它是对人类逻辑和数学推理能力的仿真,主要靠精准的数学算法,将每一步棋的可能性通过数学模型进行深度分析和计算,并根据棋谱数据不断学习,最后找出最佳着法。最终“深蓝”战胜了人类棋王卡斯帕罗夫,标志着机器在计算智能上战胜了人类。

第二种,也是IBM搞的一个叫“沃森”的问答系统,它是对人类认知过程的仿真。“沃森”从大量实际问题数据中学习,形成知识体系,并通过对问题进行深入的相关性分析,找到最有可能的答案。因为大量数据使得找到知识关联更为可行,而不需要建立起某种固定的因果关系模型。很显然,“沃森”的模拟更接近人类常规的智能。这虽然不像数学那么精密,那么因果明确,但是利用相关性就可以解决那些似是而非、多重隐含的问题,从中找到正确答案。“沃森”在一个类似于中国“幸运52”的问答节目中也战胜了人类的冠军,获得了最高的奖金。这是否可以认为,机器在数据智能上也战胜了人类呢?

4 结束语

大数据的出现,确实对建模仿真带来了很多的冲击,但带来了更多的思考。主要表现在以下三个方面:一是大数据提供了一个解释不明现象的新颖视角。它是扩充了仿真科学方法,还是独创了新的科研范式?二是大数据提供了一种绕开理论直接走向应用的新途径。它是否真地挑战了“观察、假设、实验、应用”的科研流程?是否真地找到了可以避开建模而直接获得答案的方法?三是大数据带来了许多值得研究的科学新问题。比如,对预测问题的思考:模型是必须的吗?仿真可以替代吗?“模型优先”与“数据优先”两者异同或矛盾在何处?

我们应该很好地去研究这些问题,努力去廓清事物的真相,寻找理论和技术上的创新和突破。这里,特别说一下从“量变”到“质变”的问题。很多事物是在量变中发展的,但到了一定程度,必然会发生重大的变化,这就是“质变”。纳米技术如此,赛博体系作战如此,大数据技术也是如此。当数据量达到一定程度时,必然会引起重大的技术变革,这可能就是大数据为何引起如此程度重视的原因吧!

1 李国杰.大数据研究的科学价值[J].中国计算机学会通讯,2012,8(9):8-12.

2 孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013,50(1):146-169.

3 李伯虎,胡晓峰.复杂系统建模仿真中的困惑与思考[M].北京:中国科学技术出版社,2012.

4 李伯虎,肖田元.仿真——认识和改造世界的第三种方法吗[M].北京:中国科学技术出版社,2007.

5 TONY HEY.第四范式:数据密集型科学发现[M].潘教峰,张晓林,译.北京:科学出版社,2012.

猜你喜欢
范式建模模型
适用于BDS-3 PPP的随机模型
以写促读:构建群文阅读教学范式
范式空白:《莫失莫忘》的否定之维
联想等效,拓展建模——以“带电小球在等效场中做圆周运动”为例
重要模型『一线三等角』
孙惠芬乡土写作批评的六个范式
求距求值方程建模
基于PSS/E的风电场建模与动态分析
管窥西方“诗辩”发展史的四次范式转换
模型小览(二)