大数据时代的数学建模

2020-05-07 13:41:14王贺元

沈阳师范大学学报(自然科学版) 2020年1期

王贺元

(沈阳师范大学数学与系统科学学院, 沈阳 110034)

0 引言

随着新技术和新应用带动数据爆发式的增长,大数据正逐步走进人们的生产生活,大数据在政务、工业、电力、金融、交通、医疗等诸多与人类生活息息相关的领域都发挥着无比重要的作用,大数据技术对全球社会、经济、工业等各个方面都产生了重大的影响,因而对传统的数学建模带来了革命性改变。这种基于大数据分析的探究方式弥补了过去单纯依赖模型和假设解决问题方法论的不足,形成了一种新的科学研究范式。本文从数学建模在科技进步的重要作用谈起,分析了大数据时代数学建模的特点和变化趋势。

1 原型与模型的关系及经典范例解析

所谓“原型”是指人们在生产实践和社会活动中所遇到的实际对象,我们也把这些客观存在的事物及其运动形态统称之为“实体”。在科技领域常常用系统或过程等术语,如机械系统、电力系统、生态系统、化学反应过程等[1]。“模型”是人们为一定的目的对原型进行的抽象和刻画,是原型的替代物,只反映原型的某些方面的信息。所谓数学模型就是用数学语言和符号对原型某一方面特征的简要描述,只有把原型表述成模型,才能用数学知识和方法来表达和解决实际问题,数学建模是把生产生活中的实际问题抽象和提炼成一个数学问题,用数学的工具,包括计算机、信息查询等手段来求解,并将结果经解释后用于解决实际问题,指导生产生活的过程。它是联系数学与实际问题的纽带和桥梁。

历史上任何重大科技创新都伴随有新的数学模型的的诞生,从牛顿的万有引力定律到爱因斯坦的广义相对论都是人类历史上数学建模的辉煌的典范,小到微观粒子大到天体运行,数学模型无处不在,无时不有,下面举几个例子:

例1 拉船靠岸问题

图1 拉船靠岸Fig.1 Pull the boat ashore

如图1所示,在离水面高度为h(m)的岸上,有人用绳子拉船靠岸。假定绳长为l(m),船位于离岸壁s(m)处,试问:当绳速度为v0(m/s)时,船的速度、加速度各是多少?

解:首先建立这个问题的数学模型,l,h,s三者构成直角三角形,由勾股定理得

l2=h2+s2

(1)

1) 两端对时间求导得

由此得

(2)

(3)

利用式(1)式消去l得

(4)

式(4)中h,v0均为常数,只有s是变量。按加速度定义

将式(4)代入上式得

(5)

这里的负号表明加速度的方向与s轴正向相反。事实上,船速v、收绳速度v0的方向也与s轴正向相反。

由式(4)与式(5)可知,船速与船的加速度均与船的位置有关,它们是变化的,当船靠近岸时,船速与船的加速度都不断增大。相信大家都有这样的体会,当您在公园划船需要交船时,服务员用钩子把船勾住往岸边拉时,服务员用的“劲”(即收绳速度)一样,您却感到船速越来越快。这样我们通过建立数学模型(1)圆满回答了拉船靠岸问题。

例2 天气预报中的数学模型

数值天气预报是指根据大气实际情况,在一定的初值和边值条件下,通过大型计算机作数值计算,求解描写天气演变过程的流体力学和热力学的方程组,预测未来一定时段的大气运动状态和天气现象的方法。数值预报工作是气象工作现代化的一个重要组成部分,是衡量一个国家天气预报发展水平的一个重要标志。从数学上看,上述求解过程要解决一个初值问题,要通过求解方程组获得未来大气运动状态的准确数据,就需要有一定密度的地面、高空气象观测网来提供大气实时的气象要素数据作为方程组的初始输入值,而求解大气方程组的计算量巨大,必须依赖于高性能计算机。这里仅通过区域小气候预报问题得出的经典数学模型做简单介绍。

美国麻省理工学院的气象学家洛伦茨(E.Lorenz)在研究区域小气候问题时提出了如下Lorenz模型[2]:

(6)

图2 柏纳德对流Fig.2 Bernard convection

图3 洛伦茨吸引子Fig.3 Lorenz attractor

洛伦茨是把区域小气候问题适当简化为瑞利-柏纳德对流问题来考虑的,受日光加热的地表和同温层构成温度分别为T1和T2的平行板(如图2所示),空气在这两块平行板之间进行对流和热传导,这样的一个小气候系统要用一组偏微分方程描述。此系统有一平衡态:流体(空气,在小型试验中是某些液体)静止,热量靠热传导由下层传到上层。瑞利研究了此平衡态的线性稳定性。他发现,当ΔT=T1-T2超过某一临界值ΔTc时,此平衡态不稳定,并开始出现环形对流(如图2所示)。当ΔT与ΔTc差别不大时,这种环形流还是稳定的。但当ΔT较大时,此环形流就不稳定了,流体的流动变的不规则。为了进一步求解描述上述系统方程的解,通常的方法是将解写成傅立叶级数形式。这样,原偏微分方程可化为一系列关于傅立叶系数的一阶常微分方程组。求其近似解(所谓的Galerkin approximation)是只截取级数的有限项。这样原偏微分方程组便化为常微分方程组。洛伦茨截取傅立叶级数的前三项,得到了上述著名的Lorenz方程组(6)。式中x表示对流运动的振幅(流速,对于环流,x>0表示顺时针方向,x<0表示逆时针方向)y表示对流时上升与下降流体的水平方向温差,z表示对流引起的垂直方向温差对线性情形(无对流的平衡态)的偏离,σ是普朗特(Prandtl)数,r是雷诺数,b是与容器(小气候范围)大小形状有关的量,其中σ,r,b均为正数。当时洛伦茨利用计算机求解此方程,当σ=10,b=8/3时,改变参数r:若r<1,其解的性质趋于无对流时的稳态,随着r的增大(增加上下板的温差),其解为周期性对流(如图2所示),如果进一步增加上下板的温差,那么周期性对流将会失稳而进入混沌运动状态,其解轨线看起来很混乱,如图3所示。这就是在耗散系统中,一个确定的方程却能导出混沌解的第一个实例,从而得出天气预报中长期预报的不准确性,就是所谓的“蝴蝶效应”。

从上面2个例子可以看出,原型(实体)是复杂和难以把握的,只有把它抽象成数学模型,人们才可以表述和解答相应的原始问题。我们人类所居住的自然界,从基本粒子到太阳,从河川到高山,数不尽的草木鸟兽,真是千奇百怪,千变万化,我们把这些客观存在的事物及其运动形态统称之为“实体”或“原型”。科学的任务在于去认识实体,描述实体,变革实体,为人类自身谋利益。如何才能达到科学认识的目的呢?著名数学家华罗庚教授曾指出:“在定量研究客观事物时,科学工作的责任首先是建立模型以抽象实体的主要特征,其次是逐步改进模型使其愈来愈准确地描述实体。”数学模型,就是对实体的特征和变化规律的一种定量的抽象,而且是对那些所要研究的特定的特征的定量抽象。然而,数学模型不是实体本身,不可能描述实体的一切特征和运动规律。它的作用不在于也不可能表达实体的一切特征,而在于表达它的主要特征,特别是表达我们最需要知道的那些特征。从这个意义上讲,数学模型有利于我们对实际问题的研究,因为它在我们所研究的主体范围内能更普遍、更集中、更深刻地描述实体的特征和规律。

数学建模可以帮助我们认识自然,改造自然,洞察和探索人类未知的大自然奥秘,纵观历史,历次重大科技进步都伴随着新的数学模型的诞生,麦克斯韦方程组作为电磁场问题完美的数学模型,给人类的生产生活带来了革命性变化[3]。19世纪中期,对电磁学研究取得了很大的发展,但理论体系并不完善。麦克斯韦分析了当时的电磁学理论结果后,用两个基本假设将电磁学理论统一起来。这两个基本假设就是:涡旋电场和位移电流假设,其基本思想是认为变化的磁场会产生电场,变化的电场也会产生磁场。用严格的数学语言建立了经典电磁场理论体系,并预言了电磁波的存在。麦克斯韦伟大的创造性思考恰恰是数学建模思想方法最完美的体现,麦克斯韦电磁场理论将电学、磁学、光学统一起来,使人类对宏观世界的认识达到一个新的高度。电磁场理论的建立是物理学发展史上一个重要的里程碑,是19世纪物理学发展的最光辉的成果。

3 处理复杂实际问题的模型与数据相结合的数据建模方法

当今经济社会发展与信息技术革命的交融催生了大数据,大数据与人类生产生活息息相关,在政务、金融、工业、交通、医疗等诸多领域都发挥着无比重要的作用,在大数据智能化时代,大数据技术必将对全球经济、社会、工业等各个领域产生重大的影响。数据化和信息化是当今世界经济和社会发展的大趋势,科学技术的重心正由物质和能量向数据和信息转化,而数据和信息要真正发挥战略资源的作用,就必须对它进行分析、提炼,从中挖掘出对社会、对人类、对企业有价值的因素。运用计算数学、统计分析、数据挖掘等手段对数据信息进行传输、加工、分析和处理进而获得数据的内在机理的过程就是数据建模的过程。分析和处理大数据并不像处理一般数据那么简单,大数据时代面临的挑战就是传统的数据分析和处理方法不再适用,随着数据积累和计算能力的提升,利用机器学习从数据中抽取特征,建立模型,从大数据中直接获取知识成为可能。这种基于大数据分析的数据建模方法可以弥补单纯依赖模型和假设的传统建模方法的不足。一种融合统计、计算、信息与数学的数据科学正在形成,对大数据的解读将深刻影响和改变各门学科。综上所述,大数据时代的到来给数学建模带来了新的挑战, 利用数据建立数学模型是顺应数据时代潮流的必然选择。

能够反映原型本质特征的恰当的数学模型无疑是至关重要的,然而工程实践中很多实际问题却很难给出精确的数学模型,例如众多的反问题求解中几乎不可能获取准确的数学模型,对于这类问题的处理是极具挑战性的。目前人们已摸索出正则化、奇异值分解等方法,但实际效果依问题的复杂程度都有一定的局限性,探索处理这类问题行之有效的方法已成当务之急。这类问题在粗略的模型之外, 存在着大量的范例,比如, 给定一个线性观测算子A之后,(Ax,x)对任意x就构成无穷多的范例, 这些范例构成了可以用机器学习原理学习模型族中参数的样本。基于这些范例样本, 将传统的模型求解方法与深度学习技术结合[4,10],可以弥补模型不精确的不足。利用机器学习的强大学习能力来解决传统模型方法精确性和模型选择难的困难,利用模型方法解决机器学习网络拓扑和假设空间确定的困难,从而获得这类问题的高精度解。这种将范例学习与模型求解相结合的求解思路有如下明显优点:1)与纯粹的模型求解方法相比, 由于允许在模型族中基于范例寻优, 不但可容忍建模与反演中的不确定性, 而且能得出高质量的反演结果。2)与纯粹的范例学习(如深度学习)相比, 由于其拓扑结构由实际问题的模型和基于模型的反演方法唯一确定, 回避了机器学习方法中选择网络拓扑的难题[10,17]。

一个好的数学模型必须反映原型的本质特征,并且能对实际问题做出分析、解释和预测。数据对实际问题具有描述性, 但这只是局部描述,除非给出的数据能遍历每一种情况,而数学模型对实际问题具有全局性描述。通过数据建模虽然可以给出一些预测结果,但光看数据往往只知道数据的变化趋势,并不知道为什么这么变,数学模型能解释数据的走向。针对实际问题,建模是将其抽象到纯数学层面以寻求普适的解决方法和结论,数据可以验证建模的结论,辅助模型的求解,比如,有些固定参数需要通过具体的实验或者观测数据才能确定。当然,只有用在好的模型上,数据才有意义。因此, 数据和模型是相辅相成的,通过机器学习进行数据建模与基于人工的建模方法相结合是未来数学建模的发展方向。

致谢:感谢沈阳师范大学教改项目的支持(JG2018-SZ02)。

大数据时代的数学建模

0 引 言

1 原型与模型的关系及经典范例解析

3 处理复杂实际问题的模型与数据相结合的数据建模方法

0 引言