基于极限学习机的汉阳陵外藏坑遗址温度预测研究

2019-06-13 08:07孙满利朱明哲王广辉
文物保护与考古科学 2019年1期
关键词:学习机监测数据遗址

付 菲,孙满利,朱明哲,王广辉,李 库

(1.西北大学文化遗产学院,陕西西安 710069;2.西安电子科技大学电子工程学院,陕西西安 710071;3.汉景帝阳陵博物院,陕西西安 712038)

0 引言

建于2006年的汉阳陵外藏坑遗址博物馆是我国第一个大型全封闭式的土遗址博物馆。其保护效果一直受到业内关注,为有效评估封闭保护模式的效果,自2009年以来,该遗址内共设置各类传感器260处,累积各类环境、土体监测数据达700多万条。通过监测这些影响遗址保存状态发展变化的因素,可以研究遗址的演变规律并预测其发展趋势,从而指导具体的遗址保护管理工作。近年间,我国开展了大量遗址监测工作,监测技术已日趋成熟。但与此对应的是,该类监测数据的挖掘利用程度较低,缺少对积累数据的统计规律和细节特征的综合分析,因此无法通过监测来有效分析遗址的演变规律,更无法对后续的保护管理提供指导。大数据分析挖掘能力已成为预防性保护技术发展的关键技术。

温度是影响遗址保存状态的主要环境因素之一,长期以来都是遗址监测的一项重点内容。近年来基于温度监测数据分析而展开的保护研究已有不少。研究对象包括室外土遗址和室内博物馆,也有专门围绕汉阳陵外藏坑遗址的研究。研究内容涉及劣化机理[1-5]、变化规律[6-12]、预报模型[13-14]等方面。根据上述文献,目前围绕温度等环境监测数据的研究方法主要为:先将采集到的数据作出其在监测周期内随时间变化的曲线图,得到环境因素的变化规律,之后围绕该规律展开后续研究。但是,这些研究,一方面并没有从海量监测数据的挖掘入手,所用数据的时限大多长为一年内,短则一个月甚至一天。另一方面处理数据所采用的算法较为简单,所用有效数据点基本在十几至几十个,没有充分利用并分析监测数据的统计及变化规律。以温度预报模型的研究为例,往往将海量监测数据简化为代表年、月、日的平均值,从而推导出年际或月际的简单变化趋势。相比于单传感器一年上万的数据量,这种简单平均统计的数据利用率是比较低的。同时,数据简化虽然避免了大数据挖掘,但也模糊了数据的细节信息。因此,传统的监测数据处理方法无法准确表达温度变化特征及规律,更无法做到准确分析以分钟甚至以秒为计时单位的瞬时温度变化趋势,浪费了大量监测数据的有效信息。过于低分辨的数据分析难以为实际的遗址保护工作提供可靠的先验知识。

机器学习,是让计算机具有像人一样的学习能力,可以从堆积如山的数据中寻找出有用知识的一种数据挖掘技术[15]。机器学习通过对数据的历史关系和趋势的学习发现“隐藏的视角”,并以此设计复杂模型和算法从而实现预测功能。近年来,随着互联网或多重传感器技术的应用,使得大量获取多种数据成为了可能,大数据已经成为了可以创造更多附加值的新兴技术领域。因此也使得在大数据处理和发掘方面具有出色表现的各类机器学习算法受到越来越多的关注,并广泛应用在人工智能、金融市场分析、软件工程、医疗诊断等众多领域。

针对汉阳陵外藏坑遗址博物馆以往海量的温度监测数据,将机器学习技术引入温度监测数据的分析研究中,在总结温度变化统计规律的同时对其进行建模,并通过实测数据验证了模型的有效性,初步探讨了该模型的建立在未来研究工作中的应用方向及可行性。

1 监测数据特征分析

1.1 数据特征

汉阳陵外藏坑遗址博物馆采用全地下建筑,遗址保护区由玻璃通道构成,呈“L”型环绕外藏坑四周。博物馆内环境监测采用西安元智系统技术有限公司设计的实时环境监测系统,可实现远程实时数据传送,监测点位共108处,监测内容主要包括空气温湿度、土壤温度及含水率、二氧化碳浓度等。本工作选取了位于外藏坑帝陵中厅的11-65号传感器(图1)的温度监测数据作为分析对象。监测仪器为室内型大气温湿度传感器(型号MW301GA),测量精度和范围分别±0.3℃和-20~80℃,监测时间段为2011年3月3日至2011年12月27日,监测频率30 min,应测数据14 448条,实测数据总数共10 359条。

由于全年数据记录超过万条,并且数据本身存在缺陷,传统平均统计的数据处理方法显然无法有效利用如此大量的数据记录信息。在利用数据进行分析和预测前,首先需要对数据分布特点和缺失状况进行研究,因此,绘制了数据的分布图(图2)。

从图1可以看出,该类数据的结构是比较复杂的。主要体现在两个方面:

1)数据分布不均匀。由于传感器、数据记录、数据传输等各个模块的突发情况,部分监测日内记录数据较多,而个别测日内记录数据严重不足。如图2所示,全年平均日记录数据在40条左右,而3月上旬(61~70监测日)普遍记录数据为日均超过120条,与之对应的是,8月中旬(255~265监测日)的部分日记录数据不足10条。在数据样本不均匀的情况下,以此采样的数据为基础得出的日平均温度将会存在较大误差,再用此类统计数据为依据进行下一步的温度规律分析或建立温度预测模型都会带来较大的误差传递。

2)数据存在缺失。该类数据的缺失具体包含两种情况:

(1)短期缺失:传感器采样频率约为30 min,因此正常情况下一天数据约48组,但某些天数据较少,将会影响后续机器学习的效果和预测评价;

(2)长期缺失:以天为基数的缺失,如2011年74~86 d共13整天的数据缺失。数据长期缺失的部分会影响后续处理对数据细节的分析。

综上,由于数据自身的复杂性,在建模前需要对其进行一定的预处理来提高模型的准确性,来实现精确的趋势预测。

1.2 数据变化分析

为了进一步探讨数据的整理分析方法,绘制了温度变化曲线(图3)。由图3可以看出,采用的温度监测数据主要有3种变化特征:1)日间变化趋势,主要是指在较长的一段时间中,温度的平均走势。可细分为单调上升趋势,单调下降趋势和平稳走势;2)日内变化趋势,主要是指在一天的变化周期中,每个时刻的温度细节变化趋势;3)温度突变,主要是指由于数据缺失或传感器等问题引起的温度数据突然变化。

由此可见,温度随时间的变化具有不同的规律特征,仅靠单一的线性拟合描述时间-温度的映射是十分不准确的,特别是温度的日周期性变化通常为高度非线性。由于机器学习具有强大的非线性拟合能力,可通过对历史数据的学习逼近特征(feature)和标签(label)间的非线性映射关系。采用机器学习领域较新的极限学习机算法,探讨基于现有的大量历史数据,建立时间-温度关系模型,用于短期温度预测的数据分析方法将有助于解决传统数据整理方法的缺陷。

2 基于极限学习机的温度模型建立

2.1 模型建立原理及方法

在以往的系统建模中,需要详细分析系统中的主要因素以及各因素间的相互作用关系,这种“抽丝剥茧”般的研究方式更适合进行单因素或简单系统的分析建模。然而博物馆内温度变化受到外界气候条件、建筑结构、游客数量等诸多因素的影响,对于这种大型复杂系统的建模,由于其内部结构及耦合关系难以直接描述,因此无法采用以往的经验建模或机理建模方法。而温度监测数据作为此复杂系统作用的直接表现,其中已然蕴含着多因素间的复杂关系。所以机器学习建模的原理即是从数据出发,无需深究这个复杂系统内部的作用机制,而是通过分析反映这些机制的数据,采取一定的算法反推和拟合出该系统的数学模型,不断训练以逼近原系统的真实结构和状态。

极限学习机(extreme learning machine,ELM)是一种新型的单隐层前馈神经网络学习方法,它对大量非结构性、非精确性规律具有自适应能力、自主学习和优化计算的特点[16-20]。相比于其他机器学习算法,该方法最突出的特点是运算速度快,实时性强,适合大数据分析。在温度预测应用中,极限学习机在获取海量温度监测数据的基础上,学习数据的历史关系和趋势,总结数据特征及规律,利用神经网络算法建立模型,预测未来温度,整个学习建模过程一次完成,无需迭代,并且产生唯一的最优解。同时,极限学习机在预测的过程中,能够不断引入新的实测数据来对现有模型进行训练,这种“训练—学习”模式使整个预测过程具有在线学习、持续更新的特点,相较于传统的“一次性”建模方法,该方法建立的预测模型可以通过反复修正,逐步接近系统的真实状态,从而提高温度预测的准确性。在神经网络模型中,最重要的是设定输入/输出及训练集/测试集。设定输入/输出这一组变量,是要建立从输入到输出的映射关系:将以日期和日内相对时间作为输入,温度作为输出建立模型,以此来建立温度的日内周期性变化模型和日际趋势变化模型。

2.2 建模流程

针对提前量为1天的温度进行预测建模,即学习前几天的(时间-温度)数据,预测未来一天的温度。沿数据时间轴滑动,依次预测下一日的温度数据。其流程示意如图4所示。

2.3 预测参数的确定

在建立温度预测模型前,先应确定预测参数,包括训练集大小(使用预测日之前几天的历史数据)、预测时效(预测未来几天)、训练集格式(温度时序)。通过前期实验,考虑数据间的时效性和关联性,最终确定采用7天的历史数据来预测未来1天的温度,预测温度的时序精确到年内第几天、该天第几秒。

2.4 数据预处理

由于数据存在缺失部分,所以需对其进行预处理,来提高后续建模的准确性。

根据预测参数的要求,对于监测周期内的任意一天(如第k天),建模时需要学习训练数据(第k-7天到第k-1天)的时间-温度关系,来预测第k天的温度,并用第k天的实测数据验证预测结果的准确性。所以,需要通过数据预处理来筛选出每个符合预测要求的“第k天”,即这一天和之前的7天均为正常数据天。按照该预处理策略,对数据进行如下预处理:

1)若某天数据量小于20条,判定为该天为“数据严重缺失天”。

2)若训练数据(7天)或测试数据(1天)中包含“数据严重缺失天”,则跳过该组学习和预测,滑动时间窗直到训练(和测试)数据中不包含“数据严重缺失”天为止。按上述策略,最终用于测试的数据分布如图5所示。

从图5可以看出,标为红色的天即为满足预测要求的“第k天”,共142天,包括数据5 772条。将待预测的5 772条数据按顺序编号,得到所有测试集的组合如图6所示。该实测数据将与预测数据通过对比来证明预测模型的有效性。

3 预测模型实测数据验证

3.1 预测数据偏差分析

首先,给出预测效果的评价指标。

整体预测实验结果如图7所示,图中是预测数据曲线和实测数据曲线的对比。可以看出,预测值和实际值曲线基本吻合。预测模型不但能够准确预测每个时刻的温度变化,同时在数据的突变点具有较好的跟踪能力。

从图8中可以看出,预测最大误差不超过5%。对预测的5 772组数据的相对误差进行统计分析,得到如下结果:

平均相对误差:0.569%;误差小于1%的预测值占总数的84.877%;误差小于2%的预测值占总数的97.921%;误差小于3%的预测值占总数的99.708%。

从图8和误差统计结果中可以看出,该方法具有较好的预测效果和预测精度,尤其是在有效预测温度数据的细节变化方面。

3.2 模型在变化特征分析中的应用

为更好的说明这一点,针对小节1.2数据特征分析中总结的3种温度变化特征,分析了ELM模型在温度处于不同变化趋势时的预测效果。

1)日间变化趋势。针对日间变化趋势,由于ELM模型在训练过程中输入了之前7天所有的温度数据,因此模型在其参数的充分训练调整后,能够有效表征前一段时间温度变化的整体趋势。即ELM模型能够判断之前温度属于哪一类变化,并在之后的处理中对预测温度进行调整。如果ELM模型判断之前温度处于下降(或上升)趋势,将会降低(或升高)后续的温度预测值。图9所示为全年第3 220~4 710组数据,该数据处于秋季,温度处于缓慢的下降趋势中,预测结果在保持日内温度变化趋势的同时,较好地预测了温度下降变化趋势。为了进一步说明本方法的预测效果,图10所示为传统预测方法在温度单调下降时的预测结果,该方法通过数据的平均统计,往往利用分段线性模型进行预测,只能粗略估计温度的变化趋势;同时由于算法简单,一方面造成数据利用率不足,对温度的细节变化无法预测,另一方面容易受限于数据的不均匀分布和缺失,模型误差较大;另外,传统方法没有在线学习机制,预测模型无法进行修正、更新。以上原因导致传统方法在运算效率和预测效果上均不及极限学习机。同理,传统算法在温度的其他变化特征下预测效果类似,后文将不再做对比赘述。图11所示为全年第570~1 174组数据的预测结果,该数据处于春季,温度处于明显的上升趋势中,预测曲线与实际值曲线拟合较好。综上,本方法结合大数据分析,可以有效预测温度变化趋势,并精确预测数据的细节变化特征。

2)日内变化趋势。日内变化趋势,主要是指在一天的变化周期中,每个时刻的温度细节变化趋势。每日温度的周期性变化趋势是相似的,并且时间上相距越近的数据,相关性越高,尤其是相邻两天的温度数据。ELM模型在训练过程中,是将之前7天每个时刻的数据按由远及近的顺序输入。因此,距预测日越近的数据,对模型参数的影响越大,符合认知。此外,由于温度数据是按年内第几天,该天第几秒的格式输入,保证了ELM对每天同一时刻温度的跟踪。

图12所示为全年第5 004~5 772组数据的预测结果,该数据处于冬季,平均温度较低。日内温度变化呈现较强的规律性,日间变化趋势不明显。从图中可以看出,预测模型较好地跟踪了日内温度周期性变化特征,和日间温度的非单调变化趋势,预测值与真实值吻合度较好。

3)温度突变。针对温度突变,ELM模型本身是无法进行处理的。因此,在具体建模过程中,引入2.2节所述的在线更新机制。由于在预测的过程中,不断有新的真实值加入对后续的预测进行修正,因此整个预测模型能够有效跟踪温度的突然变化。图13为全年第1~1 000组数据的预测结果,在温度正常变化的部分,预测值和实际值相差不大,可实现较精确的拟合温度变化规律。而第580组及第840组由于数据不完全,导致曲线发生突变。但是在线更新机制可以迅速跟踪到这些突变点的影响。因此预测曲线将很快跳过突变点,并预测出正确的结果。

4 结论

结合汉阳陵外藏坑遗址博物馆环境监测数据利用的实际问题,引入大数据机器学习技术中的极限学习机对遗址的海量温度数据进行了特征分析和预测模型建立。与通常对数据以平均统计和线性拟合的研究方法不同,极限学习机充分利用了全年的监测数据,一方面降低了数据缺失在以往工作中带来的误差影响,另一方面能够有效学习跟踪温度变化的不同趋势特征,所建模型经实测数据验证,结果表明预测效果和预测精度较好,可对未来温度的细节变化进行精确预测。该方法也可扩展至包括湿度、二氧化碳浓度等多种环境监测数据的分析处理上。极限学习机方法的引入可为遗址预防性保护和管理提供借鉴和参考。

猜你喜欢
学习机监测数据遗址
考古学家怎样发现遗址?
“机”关
西域门户——两关遗址
辽上京遗址
基于随机权重粒子群优化极限学习机的土壤湿度预测
千年遗址 追寻炎帝足迹
基于改进极限学习机的光谱定量建模方法
浅谈环境监测垂直管理的优势
环保验收监测异常数据的分析与处理探讨
北京经济社会发展月度监测数据(2008年11月)