基于网络搜索信息的农村水环境质量灰色预测模型

2020-07-22 07:21钟秋萍曲品品

中国管理科学 2020年6期

张可，钟秋萍，曲品品，殷要，左媛

(1.河海大学商学院，江苏南京 211100；2.河海大学项目管理研究所，江苏南京 211100)

1 引言

随着农村社会经济的迅速发展，农村水环境污染问题日益严重。2018年联合国粮食及农业组织和国际水资源管理研究所联合发布的《农业水污染全球评论》报告指出，农业生产排放的有机物、农业残留等污染物已成为全球水污染的重要源头。最新统计数据表明，我国农业源的化学需氧量和氨氮排放量，分别占总排放量的48%，31%。农村水环境质量关乎饮水安全和食品安全，直接影响周围居民的健康，甚至可能威胁农村公共安全[1]。为此，《关于全面推行河长制的意见》将“综合整治农村水环境，推进美丽乡村建设”作为了加强水环境治理的重要内容。而水质预测是农村水环境污染防治工作的重点之一，准确的水质预测结果将显著提升水环境污染防治的及时性和有效性。

水质预测模型一般可以划分为机理性和非机理性两大类。机理性模型主要通过研究污染物扩散迁移时的一般规律，以及内在机理进行水质预测。非机理性依据经济社会驱动因素构建模型，主要包括人工神经网络预测模型[2-3]、灰色系统预测模型[4]、数理统计预测模型[5]、模糊数学预测模型[6]以及与“3S”技术相结合的预测方法[7]。机理性模型构建过程复杂，适用于基础资料和监测数据完整的水环境质量预测[8]；非机理性模型不需要对水质变化的内在规律进行描述，更适用于信息不够完备的水环境。其中灰色系统预测模型对水质监测数据信息量要求较少，符合农村地区缺乏水环境监测信息的现状[9]。本文将农村水环境视为“部分信息已知、部分信息未知”的灰色系统，通过采集、提取与农村水环境相关的网络搜索数据，深入挖掘系统间接信息，不断“白化”系统机理，并构建多变量灰色离散模型预测水环境演化趋势。最后，以广西梧州界首断面的水质监测数据为例进行实例分析，结果表明引入网络搜索信息能够显著提高水质预测精度。

2 相关研究评述

国外关于农村水环境质量的预测研究多采用经济社会驱动的非机理性模型。例如：Ali等[10]构建了巴基斯坦农村水环境污染的环境库兹涅兹曲线模型，预测绿色革命背景下水环境变化趋势。Alamdarlo[11]采用空间距离函数预测了印度经济增长环境对农村水环境的影响。Udeigwe[12]研究了农业生产行为对于水环境的影响模型。

我国农村水环境监测数据相对缺乏，因此灰色系统是较为常用的水质预测方法之一，通常可以分为单纯灰色预测模型和组合灰色预测模型两类。单纯灰色预测模型主要采用GM(1,1)模型实现水质指标的预测。例如：张可等[13]构建了环境政策作用下农村水环境的灰色预测模型。徐玉妃等[14]构建了水质单因子的灰色预测模型。Lee[15]的研究表明相对于传统的数值预测方法，灰色系统模型能在水质数据贫乏的情况下拥有较高的预测精度。

随着水质预测方法的不断发展，出现与灰色系统理论相结合的组合预测方法。例如：Li Zhenbo等[16]、刘东君和邹志红[17]分别将灰色预测模型与神经网络相结合构建水质预测模型。Luo Yi等[18]提出自适应灰色模型，并与神经网络相结合构建太湖流域水质预测模型。刘秀丽和涂卓卓[19]结合熵权法、灰色关联分析等方法研究2006-2014年间京津冀地区水环境安全趋势。钟文武等[20]将残差修正GM(1,1)与Markov相结合构建水环境指标预测方法。此外，灰色系统模型还可以与模糊集合理论[21]、小波变换分析[22]、趋势外推法[23]等其他理论方法结合，以提高水环境质量预测的准确性。

上述研究为水环境监测和保护提供了理论支撑，但由于农村区域水环境监测数据少，且缺乏直接表征因素作为输入变量，已有算法多依据水质数据自身规律进行预测，预测精度受到限制。因此，迫切需要挖掘非直接相关数据补充模型信息。已有研究表明，引入网络搜索信息能够提高不同领域预测模型的及时性和精确性。例如：Polgreen等[24]和Ginsberg[25]最早使用网络搜索信息预测流感。Fantazzini和Toktamysova[26]采用谷歌数据提高汽车销售预测精度。Clark等[27]采用谷歌趋势构建了游客预测模型。Papanagnou和Matthews-Amune[28]综合互联网信息构建了药品需求的VARX模型。蒋翠清等[29]采用网络文本软信息建立P2P网络借贷违约预测方法。王娜[30]采用百度搜索指数和媒体指数信息构建碳价预测的自回归分布滞后模型。此外，网络信息在金融市场[31]、房地产价格[32]、CPI[33]预测等领域均取得了较好的应用效果。

为此，本文尝试将网络搜索信息引入传统灰色预测模型中，从大量非直接监测数据中提取、筛选农村水环境关联因素，从而提高模型预测精度。首先分析网络搜索信息与农村水环境质量的关系；其次，综合专家咨询建议和数据可获取性构建网络搜索关键词清单，采集关键词搜索数据，并利用主成分分析法提取主要特征，形成初始网络搜索变量；然后，利用灰色关联分析法识别强关联的网络搜索变量；最后，构建不同频率数据的DGM(1,N)模型，建立基于网络搜索信息的农村水环境灰色预测模型，并将预测结果与传统灰色模型进行比较。

3 理论分析

农村水环境直接监测和表征数据较少，依据《水环境监测规范》(SL 219-2013)规定，国家重点水质站、国际河段、重要省际河流、污染严重河流等敏感水域每月采样1次，全年不少于12次。国家一般水质站、河流水系监测断面等全年采样不少于6次。虽然我国已部分实现地表水水质自动监测和实时发布，但受监测成本、维护成本等方面的限制，水质自动监测网的覆盖范围主要包括重点河流干流、一级支流、重点湖泊和水库等。就农村水环境而言，短期内难以全面实现水质自动化监测，大部分区域的水质监测信息仍然较为贫乏。因此，需要增加外部信息以提高水质预测的精度。

周围居民对水环境质量的感知具有直观性和准确性。宋国君等人以沿河居住的农民、渔民和城市居民为对象，通过问卷对淮河流域的水环境状况进行了调查[34]。调查结果与监测数据相比，在河流层次上，两者基本保持一致；在断面层次上，多数断面的调查结果与监测是一致的，部分断面的调查水质优于监测。由此可以看出，居民对水环境质量的认知与监测数据总体上是一致的，具有直观性。

互联网用户有关水环境的搜索记录是对水环境质量直观感受的体现，能够间接反映水环境质量的变化。网络的兴起为获取周围居民对水环境质量的直观感受提供了便利。若某地区的水环境质量状态发生变化，会对居民日常用水造成一定影响。而居民网络搜索行为源自水环境质量存在问题，并且因相关知识和信息的缺乏，往往需要借助他人的知识来解决自己的问题[35]。2014年4·10兰州自来水苯超标事件发生期间，“水污染”这一关键词在兰州的百度搜索指数于4月10日至4月11日急剧攀升，如图1所示。其中值得关注的是，在事件爆发前两三天，“水污染”关键词的搜索指数曾出现一次小波峰。由此可见，水环境相关关键词搜索指数的变动能够及时地反映出水环境质量的变化情况。

图1 兰州水污染事件中“水污染”关键词百度搜索指数

网络搜索信息产生于民众自发的网络搜索行为，能够直接反映民众的意图，且具有实时性、规模性的特点。截止2018年12月，我国农村网民数量达到2.22亿。随着农村地区网民数量的增加以及网络搜索信息的不断累积，未来获取到的搜索关键词将会更加完善。在互联网用户针对水环境的检索行为中，特定的检索词条是为了得到有关水环境的信息，如“有什么办法可以减少河水污染”。与其他领域利用网络搜索信息进行预测的方法相同，本文研究的关注点不在于对信息内容进行语义理解，而是找出相关关键词的使用频率与水环境质量之间的联系，并形成网络搜索关键词组合，运用于特定的预测模型。

4 模型构建

为了提高农村水环境质量的预测准确度，本文在已有灰色预测模型的基础上，引入网络搜索信息，提出一种新的预测方法。该方法利用网络搜索信息降低农村水环境系统的不确定性，这些网络搜索信息经过采集、筛选、组合构成灰色模型的输入变量。模型构建分为3个步骤：首先采集农村水环境质量相关的网络搜索信息，构建初始网络搜索变量；然后利用灰色绝对关联度过滤出强关联变量，和历史水质监测数据一同作为模型输入；最后建立不同频率数据的多变量离散灰色模型，从而构建水环境质量预测方法。

4.1 初始网络搜索变量构建

互联网用户常用的网络信息源包括搜索引擎、门户网站、论坛以及微博等社交软件。其中搜索引擎是整合网络信息资源的有效工具,逐渐成为互联网用户发现和搜寻知识的主要途径。因此，本文以搜索引擎作为网络搜索信息源，对涉及水环境关键词的搜索信息进行采集，利用数据降维等处理方法将原始数据转化为初始网络搜索变量。

首先，以环境质量评价中常用的“压力-状态-相应”(Pressure-State-Response，PSR)模型为基础，并增加水环境一般性词汇，构建初始搜索关键词清单；通过咨询相关专家，以及考虑关键词的可获得性，选择“化肥、农药、畜禽养殖、废水污染”等词作为基准关键词；其次，利用搜索引擎的热词推荐功能对词条进行扩展。扩展后的搜索词主要包含以下四个方面，如表1所示。

表1 关键词清单

通常网络搜索信息以天为单位，而农村水环境监测频率为周或月。因此，网络搜索信息的频率高于或等于水质监测数据频率。在预测模型构建时需要解决数据频率不同问题。

假设研究地区的水环境质量指标n期监测数据记为X=(x(1),x(2),…,x(n))。网络搜索信息的频率是监测数据的N倍。在关键词的初选阶段共搜集到t项关键词，则可以将t项关键词记为KW1,KW2,…,KWt。针对每一个关键词，收集n期的网络搜索数据，可以将t个关键词的n期网络搜索数据表示为：

KW1=(kw1(1),kw1(2),…,kw1(n))

KW2=(kw2(1),kw2(2),…,kw2(n))

…

KWt=(kwt(1),kwt(2),…,kwt(n))

(1)

其中：

kwi(j)=(kwi(j,1),kwi(j,2),…,kwi(j,N))

kwi(j)表示第i个搜索词与水环境监测数据第j期相对应的数据子序列。由于同一类问题的搜索词之间可能存在较高的相关性，本文采用主成分分析法对水环境的网络搜索数据进行降维，整合关联度较高的关键词，保证降维后的各个指标之间相互独立。假设KW1,KW2,…,KWt为初始网络搜索数据，采用主成分分析法提取的m个主成分U1,U2,…,Um为初始网络搜索变量。

4.2 关键变量选择

不同初始网络搜索变量涵盖的信息价值存在一定差异，因此需要运用科学的方法对初始网络搜索变量进行筛选，选择和农村水环境质量相关的关键变量，以提升预测模型效率及准确性。本文将采用灰色关联分析法量化计算初始网络搜索变量与农村水环境质量之间的关系密切程度，并过滤出强关联的网络搜索变量作为后序模型的输入。

设水质监测数据为X=(x(1),x(2),…,x(n)),初始网络搜索变量为：

Ui=(ui(1),ui(2),…,ui(n)),i=1,2,…,m

其中:

ui(j)=(ui(j，1),ui(j，2),…,ui(j,N))

两者的始点零化像分别为：

X0=(x0(1),x0(2),…,x0(n))

其中：

X={x(k)+(t-k)(x(k+1)-x(k))|k=1,2,…,n-1;t∈[k,k+1]}

Ui={ui(k)+(t-k)(ui(k+1)-ui(k))|k=1,2,…,n-1;t∈[k,k+1]}

由于网络搜索数据与实际监测数据频率不同，且水环境各类搜索词的峰值特征对水质预测更有意义。为此，在各时期内采用取最大值方式保留搜索词信息并降频至监测数据频率。初始网络搜索变量的降频序列为：

(2)

网络搜索变量的降频序列与水质监测数据频率一致，因此可以采用灰色关联分析法过滤出强关联的网络搜索变量作为模型的输入。由于水环境特征序列和各初始网络搜索变量序列的意义、量纲差异较大，故考虑运用灰色绝对关联度衡量初始网络搜索变量与水质间的关联程度[36]。

令

则称

(3)

为初始网络搜索变量与水质序列的灰色绝对关联度。根据灰色绝对关联度，ε0i的取值介于0和1之间，且仅与X和Vi折线的几何形状有关。即水环境监测数据折线与网络搜索变量的折线在几何形状上越相似，两者间的关联程度就越强。因此，可以根据不同网络搜索变量与水质序列的关联度选取关键变量，将其引入预测模型。

4.3 预测模型建立

传统的GM(1,1)水质预测模型利用少量水质监测数据，通过数据累加变换强化序列规律特征，实现水环境预测。但该方法属于单因子自身预测，虽然能够在一定程度上降低原始数据的不确定性，但难以通过增加水环境的白化信息，达到提高水环境质量预测精度的目的。

本文以多变量离散灰色模型为基础，引入关键网络搜索变量构建水环境预测模型。由于网络搜索变量的数据频率高于水质监测数据，为此需要构建不同频率数据的多变量离散灰色模型。

设原始序列为X(0)=(x(0)(1),x(0)(2),…,x(0)(n))，第i个初始网络搜索变量的原始序列为：

其中ui(j)=(ui(j，1),ui(j，2),…,ui(j,N))。经(3)式获取关键网络搜索变量记为：

则称

(4)

为基于网络搜索信息的跨频率DGM(1,N)预测模型。其中β1,β2,…,βN+1为模型的参数，可以采用文献[36-37]的方法进行参数估计。

不同频率数据DGM(1,N)不仅具有传统灰色模型的特点，而且能够有效引入高频率网络信息白化系统，建立大量间接数据与少量实测数据混合建模的桥梁。在确定关键网络搜索变量后，可以构建跨频率DGM(1,N)模型对农村水环境质量展开灰色预测。在建模过程中，将与农村水环境质量相关的若干网络搜索变量作为驱动项，而将所有未知因素视为灰作用量，通过驱动项和灰作用量共同建立差分方程预测水质的发展趋势，能够有效弥补传统单因素预测的不足。

5 实例分析

广西壮族自治区(以下简称广西)处于中国华南地区，气候温暖而湿润，河流众多，是我国粮食和甘蔗的重要产区。随着广西农业生产的迅速发展，当地水资源受到污染，对农业发展可持续化造成了阻碍。根据《2017年广西壮族自治区环境统计年报》的调查数据，农业源化学需氧量、氨氮排放量均超过工业源的排放量，农业源成为影响水环境的第二大污染源。

考虑到一般的农村水环境质量监测数据较难获取，本研究以广西梧州界首断面监测数据为对象进行实例分析。该断面位于桂-粤省界，是珠江流域的重点水质监测断面。采集该断面2014年1月5日至4月20日期间15周的化学需氧量COD数据，数据采集频率为周。具体如图2所示。同时，将前12期的数据作为训练集，后3期的数据作为预测集。

图2 广西梧州界首断面COD监测数据

(1)构建初始网络搜索变量。本文构建的初始关键词清单共包含161个网络搜索词。以百度搜索引擎为网络搜索信息源，通过其产品百度指数采集用户的关键词搜索概况，数据频率为日。其中部分关键词的获取需要另付较高的查询费用，因此仅以可直接获取的关键词为数据源，共收集73组关键词的搜索数据。由于研究的时间跨度不长，在收集的73组数据中，部分搜索词出现的频率过低。考虑到计算复杂度以及低频搜索词对研究贡献较小，在询问专家的建议后，按百度指数提供的检索频次筛选关键词，最终将27个关键词纳入搜索变量的构建步骤。

通过主成分分析法进一步对关键词进行降维，共计提取9个主成分U1-U9。这9个主成分的方差贡献率逐渐递减，携带原始信息的累积方差贡献率为96.721%。从因子得分系数矩阵来看，U1，U4，U8中“环境保护”、“污水处理”、“生态农业”等关键词的系数较大，主要反映的是居民对水环境保护信息的搜索情况。U2，U3，U7中“养殖”、“磷”、“钾”等关键词的系数较大，主要反映的是居民对农村水环境影响因素及成因的搜索情况。U5，U6，U9中“化粪池”、“汞中毒”、“水俣病”等关键词的系数较大，主要反映的是居民对水污染危害的搜索情况。

(2)选择关键网络搜索变量。根据式(2)、(3)计算U1-U9与COD实际值的灰色绝对关联度，取关联度阈值为0.7。当关联度大于等于0.7时，认为该主成分与COD实际值之间强关联。从多次试验过程来看，当网络搜索变量与COD实际值的整体关联度都较低时，不应轻易降低关联度阈值，而应重新构建网络搜索变量，以避免输入关联度较低的网络搜索变量影响模型的准确性和稳定性。

本次研究最终确定五个主成分U2、U3、U5、U8、U9，记为V1、V2、V3、V4、V5，作为关键网络搜索变量输入灰色模型。主成分分析与灰色绝对关联度的计算结果如表2所示。

表2 主成分分析与灰色绝对关联度结果

(3)建立预测模型。利用DGM(1,N)模型对水环境质量进行拟合和预测。为避免数据偶然性影响水质预测结果，采用五个网络搜索变量逐步进入模型的方式，一共得到31种不同变量组合的模型，分别计算对应的预测值。同时，运用GM(1,1)模型对水质进行预测作为对比，以平均绝对误差(MAE)、均方误差(MSE)、平均绝对百分比误差(MAPE)这3种常见的误差指标评价模型预测精度。

(4)模型精度对比。预测效果前五的模型如表3所示，其中V1,V2,V3,V4变量组合的灰色模型预测效果最佳。针对拟合结果，31种DGM(1,N)模型的平均MAE、MSE、MAPE值分别为0.301，0.116，0.202。针对预测结果，31种DGM(1,N)模型的平均MAE、MSE、MAPE值分别为0.744，0.440，0.298。无论是拟合还是预测结果，DGM(1,N)模型各项误差指标的平均值皆小于传统GM(1,1)模型。由此可见，从整体上来说，DGM(1,N)模型的预测结果更准确。然而，仍有部分变量组合模型的预测精度低于传统的灰色模型，最大预测误差MAE值达到0.993。这是因为网络搜素变量由分散的信息碎片组合而成，其作用机制具有复杂性和不确定性。因此在实际利用网络搜索变量进行水质预测之前，应尽量对各种组合模型的预测效果进行测试，以便筛选出最优模型。

表3 Top5模型预测效果

另外，通过观察预测效果前三的模型可以发现，随着输入网络搜索变量数目的增加，模型的预测效果变好。遗憾的是在加入全部变量后，模型的预测效果反而下降，说明本文在构建网络搜索变量的过程中还存在数据搜集不全面、特征提取不精确等问题，进而影响了模型预测效果。

取网络搜索变量组合V1,V2,V3,V4组建模型，得到的水质预测序列为:

{1.600,3.022,1.529,1.892,1.350,1.095,2.058,1.465,1.590,1.220,0.960,2.671,2.061,1.818,2.129}。通过绘制预测序列折线图，进一步观察模型预测效果，如图3所示。相对于GM(1,1)模型，V1,V2,V3,V4变量组合的灰色模型不仅拥有较高的预测精度，对COD数据的波动也能够有效地贴合，较好地拟合了水质监测数据的波动趋势。可见，加入网络搜索变量能够显著提高水质预测的效果。

图3 COD数据的实际值与DGM(1,N)_(V1,V2,V3,V4)模型预测值

6 结语

本文在分析网络搜索信息与农村水环境质量相关关系的基础上，利用网络搜索信息降低农村水环境的不确定性，提出以网络搜索变量作为驱动因素的灰色预测方法。通过模型构建以及实例分析主要得到以下几点结论：

(1)网络搜索信息与水环境质量之间存在相关关系。网络搜索信息是居民对水环境质量直观感受的体现，能够在一定程度上反映农村水环境的变化情况。随着农村互联网的普及，网络搜索信息能更加真实、准确地反映水环境的质量状况，未来搜索数据量的差异还可以体现农村水环境质量的变化程度，有利于迅速、有效地确定农村水环境污染的整治方案。

(2)实例分析结果表明：加入网络搜索信息可以显著改善水质灰色预测模型的准确度。对比传统灰色预测模型，本文提出的跨频率DGM(1,N)模型不仅能够提高预测精度，还可以有效地拟合水质的波动特征。同时，在一定程度上，随着网络搜索变量数目的增加，模型的预测效果更佳。

(3)网络搜索变量的组合方式显著影响模型的预测精度。研究发现，网络搜索变量的作用机制具有复杂性和不确定性，不同变量组合模型之间的预测结果差异明显。因此，在实际运用过程中，可以通过对变量组合方式的比较、筛选，确定最优的水质灰色预测模型。

本文的研究还存在一些不足之处，一方面初始关键词搜索清单难以覆盖所有用户，需要不断地对搜索关键词进行补充和完善；另一方面网络搜索变量的作用机制复杂，构建模型时还存在一定风险。后续的研究可以对网络搜索变量进行优化和控制，以降低模型的预测风险，更好地为农村水环境污染的防治工作提供决策支持。