李蓝汐
摘 要:文章分别运用BP神经网络模型和分形插值模型对水污染微博数量的年变化过程和一次事件的变化过程进行预测研究,分析和比较两种方法的适用性。研究表明,BP神经网络模型预测全年舆情变化的精度高于分形插值模型,而分形插值模型预测一次舆情过程的精度高于BP神经网络模型,在微博舆情预测上各有优劣。分形插值模型的舆情预测结果具有预测误差率较小、预测结果偏低和预测后一个时间点数值的准确率比预测长期舆情规律要准确的特性,适用于预测突发随机事件的舆情。
关键词:舆情;微博;预测;BP神经网络;分形插值
1 研究背景
预测是指在对预测对象的过去和现在进行相应调查和分析之后,找出对象发展变化的实质,根据找出的实质来预测对象将来的发展变化情况[1]。预测分析是在对事物未来科学分析的基础上,对事物发展和变化的规律性的调查和研究[2]。
舆情预测的研究可以分为两大类:一类是以数理统计和微积分等传统的数学物理方法为基础的预测模型,如:微分方程模型、时间序列模型、参数回归模型;另一类是基于智能机器学习算法的预测模型,如:灰色理论模型、支持向量机模型、神经网络模型、马尔科夫模型,这些方法各有优缺点。
1986年Barnsley 基于自相似性原理和迭代函数系理论提出了分形插值方法,适合于具有分形特征的曲线、曲面或非平稳数据的拟合,为函数逼近理论和计算机图形学提供了新思想、新工具,已广泛应用于自然科学、社会科学和工程技术的众多领域。
本文以水污染网络舆情(微博数量)为研究对象,运用分形插值模型和BP神经网络模型对水污染微博数量的年变化过程和一次事件的变化过程进行预测研究,分析比较两种方法的适用性。
2 水污染微博舆情预测方法与功能
2.1 水污染微博舆情预测方法概述
考虑到水污染微博舆情既有日常的话题讨论,又有水污染事件发生时的微博舆情突然增大到减少的过程,因此选择具有学习训练能力的BP神经网络模型和具有拟合非线性、不光滑、非平稳过程的分形插值模型。
BP神经网络模型通过数据训练,即确定两组数组:一组为输入数组,一组为输出数组。当输入某一数组后,对数据进行反复迭代使输出的结果与既定输出数组值接近,以确定各神经节点的权重,并根据该神经神经网络模型预测未来的数据。如以2015年的水污染微博舆情时间分布变化为输入数组,2016年的水污染微博舆情时间分布变化为输出数组,反复进行迭代以确定神经节点的权重。确定权重后可根据该神经网络模型,预测其他时间段的微博舆情时间变化分布。其优势体现在方法成熟,非线性拟合能力良好,目前BP神经网络是舆情预测技术中最为常见的技术,已有现有研究证明,BP神经网络模型与其他的时间序列模型、微分方程模型相比具有更好的稳定性和优越性。
分形插值是分形几何理论及其应用研究中的一个重要内容,它能很好地刻画现实中存在的复杂的曲线或曲面[3]。由于分形插值函数具有很强的灵活性和稳定性[4],只要适当调整其参数,所形成的插值曲线的维数就能取到1和2之间的任意值,因此它既可以拟合光滑曲线和平稳数据,更是在不光滑曲线和非平稳数据的拟合中显示出独特的优势。此外,利用分形插值的外延特性,即可以根据过去的规律预测未来时间点的数值。
3 水污染微博舆情时间变化预测的比较
微博作为网民高活跃度、信息高透明化的平台,对日常舆情和突发舆情反应敏感,本文以2015年1月1日至2017年12月31日微博平台上涉及的“水污染”舆情的微博数量随时间变化作为研究对象,分别采用BP神经网络模型和分形插值方法进行实验和预测研究。
为了比较两种预测模型对水污染微博舆情时间变化的预测精度,分別对1年和一次事件(10天左右)的预测结果进行比较分析。
3.1 一年微博舆情过程预测比较
采用BP神经网络模型和分形插值模型对2017年每日微博数预测与实际值比较如图1所示。仍采用计算值与实际值之差的绝对值作为误差,对累计误差平均值进行统计,得BP神经网络模型的累积平均误差为49,分形插值模型的累积平均误差为52。由此可见,对于一年这样长时间的水污染微博舆情预测,BP神经网络模型经过2015和2016年两年的数据训练,其预测值与实际值的累积平均误差小于分形插值模型;但从图形上看,BP神经网络模型对峰值的预测能力不如分形插值模型,不过由于分形插值法预测的微博峰值与实际峰值之间存在着相位差,因此统计的累积误差还是比BP神经网络模型大。
3.2 一次微博舆情过程预测比较
一次微博舆情从开始增加-到达峰值-然后下降的整个发展过程也是十分关心的问题。从2017年微博数变化可以看出,单日微博数超过500条的有4次,即2017年1月6日、6月3日、8月 15日和9月7日,下面分别针对其中3个高微博数舆情过程,比较两种模型的预测结果,预测时所用方法和参数均与一年微博舆情过程预测相同。
3.2.1 事件一
2017年1月1日至13日是由柴静雾霾调查引发的一次水污染话题微博突然增加的过程,在13天里共有微博2077条,每日平均约159.8条,单日最少微博数49条,单日最多538条(1月6日)(见图2)。从BP神经网络模型和分形插值模型的预测结果(见图3)看,两个模型预测的峰值都比实际发生时间滞后1天,且都没有达到实际的峰值,相对而言,分形插值模型预测的峰值比BP神经网络模型要高一点;分形插值模型预测的日最小微博数也与实际值更接近,但分形插值模型预测的日平均微博数不如BP神经网络模型与实际值接近;BP神经网络模型和分形插值模型预测的总微博数均较实际值小10%和20%。具体特征值比较如表1所示。
3.2.2 事件二
2017年6月1日至9日是由儿童饮用水引发的关于水污染话题微博突增的过程,9天内共有微博1 550条,每日平均约172.2条,单日最少微博48条,单日最多687条(6月3日)。从BP神经网络模型和分形插值模型预测的结果看,分形插值模型预测的峰值比实际发生时间滞后1天、峰值达到实际的58%、日最少微博数也与实际值相同;BP神经网络模型没有预测出峰值,日均微博数与分形插值模型预测值接近,但都小于实际值。BP神经网络模型和分形插值模型预测的总微博数较实际值分别小36.8%和32%。具体特征值比较如表2所示。
3.2.3 事件三
2017年8月12日至20日是由雄安新区治理水污染政策发布引发的关于水污染话题微博突增的过程,9天里共有微博2376条,每日平均约264条,单日最少微博105条,单日最多947条(8月15日)。从BP神经网络模型和分形插值模型预测的结果看,BP神经网络模型和分形插值模型预测的峰值均比实际发生时间滞后1天,两者预测的峰值分别是实际峰值的32%和62.3%;分形插值模型预测的日最小微博数小于实际值、但大于BP神经网络模型的预测值;BP神经网络模型预测的日均微博数与实际值接近,分形插值模型预测的日均微博数比实际值大34%;BP神经网络模型和分形插值模型预测的总微博数较实际值分别小26.3%和14.5%。具体特征值比较如表3所示。
3.3 水污染微博舆情时空变化预测结果分析讨论与启示
3.3.1 分形插值模型预测结果的原因分析
(1)预测误差率较小。分形插值模型因为有参数的随机性,因而在预测不确定事件中显示出一定的优势,因此预测准确性较高。
(2)预测结果偏低。笔者认为原因在于预测过程中对于预测点yN+1采用了以步长ε=0.01从0到1进行逐步搜索方法,找到最小均方差对应的yB。因此在预测累计微博数的时候就会出现低于实际值的情况。
(3)预测后一个时间点数值的准确率比预测长期舆情规律要准确。由于分形插值模型的外延性特征,适用于预测后一个未知时间点的数值,但预测后若干个时间点结果精度较低。若将较长的舆情序列分成多个部分进行预测,分形插值模型的参数将有所变化,会有效提高预测结果的准确度。
3.3.2 BP神经网络模型与分形插值模型的预测结果差异及原因分析
在水污染舆情变化预测过程中,其预测结果上BP神经网络模型预测长时间舆情更为准确,分形插值模型预测一次微博突增的事件更为准确。
对于长时间(一年)的水污染輿情预测,BP神经网络模型的累积平均误差小于分形插值模型;对于一次微博数突增的事件过程,分形插值模型在每日最多微博数、微博总数和日均微博数上的平均误差小于BP神经网络模型。
上述预测结果差异的根本原因在于BP神经网络模型和分形插值模型的原理不同。BP神经网络模型是一种以数据样本进行训练为基础的基于智能机器算法的预测模型,而分形插值模型预测是根据分形理论所特有的随机性和不确定性进行预测的模型,基于传统统计学理论。
4 结语
本文基于微博平台,对水污染舆情进行分析并设计水污染舆情预测的实验方案对水污染微博舆情进行预测。得到以下结论:
(1)水污染微博舆情根据时空变化特征分为一般水污染微博舆情和水污染突发事件微博舆情,以一般水污染微博舆情数量较少、波动较小,水污染突发事件微博舆情迅猛增长、波动大为特征。
(2)本文运用BP神经网络模型和分形插值模型对水污染微博舆情时间分布进行预测。根据2015年1月1日至2016年12月31日水污染微博舆情时间分布,建立上述两种模型预测2017年全年时间分布,并与2017年全年实测微博舆情分布情况进行比较。由于分形模型预测是基于分形理论所特有的随机性和不确定性,在预测不确定事件中显示出一定的优势。通过两种方法的对比可知,对于全年舆情,BP神经网络模型所预测的2017年微博数比分形插值模型预测的精度要高一些;对于一次微博数量徒增的峰值预测,而分形插值模型的预测结果比BP神经网络模型更接近实际峰值,分形插值模型预测的每日最少微博数、最多微博数和平均误差比BP神经网络模型更接近实际值,日平均微博数不如BP神经网络模型的接近实际值。此外,由于分形插值理论的特性,该理论在更适用于连续的非线性曲线的预测中,因此对于大量的连续时间区间内的舆情,分形插值理论的预测方法可以得到更加连贯的预测结果。通过BP神经网络模型和分形插值模型对水污染微博舆情时间分布的预测实验显示出两种模型由于其理论不同,在微博舆情预测上各有优势。
[参考文献]
[1]GLYNN C J. The spiral of silence: public opinion--our social skin. by Elisabeth Noelle-Neumann University of Chicago Press[J]. Social Forces,1986(3):828-829.
[2]张华. 基于优化BP神经网络的微博舆情预测模型研究[D].武汉:华中师范大学,2014.
[3]BARNSLEY M F. Fractal functions and interpolation[J].Constructive Approximation,1986(2):303-329.
[4]WANG H Y, YU J S. Fractal interpolation functions with variable parameters and their analytical properties[J].Journal of Approximation Theory,2013(175):1-18.
(編辑 姚 鑫)
Comparison and analysis of microblog public opinion prediction of water pollution based on type interpolation model and BP neural network model
Li Lanxi
( Business School, Hohai University , Nanjing 210000, China)
Abstract:This paper takes the quantitative characteristics of micro blog public opinion of water pollution as the research object, obtains micro blog data related to water pollution through crawler tools, uses BP neural network model and fractal interpolation model respectively to predict the annual change process of water pollution micro blog number and the change process of an event, analyzes and compares the applicability of the two methods. The research shows that the accuracy of BP neural network model is higher than that of fractal interpolation model, while the accuracy of fractal interpolation model is higher than that of BP neural network model. There are advantages and disadvantages in microblog public opinion prediction. The results of the model are low and the error rate is small, and the accuracy rate of the last time point is more accurate than that of the long-term public opinion, so it is suitable to predict the public opinion of the unexpected random events.
Key words:public opinion; microblog; prediction; BP neural network; fractal interpolation