基于因果模型的主题热度计算与预测方法

2016-05-04 02:52范意兴余智华程学旗
中文信息学报 2016年2期
关键词:高斯面板预测

杜 慧,郭 岩,范意兴,张 瑾,余智华,程学旗

(1. 中国科学院 计算技术研究所,中国科学院网络数据科学与技术重点实验室,北京 100190; 2. 中国科学院大学,北京 100190)

基于因果模型的主题热度计算与预测方法

杜 慧1,2,郭 岩1,范意兴1,2,张 瑾1,余智华1,程学旗1

(1. 中国科学院 计算技术研究所,中国科学院网络数据科学与技术重点实验室,北京 100190; 2. 中国科学院大学,北京 100190)

网络是目前最重要的信息传播渠道,其自由性和丰富性使得信息迅速传播。挖掘网络中的热点主题对政府政策的制定、企业经营决策的调整可以提供强有力的支持,并能够满足网民对热点主题的关注需求。主题数量的庞大使得主题热度值的计算尤为重要,该文分析热度的形成原因,基于因果模型并采用面板数据,给出一种较为客观可行的主题热度计算模型。该模型使用易于获取的数据进行计算,给出较为客观的热度度量,进而便于不同主题、不同日期间的热度对比。在此基础上,通过对热度变化规律的考察,提出一种基于多峰高斯曲线拟合热度变化进行主题热度预测的思路。

主题热度;因果模型;面板数据;热度预测;多峰高斯曲线

1 引言

互联网快速发展使其已成为信息获取的最重要的渠道。政府部门通过官方网站发布政策法规,企业网站提供企业及其产品信息,网络媒体实时更新新闻资讯。更重要的是,网民可以在互联网中自由地发表言论。互联网的自由性和庞大的信息量使得其难以人工整理归类,话题发现与跟踪技术[1]在大量的信息中发现重要消息,旨在自动发现聚类主题。研究者应用不同的聚类算法于话题的检测问题中,如Single-Pass聚类[2]、增量K-means聚类[3]、层次聚类[4]等。话题发现将互联网中出现的海量自由信息实现了主题的归类,为后期的处理提供了可能性。聚类后的主题数量仍非常庞大,用户只想获知真正的热点;政府企业需要掌握热点信息以便更好地运营;热点信息的推送功能对各大新闻、社交网站等提高服务质量尤为重要;主题热度也可以为搜索引擎对新闻搜索结果的排序问题提供一定的支持。仅靠人工对聚类后的主题进行热度评定在效率上是无法满足需求的,迅速合理地计算主题热度具有重要意义。同时热度的未来变化对政府、企业决策的制定和调整也发挥着重要的作用,热度的预测问题也成为了当前研究热点之一[5-6]。

本文对主题热度进行研究,分析影响主题热度形成的因素,基于因果模型[7]提出一种较为客观可行的计算模型,并在此基础上根据主题热度的波浪式发展规律使用多峰高斯曲线进行预测。实验结果表明该方法能够在允许的误差范围内较为合理地衡量主题热度,并预测热度的未来变化。

2 相关工作

新闻主题热度的研究中认为热度受到媒体关注度、用户关注度的影响。Mao[8]使用新闻文章、来源网站和主题之间相互增强的关系,从媒体关注度的角度研究。罗亚平[9]定义热度为二者的加权和,使用相关报道数量量化一定时间内站点上主题的媒体关注度,使用用户的浏览行为量化用户关注度。Wang[10]基于衰退理论[11]刻画主题的生命周期,根据文章数计算媒体关注度,利用搜索引擎提供的用户浏览行为计算用户关注度。Li[12]增加了热度的另外一个特征: 时效性,利用线性回归来计算主题热度值。

一般认为点击量大的主题的热度较高,有研究者直接将点击数作为主题热度值。在此基础上,文献[5]利用相似主题的热度变化预测新主题的热度,文献[13]基于小波多分辨尺度分析理论对主题热度进行预测。点击量体现了网民对主题的阅读量,广泛被网民关注的主题的热度也相应较高,但仅以点击量来衡量热度是不合理的。文献[14]利用主题的点击、回复和博文转载数量加权得到热度值,并利用马尔可夫链来预测热度趋势。

主题热度的定量计算虽有不少成果,但缺乏统一的衡量标准,大多是在给定的数据(语料)、网站或者时间段内计算相对热度,不同日期的热度间的可比性较弱[5-6,9,13],或者为热度及热度变化趋势的预测而设计[6,14],对热度的衡量不够细致。热点主题的出现和分布是不均匀的,往往节假日期间出现的主题受到的关注较少,且可能一段时间内没有热点主题出现。因此,一个合理的主题热度的度量模型不仅需要实现同一时间内主题热度间的对比,还要能够刻画热度随时间的变化。本文分析热度的形成原因,结合已有的热度研究,使用因果模型[7],并采用面板数据[7],给出一种较为客观可行的主题热度计算模型。该模型计算所需数据易于获取,计算方法简便高效。同时根据主题热度的波浪式变化规律,本文采用多峰高斯函数模拟热度变化进行热度预测。

3 基于因果模型的主题热度计算与预测

3.1 基于因果模型的热度计算

影响主题热度的因素很多,并且有的影响因素难以获取或量化。例如,参与主题的用户的身份特征对主题热度有影响,但不是所有的网站都提供用户信息,且不同网站的用户之间难以量化对比。考虑到计算的可操作性,本文选取影响热度的因素有主题的点击量、评论量、文章数量和来源数量,相应的因果模型如图1所示。一般认为新闻通道中对主题的报道量较为重要,论坛通道的特色是大量的用户评论,而对博客通道来讲因素间的重要性相差不大。不同通道间的量级不同,主题热度分通道按天计算。

图1 主题热度计算的因果模型

热度难以量化的原因在于其范围的不确定性,本文指定热度值范围[0-5]。其中,5表示主题极热,受到全民甚至世界范围的关注;4表示非常热,众多人士普遍关注;3是比较热;2是热度程度一般;1为不热,受到的关注很少。例如,“芦山地震”发生当天受到了世界的关注,热度为5;而同一天“复旦大学投毒”事件的热度略低为4。热度的影响因素点击量、评论量、文章数量和来源数量都是无范围的数值,计算热度前需要对它们进行量化,使用形如Sigmoid函数:

(1)

分别量化得到0-5的范围内主题的点击热度hclick、评论热度hreply、流量热度hdoc和来源广度hsource。主题热度H的计算公式如式(2)所示。

(2)

其中,w1、w2、w3、w4为权重,和为1。

3.2 结合面板数据的热度计算因果模型

面板数据是在不同时刻对样本进行重复观测的结果,本文中指不同日期主题热度及其影响因素数据。3.1节中的计算模型仅考虑当天的影响因素,那么因素值间的大小关系也就决定了主题热度间的高低。但实际并非如此,表1中的“点击量”、“回复量”、“文章数”、“来源网站数量”是采集到的2013年4月8日新闻通道中主题“朝鲜危机”和“中国梦”的相关基础数据。从基础数据上看,“中国梦”与“朝鲜危机”的热度差不多甚至更高一些。但是专家通过主观分析,并参考了新浪热点新闻排行榜、百度新闻热搜词榜单等第三方资料,给出的热度排名是: “中国梦”低于“朝鲜危机”(表1)。这个评价是合理的,因为前一天发生的“朝鲜建议俄驻朝大使馆撤离”事件和当天发生的“韩媒曝朝鲜正准备第四次核试验”事件,使得当天“朝鲜危机”的热度明显高于“中国梦”。

人们对主题热度的感知是一个连续的过程,对热度的判断会受到以往经验的影响,即热度高的主题易于在未来得到较高的热度评价。鉴于此,模型引入面板数据,将前一天(t-1)主题的热度作为影响当日(t)主题热度的一个因素,更新后得到热度计算的稳定得分因果模型如图2所示,热度计算公式更新为式(3):

式中,WT为流域中下游年径流变化的总量;WH为人为活动对流域中下游年径流变化的影响量;WC为气候变化对流域上游年径流变化的影响量;WN为背景值,W入河为流域入河径流量;W山口为流域水文站的实测年径流深;WHN为流域水文站的模拟值或预测值;ηH为人为活动对流域中下游径流变化影响的百分比;ηC为气候变化对流域中下游径流变化影响的百分比。

(3)

其中,w1+w2+w3+w4=1,0

图2 采用面板数据的主题热度计算因果模型

表1 主题数据

3.3 采用高斯多峰拟合的热度预测

热度预测旨在挖掘热度的未来变化情况,为决策的制定和调整提供支持。文献[6]中使用高斯函数模拟帖子回复数增长到高峰再衰减的过程。类似地,主题热度的发展也总是经历产生、增长、高峰、衰退的过程, 高斯函数对主题热度的模拟具有一定的合理性。然而,主题与帖子不同: 帖子具有时效性,用户一般不会去关注很久以前的帖子;主题却会由于新出现的消息或进展带来下一轮的再发展循环,呈现出波浪式变化的轨迹。

图3 主题“国五条”的热度变化曲线

图3是主题“国五条”自2013年3月8日起50天的热度变化,包括专家对该主题每天的热度标注值和采用面板数据因果模型计算的结果,图中清晰地看到热度呈现出波浪式的变化轨迹。多峰高斯函数系由多个单峰钟形高斯函数叠加而成,具有波浪式的函数图像,因此我们采用多峰高斯函数系拟合主题的热度变化并进行热度预测。使用多峰高斯函数系如式(4)所示。

(4)

4 实验分析

使用近两个月内出现的主题进行实验,全网采集新闻通道主题的点击量、评论量、文章数量和来源数量,由于很多新闻网站不提供新闻的点击量,实验不再考虑点击热度。专家根据对热点新闻的理解并结合百度新闻热搜词导航、新浪热点新闻排行等第三方资料,按照本文对热度指定的范围对主题按天进行热度标注。将数据集随机平均分为训练集和测试集,利用训练集训练得到模型参数,使用测试集来检验模型的效果。

4.1 热度实验

已有的研究多是采用人工指定或者层次分析方法得到权重,没有进一步评价计算方法的效果。目前并没有关于主题热度的标准数据集,为了对本文模型进行验证,我们将本文方法: 因果模型和结合面板数据的因果模型(简记: 面板数据)与专家打分法进行热度计算效果的对比,专家打分实验采用层次分析法得到权重。使用平均绝对偏差(MAD,MeanAbsoluteDifference),如式(5)所示。

(5)

基于层次分析法的专家打分表(表2),计算得到的权重见表3,本文模型训练得到的权重参数也在表3中列出。从表3中看出,新闻通道中主题的流量热度对热度起到了关键性的作用, 这与直观感觉是相符的。热度计算的MAD在表3中最后一列,因果模型的MAD较专家打分法低一些,但是仍然较大。这是因为热度本身是一个不确定的概念,难以得到精确的结果。使用面板数据将主题前一天热度的影响引进后,MAD进一步降低达到0.36,计算效果有了提升。给定不同的偏差阈值p,三组热度计算的准确性对比如图4所示,随着允许偏差p的提升,准确率逐步提高,因果模型的计算准确率明显高于专家打分法,面板数据的效果更好一些,在允许偏差p为0.5时准确率达到75%,允许偏差p为 0.6时达到81%。

表2 新闻通道、评论热度、流量热度和来源广度关于主题热度的两两重要程度对比专家打分表

表3 权重参数和平均绝对偏差对比表

图4 主题热度计算的准确率对比图

我们选取主题“复旦大学投毒”从2013年4月15日起12日内的热度变化情况,将三组实验计算的热度值与专家标注的热度进行比较(图5)。对于该主题,仅考虑截面数据的因果模型的效果比专家打分略优,结合面板数据的计算结果与实际热度(专家标注)的拟合效果最佳。第十天面板数据的计算结果的偏差较大,但是此时的热度值比较低,而我们关注的是热点主题,此时只要传播一个该主题热度较低的信号就可以了。

图5 主题“复旦大学投毒”热度计算结果比较

4.2 预测实验

对主题热度变化拟合的效果决定了预测的准确性,我们将采用多峰高斯函数对未来热度进行预测,并与单峰拟合的预测结果进行对比。多峰高斯函数的关键在于确定波峰的数量,最简单的方式是人工指定,通过历史热度数据来确定更为合理。3.3节中以主题“国五条”的热度变化来说明热度的波浪式发展轨迹,图6是对该主题使用单峰和多峰高斯拟合的结果,可以看出多峰拟合的效果远优于单峰拟合,单峰是多峰波峰数量为1的特例。但是图中前十天的拟合效果并不好,这是因为拟合选取的时间段太长,拟合效果无法兼顾所有,拟合最优的部分往往处于真正的峰值附近。因此在实际预测时可适当地缩短拟合天数,局部求解再组合。

图6 主题“国五条”热度变化曲线与单峰、多峰高斯拟合对比

我们使用主题t-1天的热度数据预测第t天的热度,主题“禽流感”的热度预测值与误差(预测值与实际值的差距)随日期的变化情况如图7所示。预测实际是从第四天开始的,由于数据量太小,第四天的预测效果很差。刚开始由于数据量小限制了多峰拟合的效果,导致预测效果略低于单峰预测,从第九天开始,多峰预测效果开始提高,预测误差基本小于1,能够满足实际预测的需求。

图7 主题“禽流感”的热度预测及预测误差变化图

5 结论

本文针对主题热度的研究多是限定在一个或多个网站的某一时间段内计算相对热度的状况,结合已有研究成果,并采用面板数据的因果模型对主题热度计算问题做了进一步尝试。文章提出一整套包括热度标注和计算的模型,并在此基础上提出高斯多峰拟合预测热度的方法。该模型需要的数据易于获取,实验使用涵盖了主流网站的数据集,从而保证了计算的合理性和可行性。虽然目前模型计算的准确率还不是特别高,但是热度本身是一个不确定的概念,较已有的研究成果也有了一定的提升,在偏差允许的范围内具有实用性。在未来研究中,将进一步挖掘影响热度的因素和因素作用的方式,提高热度计算与预测的准确性。

[1] Allan J, Carbonell J, Doddington G, et al. Topic detection and tracking pilot study: Final report[C]//Proceedings of the DARPA Broadcast News Transcription and Understanding Workshop, 1998:194-218.

[2] 贾自艳,何清,张俊海等.一种基于动态进化模型的事件探测和追踪算法[J].计算机研究与发展, 2004, 41(7): 1273-1280.

[3] J P Yamron, S Knecht, P van Mulbregt. Dragon’s Tracking and Detection Systems for the TDT2000 Evaluation[C]//Proceedings of Topic Detection and Tracking workshop. Washington, USA, 2000:75-80.

[4] Dai X, Chen Q, Wang X, et al. Online topic detection and tracking of financial news based on hierarchical clustering [C]//Proceedings of the 2010 International Conference on Machine Learning and Cybernetics. 2010: 3341-3346.

[5] 聂恩伦,陈黎,王亚强等. 基于K近邻的新话题热度预测算法[J].计算机科学, 2012,39(6A):258-260.

[6] 卢珺珈,张宏莉,张玥. 基于BBS 的热点话题发现与态势预测技术的研究[J].智能计算机与应用, 2012,2(2):2-5.

[7] (美)贝里等著,吴晓刚主编. 因果关系模型[M]. 格致出版社, 2011.

[8] Mao X, Chen W. A method for ranking news sources, topics and articles[C]//Proceeding of ICCET 2010, IEEE (2010), 2010, 4:170-174.

[9] 罗亚平. 基于用户浏览行为的网络热点话题发现模型研究[D]. 北京邮电大学硕士学位论文, 2008.

[10] Wang C, Zhang M, Ru L, et al. Automatic Online News Topic Ranking Using Media Focus and User Attention Based on Aging Theory[C]//Proceeding of CIKM 2008, ACM (2008), 2008: 1033-1042.

[11] Chen C, Chen Y T, Sun Y, et al. Life Cycle Modeling of News Events Using Aging Theory[C]//Proceeding of ECML 2003, Springer (2003): 47-59.

[12] Li H. A Linear Regression Based News Topic Hotness Calculation Approach[J]. Journal of Computational Information Systems, 2012, 8(20): 8637-8644.

[13] 张虹,赵兵,钟华.基于小波多尺度的网络论坛话题热度趋势预测[J].计算机技术与发展,2009,19(4):76-79.

[14] 刘勘,李晶,刘萍.基于马尔可夫链的舆情热度趋势分析[J].计算机工程与应用, 2011,47(36):170-173.

Calculation and Prediction of Topic Popularity Based on Causal Model

DU Hui1,2, GUO Yan1, FAN Yixing1,2, ZHANG Jin1, YU Zhihua1, CHENG Xueqi1

(1. CAS Key Lab of Network Data Science and Technology, Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100190, China; 2. University of Chinese Academy of Sciences, Beijing 100190, China)

Internet, with its freedom and richness, has become the most important channel of information dissemination. Hot topic mining benefits both policy making for government and business strategy adjustment for company. This paper presents an objective method to calculate topic popularity based on causal model by analyzing its influence factors. Data required by the algorithm is easy to obtain and considering panel data makes our algorithm more effective. Then we use multi-Gaussian curve to fit the movement of topic popularity which is useful for popularity prediction.

topic popularity; causal model; panel data; popularity prediction; multi-gaussian curve

杜慧(1986—),博士研究生,主要研究领域为自然语言处理、文本倾向性分析。E⁃mail:duhui@software.ict.ac.cn郭岩(1974—),博士,高级工程师,主要研究领域为网络信息处理。E⁃mail:guoy@ict.ac.cn范意兴(1990—),博士研究生,主要研究领域为信息检索。E⁃mail:fanyixing@software.ict.ac.cn

1003-0077(2016)02-0050-06

2013-09-04 定稿日期: 2013-11-06

国家973计划(2012CB316303,2013CB329602);国家863计划(2014AA015204);国家自然科学基金(61232010,61425016,61572473,61572467)

TP391

A

猜你喜欢
高斯面板预测
无可预测
选修2-2期中考试预测卷(A卷)
选修2-2期中考试预测卷(B卷)
选修2—2期中考试预测卷(A卷)
石材家具台面板划分方法
数学王子高斯
天才数学家——高斯
MasterCAM在面板类零件造型及加工中的应用
Photoshop CC图库面板的正确打开方法
从自卑到自信 瑞恩·高斯林