隐马尔科夫模型应用领域、热点及趋势分析

2015-07-21 00:43张璇周峰
现代商贸工业 2015年15期
关键词:可视化分析

张璇 周峰

摘 要:随着隐马尔科夫模型相关理论的进步,在许多领域出现了大量的关于隐马尔科夫模型应用的文献。为厘清国内外对隐马尔科夫模型的研究轨迹,以Web of Science(SCI)中收录的2005-2014年间关于隐马尔科夫模型的应用文献为数据源,利用CiteSpace II对所收集的2826篇研究文献进行可视化分析,使用图谱的形式展示结果,客观全面地分析隐马尔科夫模型的应用领域、研究热点和发展趋势。同时,探究其主要研究国家与研究机构的分布情况,期望能对进一步研究和发展隐马尔科夫模型提供一定的借鉴作用。

关键词:CiteSpace II;可视化分析;隐马尔科夫模型;热点应用领域

中图分类号:F27

文献标识码:A

文章编号:1672-3198(2015)15-0063-03

1 引言

隐马尔科夫模型是一种重要的统计分析模型。其具有双重随机过程,分别由一条隐藏状态的马尔科夫链和描述每个状态对应观测值的随机过程组成。近几十年来,隐马尔科夫模型被广泛地应用于各领域中,比如语音识别、生物学、控制、雷达故障检测和计算机视觉等。随着大数据时代的到来,互联网与金融相互融合,隐马尔科夫模型在海量金融数据中的应用也受到了人们的关注。因此,了解其演进情况和发展趋势,把握当前的应用热点,对深入研究有着重要的意义。

美国Drexel大学华人学者陈超美教授基于JAVA平台开发了信息可视化软件CiteSpace II,通过对科学文献题录数据的分析与处理,绘制出知识图谱能够显示一个学科或知识域在一定时期发展的趋势和动向,形成若干研究前沿领域的演进历程。目前,关于隐马尔科夫模型应用进展的文献综述较少。在这样的背景下,本文整理和分析了相关的研究文献,厘清了国内外对隐马尔科夫模型应用研究的演进轨迹。并利用信息可视化分析软件CiteSpace II对近十年的研究文献进行了详细的分析和处理,用图像展示了隐马尔科夫模型的应用领域,用图谱的形式显示了隐马尔科夫模型的应用热点和演化趋势。最后,探讨了隐马尔科夫模型的主要研究国家和研究机构。

2 国内外的研究进展

Baum和Petrie(1966)提出隐马尔科夫模型(Hidden Markov Model),他们介绍了该模型的一些统计性质,但并未称其为隐马尔科夫模型,而是马尔科夫链的概率函数。隐马尔科夫模型最早应用于语言识别领域中,Raviv(1967)研究了相关问题,并给出马氏依赖假设下的最优决策规则。它主要使用马尔科夫链的状态表示语言的字符。接着,他进行了一系列的实验,并给出每次实验识别系统的字符错误率。除了自然语言领域,隐马尔科夫模型也可用来分析生命现象,Nielsen、Lundegaard和Worning(2003)等人将隐马尔科夫模型与神经网络相结合,预测丙型肝炎病毒的基因组中T细胞表位,以指导疫苗设计的过程。

接下来,总结一下近五年应用隐马尔科夫模型的情况,主要是介绍一些被引用较多的研究成果。Conn和Cooch(2009)应用了隐马尔科夫模型架构下的捕获-再捕获模型在疾病研究当中。使用马尔科夫链表示未知的疾病状态,使得参数估计精度大大提高了。Reddy、Mun和Burke(2010)等人运用隐马尔科夫模型创造了一个交通方式识别系统。通过手机数据分析使用者所处的状态,并对16个手机使用者进行实验。Sikorsa、Hodkiewicz和Ma(2011)讨论了多种模型在预测工业设备剩余使用寿命中的应用,文中说明隐马尔科夫模型能较好地运用于设备的监测和预测中,但是计算过程较复杂。

近几十年,国内学者在已有研究成果的基础上,对模型进行了改进并具体说明了其在实际当中的应用。应用领域与国外类似,主要是集中在语音和行为识别、分子生物、故障诊断、图像处理和经济等领域。马宝山和朱义胜(2008)将隐马尔科夫模型与前向算法结合,提出一种新的参数优化算法,大大降低了传统EM算法的计算量。仿真结果表明新算法对外显子位置的预测是准确的,能更好地从DNA序列中识别蛋白质编码区。隐马尔科夫模型也常用于入侵检测的研究中,模型的双重随机过程刚好适合描述该网络行为。刘宗礼和孔祥才(2007)使用一条马尔科夫链来描述网络中的正常行为和异常状态,建立了一个基于隐马尔科夫模型的入侵检测模型。但是现实系统并不能完全满足马尔科夫的条件,闫新娟、谭敏生和严亚周(2012)等人在此基础上改进,把隐马尔科夫模型的输出作为神经网络的输入,神经网络的输出即为最终结果,使用混合的检测方法,具有更低的误报率和漏报率。

隐马尔科夫模型在文字、图像和行为识别方面的应用,研究文献已经有许多。朱旭东和刘志镜(2012)将模型运用于通过监控视频识别人体异常行为,结合层次建模和时序建模,聚类运动词汇为简单动作,聚类简单动作为全局复杂行为,弥补过往方法精度和计算效率的不足。近年来,隐马尔科夫模型在经济、金融等新兴领域的应用也越来越多。任晓涛、滕阳春和刘达(2010)使用该模型较好地分析居民消费价格指数的变动规律,对我国宏观经济的预测有一定的指导意义。黄晓彬、王春峰和房振明(2012)等人对中国股市进行信息探测,使用贝叶斯和马尔科夫链蒙特卡洛的方法,验证了该模型对市场信息的识别能力较强。

3 基于CiteSpace II的可视化分析

3.1 数据来源与处理

本文研究数据来源于Web of Science(SCI),时间跨度选择所有年份,检索关键词为“the application of hidden markov model”,共计2826条记录符合条件。数据导出方式选择“全纪录并包含所引用的参考文献”,数据下载日期为2014年10月。

3.2 隐马尔科夫模型应用领域共被引分析

将数据导入CiteSpace II中后,设置时间范围为2005-2014年,时间跨度为1年,设置N(每个分区中提取的被引次数最高的文献数)为30,c、cc和ccv(c为最低被引次数,cc为本分区内的共被引次数,ccv为规范化以后的共被引次数)阈值分别为(4,3,20)、(4,4,20)和(3,4,20),其余的由线性内插值来决定。结果如表1所示。

该网络由327个节点、962条连线组成。其中,被引频次第三多的为Baum、Petrie、Soules和Weiss(1970)发表的文章,被引频次为145次,中心度为0.05。他们为了估计观测值所在状态的概率,建立了向前-向后迭代算法。而且建立了参数极大似然估计方法,即有效的数值迭代方法:Expectation—Maximum(简称EM)算法。被引频次第二多的是Dempster、Laird和Rubin(1977)发表在Journal of the Royal Statistical Society上的文章,引用频次为183次,中心度为0.06。他们将著名的EM算法应用于隐马尔科夫模型中。被引频次最多的是Rabiner(1989)发表的文章,引用频次为670次,中心度为0.07。文中详细地介绍了隐马尔科夫模型的理论和相应的算法,并显示了其是如何应用于语音识别领域的。

3.3 隐马尔科夫模型应用研究热点分析

对共被引网络进行聚类,以探测隐马尔科夫模型应用研究的热点,得到16个聚类。其中,Modularity Q=0.8102,Modularity Q 取值范围为0到1之间,越接近1,说明这个网络越具有模块性,可以较好地聚类。Mean Silhouette=0.6316,取值范围为-1到1,越接近1,说明聚类的主题越明确,类内的文章内容越相近。本文聚类结果的Modularity Q 值和Mean Silhouette值说明了本次聚类是较好的。聚类标题词显示了研究前沿主题,每一个不规则多边形中的文献为一类,各聚类主要指标列表见表2所示。

从表2中可以看到近二十年隐马尔科夫模型热点应用领域的演进情况。1990年研究的热点是词性标注,1992年研究的热点则是分子生物中的蛋白质结构,到了1995年研究的热点表现为与神经网络的混合应用,1998年则转移到了手纹识别领域,2000年到2004年的研究热点主要是关于隐马尔科夫模型的算法以及模拟,近几年并没有出现关于隐马尔科夫模型新的热点应用领域。绘制隐马尔科夫模型应用研究进展时间图,如图1所示。该图按年代显示了研究前沿,读者可以更加清晰地看到每一时间段内的研究热点以及热点的演进和趋势情况。不同年份对应着不同颜色,颜色线段越长证明被引用的时间跨度越大,由此可以查找到相应年份的关键词。

3.4 隐马尔科夫模型应用研究国家和研究机构

为了了解从事隐马尔科夫模型应用研究的国家和研究机构,在运行CiteSpace II前,将网络节点设置为“Country”或“Institution”,就得到有关国家和研究机构的分布情况,按照出现的频次进行排序,由于篇幅有限,只列出前10个国家和研究机构,如表3和表4所示。

从表3中,可以清楚地看到从事隐马尔科夫模型应用研究的国家分布情况。其中,被引频次最高的是美国,为612次,说明美国的研究实力最强,居于首位。可以看到我国在这一领域的研究虽然起步较晚,但是也取得了一定的成果,被引频次为278次,居于第二位,与美国还有一定的差距。法国和英国分别处于第三和第四位,被引频次分别为146次和120次。接着处于第五位和第六位的是德国和加拿大,被引频次分别为108次和107次,两国之间的差距不大。

从表4中可以看出,被引频次最高的研究机构是美国的伊利诺伊大学(Univillinois),为24次。被引频次第二的是佐治亚理工学院(Georgia InstTechnol),其是美国顶尖的理工学院,为19次。另外,美国著名的斯坦福大学(Stanford Univ)和南加州大学(Univ So Calif)并列第三,为18次,与第二相差不大。排名前四都是美国的大学,说明美国在从事隐马尔科夫模型应用研究上实力较强。第五和第六位是我国的中科院和上海交通大学,若想进一步了解隐马尔科夫模型在中国的研究进展,可以多关注这两个机构所做的研究和发表的文献。

4 结语

在Baum和Petrie提出隐马尔科夫模型之后,部分国外学者开始对隐马尔科夫模型的理论和算法进行研究。国外较早地将其应用于各个领域当中,而国内对其的研究起步较晚。近年来,还有学者将隐马尔科夫模型用于经济、管理和金融等大数据的建模中,但这方面的文章仍然较少,如何从这些新兴领域中寻找切入点并进行深入地研究是值得我们继续探索的。利用可视化软件CiteSpace II,了解到该模型主要应用领域是词性标注、蛋白质结构、手纹识别和人工智能等以及热点演进情况。目前,关于隐马尔科夫模型的理论研究及应用还在继续深入,未来还需要继续跟踪研究热点和前沿动态,对最新进展进行综述。相信随着时代的发展,隐马尔科夫模型必将有更广泛的应用。

参考文献

[1]

Baum L E,Petrie T.Statistical inference for probabilistic functions of finite state Markov chains[J]. The annals of mathematical statistics,1966:1554-1563.

[2]Raviv J.Decision making in Markov chains applied to the problem of pattern recognition[J]. IEEE Trans.Inform.Theory,1967,13(4):536-551.

[3]Nielsen M,Lundegaard C,Worning P,et al.Reliable prediction of T-cell epitopes using neural networks with novel sequence representations[J].Protein Science,2003,12(5):1007-1017.

[4]Conn P B,Cooch E G.Multistate capture-recapture analysis under imperfect state observation: an application to disease models[J]. Journal of Applied Ecology,2009,46(2):486-492.

[5]Reddy S,Mun M,Burke J,et al.Using mobile phones to determine transportation modes[J].ACM Transactions on Sensor Networks(TOSN),2010,6(2):13.

[6]Sikorska J Z,Hodkiewicz M, Ma L. Prognostic modelling options for remaining useful life estimation by industry[J].Mechanical Systems and Signal Processing,2011,25(5):1803-1836.

[7]马宝山,朱义胜.基于隐马尔科夫模型的基因预测算法[J].大连海事大学学报:自然科学版,2009,34(4):41-44.

[8]刘宗礼,孔祥才.基于隐马尔科夫模型的入侵检测算法研究[J].甘肃科技,2007,(4):31.

[9]闫新娟,谭敏生,严亚周等.基于隐马尔科夫模型和神经网络的入侵检测研究[J].计算机应用与软件,2012,29(2):294-297.

[10]朱旭东,刘志镜.基于主题隐马尔科夫模型的人体异常行为识别[J].计算机科学,2012,39(3):251-255.

[11]任晓涛,滕阳春,刘达.基于隐马尔科夫的居民消费价格指数预测[J].现代商业,2010(3):218-219.

[12]黄晓彬,王春峰,房振明等.基于隐马尔科夫模型的中国股票信息探测[J].系统工程理论与实践,2012,32(4):713-720.

[13]陈超美,陈悦,侯剑华等.CiteSpaceII:科学文献中新趋势与新动态的识别与可视化[J].情报学报,2009(3):401-421.

猜你喜欢
可视化分析
基于大数据的港口煤炭物流可视化分析平台
近十五年国外大学生就业研究的进展与趋势
基于Citespace的商业生态系统研究可视化分析
高校学生管理法治化研究:基于CiteSpace的可视化分析
我国职业教育师资研究热点可视化分析
声波吹灰技术在SCR中的应用研究
可视化分析技术在网络舆情研究中的应用
国内外政府信息公开研究的脉络、流派与趋势
我国教育技术领域眼动研究的现状与趋势分析
可视化分析在医院图书馆信息服务中的应用