基于马尔科夫模型的文本情景感知数据分类器研究

2015-09-09 09:48:53郑辉崔延硕

电脑知识与技术 2015年16期

郑辉　崔延硕

摘要：该文基于马尔科夫模型，从情景感知的方面入手，对文本情景进行建模获取文本的特性。通过对文章的结构、语法、习惯用词等方面的分析后建立的相应情景感知模型，通过已建好模型可对文本进行快速的分类或进行文本相似情景的研究，从而为匿名作者识别、抄袭查重等提供重要参考。实验结果表明，基于马尔科夫模型的文本感知数据分类器的具有实际的参考意义。

关键词：马尔科夫模型；文本；分类器；情景感知

中图分类号：TP18 文献标识码：A 文章编号：1009-3044（2015）03-0212-02

Situational Awareness Data Text Classifier Based on Markov Model Research

ZHENG Hui， CUI Yan-shuo

（Chengdu University of Technology Institute of Information Science and Technology， Chengdu 610059， China）

Abstract： this article is based on markov model， from the aspects of scene perception， the text scene modeling for the characteristics of the text. Habit through the article the structure， grammar， words and so on after analyzing the corresponding scene perception model， through has the classification of the built model can be quick to text or text images of similar research， thus for anonymous authors provide a valuable reference for rechecking during the course of recognition， plagiarism， etc. The experimental results show that the sensory data text classifier based on markov model which has practical reference significance.

Key words： markov model； text； classifier； situational awareness

最早的文本分析是从20世纪70年代兴起的，一开始用于论文抄袭检测及知识产权保护。初期的算法主要是通过属性计数法[1] 对字符串进行相似度的匹配分析，但效率低下且错误率极高。之后Parker等人对算法进行了改进，结合程序结构度量和综合属性计数[2] 两种方式对文本进行分析，准确率得到了一定的提高。但整体在效率上和准确率上还需要进一步的提高基于上述问题，本文提出一种改进的文本识别方法，通过对马尔可夫模型在文本情景感知中的实用性进行扩展研究，利用马尔可夫模型设计并实现基于文本情景的文本分类器，通过对一定文本特征的提取，从而使用马尔科夫模型生成的文本情景感知分类器，对匿名文本的作者进行鉴别，从而能从数学方面进行判断是否和原作相似，或者判断出文本作者。因此可以在文本训练集数据有限的条件下使文本分析效果大大加强。

1 马尔科夫模型

马尔可夫模型也称为马尔可夫过程是一类随机过程[3]。定义主要由两部分组成：一是事物所处的所有状态个数有限，一种环境下只能有一种状态。第二部分对应状态之间相互转移的概率不变，而且马尔可夫模型是一种和起始量无关，和状态路径转换无关的模型。转移率[λij]是指单位时间内从状态i向状态j转移的期望次数，当转移率为常数时，关系如下：

[P{X（t+Δt）=j|X（t）=i}=λijΔt+ο（Δt）]

上式中P为系统处于某一个状态的概率，X（t）为系统在时刻t所处状态，[Ο（Δt）]为在[Δt]时间内发生两次以上状态转移的概率。当[Δt]足够小时，可得：

[P{X（t+Δt）=j|X（t）=i}≈λijΔtP{X（t+Δt）=i|X（t）=i}≈1-j=1，j≠inλijΔt]

[λij]可以形成矩阵如下：

[P（Δt）=λ11Δtλ12Δt…λ1nΔtλ12Δtλ22Δt…λ2nΔt???λn1Δtλn2Δt…λnnΔt]

由此便可以得出转移密度矩阵如下：

[A=limΔt→0P（Δt）-IΔt=λ11-1λ12…λ1nλ21λ22-1…λ2n???λn1λn2…λnn-1]

上式中的I指单位矩阵，n为总的状态数。

通常情况下，我们所需要的是平稳状态概率[pi] ，求解如下方程组即可。

[PA=0；pi=1]

上式中，P为各平稳状态概率[pi]组成的矩阵。由此便可以得到系统在各个状态下的概率并求得系统其他的可靠性指标。易知指定作者文本所能包含的状态数是有限的，对于相同作者的文本状态之间的转移概率基本可认为是常数，因此本研究符合马尔科夫模型的要求。

2 分类器的设计与实现

首先需要用一定量已知作者文本对该分类器进行训练。训练后，将匿名文本统计结果与训练结果进行比对。框图如图1：

图1

3 实验与分析

本系统采用J.K.罗琳的《哈利·波特》系列小说前六部作为模型的训练文本，以该系列第七部和马尔克斯《百年孤独》分别作为匿名文本进行结果对比。我们取常用词汇中的for统计目标，将结果导入到excel[38] 中，结果如图2到3所示。

图2 JK.罗琳哈利波特1-6马尔科夫转移概率统计

图3 JK.罗琳哈利波特7马尔科夫转移概率统计

图4 马尔克斯百年孤独马尔科夫转移概率统计

通过以上三个excel表的比对，我们可以明显看出前两张图表的结构非常类似，而且相应单词的概率组成相差不大，而图4则和前两张不管是在单词的组成还是单词的比率都有较大的区别。《哈里波特7》与前六部的方差为0.0368798678。《百年孤独》和《哈利波特》前六部方差为0.115069262。通过标准差的比较可以很清楚地发现两者之间有很大的差异性。因此可以判定《哈里波特7》的作者为Jk.罗琳，而百年孤独不是。

4 总结

基于马尔可夫模型的文本情景感知数据分类器在实现抄袭鉴定、古文献作者鉴定等方面具有一定的参考价值和实际研究价值。但仍存在一定的缺点即识别率没有达到理想的完全正确的要求，还不能投入到实际使用。此外虽然使用了大量的文本作为统计使用，但是作为得出结论的证据依然略显单薄。因此整个系统还是需要在文本统计、分类器训练、系统运行速度上进行进一步研究提高以整体性能。

参考文献：

[1] 于海英. 程序代码相似度度量的研究与实现[J]. 计算机工程， 2010， 36（4）： 45-46.

[2] 刘云中，林亚平，陈治平. 基于隐马尔可夫模型的文本信息抽取[J]. 系统仿真学报， 2004， 16（3）： 507-510.

[3] 童恩栋，沈强，雷君，等. 物联网情景感知技术研究[J]. 计算机科学， 2011， 38（4）： 9-14.