基于文化安全的微博信息推送技术的研究

2016-05-14 00:24李欢

现代电子技术 2016年8期

李欢

摘要：针对传统推送技术存在推送效率低、局限性大及安全性差的问题，提出基于文化安全的微博信息推送技术；该技术下的微博信息推送系统主要包括用户兴趣模块、关键词采集模块、文本分类模块以及信息推送模块。系统通过用户兴趣模块，为用户提供符合文化安全要求的信息；采用基于主题词表的贝叶斯方法，获取微博文本中的关键词。通过关键词和文化安全类别的互信息值，塑造关键词?文化安全类别关系表，实现微博文本的分类；再经过信息推送模块，将文化安全类的微博信息推送给用户。实验结果表明，该方法具有更优的查准率和召回率指标，实现了很好的信息推送服务。

关键词：文化安全；微博；信息推送；用户兴趣模块

中图分类号： TN911?34 文献标识码： A 文章编号： 1004?373X（2016）08?0041?04

Research of microblog information push technology based on cultural security

LI Huan

（School of Computer Science and Technology， Zhoukou Normal University， Zhoukou 466001， China）

Abstract： To solve the problems existing in traditional push technology， such as low efficiency push， great limitations and poor safety problems， a microblog information push technology based on the cultural security is proposed. The microblog information push system based on the technology is mainly composed of user interest module， keywords acquisition module， text classification module and information push module. The system provides users with information which is in accordance with the requirements of the cultural security through a user interest module， and gets the keywords in the microblog text by means of Bayesian method based on thesauri. By keyword and mutual information value in the cultural security category， the relational table of keyword and cultural security category is made to realize the classification of the microblog text. And then the weibo information in the culture safety class is pushed to the users through information push module. The experimental results indicate that the method has better precision ratio and recall rate， and can achieve very good information push service.

Keywords： cultural security； microblog； information push； user interest module

文化安全是文化建设中民族文化健全自身机制、防范和解决风险的能力。随着当前计算机技术和网络技术的快速发展，使得人们处在快速膨胀的信息社会。由于经济全球化的发展，使得政治和文化呈现多元化发展，出现了很多文化交流的方式，微博作为目前最火的一个网络社交平台，受到越来越多人的关注和使用。社会中的任何人都可通过微博肆意发布任何消息，对于我国的文化安全造成了严重威胁[1?3]。因此，为了确保中国文化安全性，应在微博信息推送过程中考虑文化安全因素，关注微博时代信息传播的安全性具有了重要意义[4?5]。但是，当前的推送方法存在效率低，准确性差等问题，为了解决上述问题的产生，本文提出基于文化安全的微博信息推送系统，该系统由用户交互层、兴趣模型层以及语义操作层组成。系统依据关键词和文化安全类别的互信息值，塑造关键词?文化安全类别关系表，实现微博文本的分类。通过信息推送模块，将文化安全类别的微博信息推送给用户。实验结果说明，本文方法具有更优的查准率和召回率指标。

1 基于文化安全的微博信息推送技术

在了解基于文化安全的微博信息推送系统的组成结构之后，进一步对系统核心功能模块进行设计。本文设计的基于文化安全的微博信息推送系统主要包括用户兴趣模块、关键词采集模块、文本分类模块以及信息推送模块，下面对各个模块进行设计分析。

1.1 用户兴趣模块

用户兴趣模块是系统用于描述用户个性化信息需求的模块。微博信息推送技术应满足用户的个性化需求，通过用户兴趣模块，为用户提供文化安全类别高的微博信息。塑造用户兴趣模型时，应先采集用户信息，再基于用户信息塑造用户模型，为用户提供文化安全方面高的微博信息服务，同时通过用户反馈机制调整用户兴趣模块信息。用户兴趣模块建模过程如图1所示。其中文化安全信息推送服务的模式是基于用户兴趣模型而构建的，其可提供满足用户需求的文化安全信息。

1.2 关键词采集模块

在收集到用户感兴趣的信息之后，微博信息推送系统可准确识别出文化安全类别的关键词，对于系统推送精度具有重要作用。本文采用基于主题词表的贝叶斯方法，采集微博文本中的关键词，并在训练过程中采集贝叶斯模型中的相关参数，对词语在文本中产生的位置进行了分析，可获取更优的结果。该算法由训练过程和采集过程组成，如图2所示。

图2 关键词采集算法

1.3 文本分类模块

采集到微博文本关键词后，可通过文化安全类信息的要求对文本分类模块进行分析，实现微博文本的分类。文本分类模块通过概率的方式，计算所属文本安全类别的概率，而此步骤由训练过程和分类过程构成。训练过程主要是对训练文本集进行操作，明确分类算法的参数，塑造文本分类器；分类过程通过使用文本分类器对微博文本进行操作，获取文化安全类别高的微博文本。其详细步骤如下所示：

（1）训练过程。训练过程主要是通过互信息量描述方法，建立微博文本词语同文化安全类别文本间的关系。互信息则可以体现出不同两个事件集间的关联性。系统对具有文化安全类别的文本进行训练学习，获取关键词与文化安全类别间的关系，训练过程为：

① 基于关键词采集算法，获取训练集中不同文本中的关键词。

② 通过关键词和文化安全类别互信息公式，获取关键词和文化安全类别的互信息值。互信息公式为：

[MI（x，y）=log p（x，y）p（x）p（y）] （1）

式中：[p（x，y）=c（x，y）x′，y′c（x′，y′）]；[p（x）]和[p（y）]分别表示关键词[x]与[y]独立出现的概率；[p（x，y）]是关键词与同时出现的概率；[c（x，y）]表示关键词与同时出现在一篇微博文本最终的次数。

③ 过滤互信息值，塑造关键词?文化安全类别关系表。

（2）分类过程。采用关键词采集算法获取微博文本中的关键词。通过关键词?文化安全类别表，计算微博所属文化安全类别的概率，再依据分类顺序得到相应微博文本内容的分类矢量，采用该分类矢量可对采集文化安全类别的微博文本信息进行分类。详细的过程如图3所示。

图3 文本分类过程

1.4 信息推送模块

在对微博文本进行分类之后，通过微博文本信息?兴趣模型的相关度，调控文化安全类别微博信息推送的过程。当相关度同系统规定一致时，文化安全类别信息会被推送给用户。具体的推送流程如下：

（1）通过文本分类方法，对一条原始微博信息进行处理，采集信息的分类矢量；

（2）计算微博文化安全类别的概率；

（3）依据信息分类矢量和兴趣模型，得出用户对文化安全类别信息的兴趣度，公式为：

[兴趣度=iIiPi， i=1，2，…，n] （2）

式中：[Ii]用于描述用户对文化安全类别信息的兴趣度；Pi表示微博文本属于文化安全类别[Ci]的概率。

（4）向用户推送文化安全类别信息。系统向用户推送文化安全类别信息时，要充分分析用户对文化安全类别信息的兴趣度和热度，再确定可不可以向用户推送该类信息。因此，应在用户对文化安全类别信息的兴趣度高于浏览的信息平均兴趣度，且信息热度高于制定的阈值时，向用户推送文化安全类的微博信息。基于文化安全的微博信息推送流程如图4所示。

在对基于文化安全的微博信息推送系统的用户兴趣模块、关键词采集模块、文本分类模块以及信息推送模块进行设计之后，对其源代码进行设置。

2 系统设计实验代码

本文系统中的用户同服务端交互微博信息时，微博信息中的文本信息、图片消息以及语音消息都采用XML数据包的方式完成传输。所以服务端与发送端在收发数据的过程中，需要完成数据的XML数据解析及XML数据转换处理。XML解析通常依据事件流或文档树完成数据的解析。而本文分析的微信推送信息，则是依据XML树形结构进行的解析。所以系统设计的详细代码为：

Community immovability PatterncomprehendXml（Processrequirement requirement） chucks Disstupided；

收集用户感兴趣的文本

{

Pattern pattern = good BadPattern（）；提取关键词

Readingdata readingdata =

requirement.networkRelevancesO；对关键词进行训练

PIPEspeak speak = good PIPEspeakQ：

Missive missive = speak.read（readingdata）；获取互信息值

Component origin =

missive.forOriginComponentQ；

塑造关键词?文本安全类别关系表

Catalogue componentCatalogue ? origin.components（）；获得信息的分类矢量

to （Component c ： componentCatalogue）{

pattern .stupid（c .forDenominateU， c.toThemeU）；

计算文化安全类别的概率

}

readingdata.overU；

readingdata = vacancy；推送信息

repay pattern；

}

先设置了Pattern类型变量pattern，该变量中存储解析结果，通过函数requirement.networkRelevancesU，获取输入流，并对其进行读取处理，采集XML根元素的全部子节点，再通过函数pattern.stupid（c.forDenominate（）， c.forThemeQ）读取全部节点中的数据，并将读取的数据保存在变量pattern中，完成推送。

完成基于文化安全的微博信息推送系统设计及源代码设计之后，需要进一步对设计系统的性能进行验证。

3 实验

为了验证本文提出的基于文化安全的微博信息推送技术的有效性，需要进行相关的实验分析。

3.1 实验方法

实验将微博网络中全部的微博内容当成一个总文本集，分别采用本文方法和静态推送方法，对实验微博网络中的信息进行推送；采用查准率和召回率评估两种方法的性能，并将总文本集按文化安全类别分为以下4类：A类，系统推送并属于文化安全类别的内容；B类，系统推送但不属于文化安全类别的内容；C类，系统没有推送但属于文化安全类别的内容；D类，系统没有推送但不属于文化安全类别的内容。

系统的查准率和召回率定义如下：

查准率：[U=AA+B]；

召回率： [W=AA+C]。

其中：A+B用于描述系统的总推送微博信息数；A+C用于描述全部同文本安全相关的信息数。查准率值越高，说明相应方法下系统推送文化安全方面的信息准确性越高。召回率越低，说明相应方法下系统推送的信息中，遗漏掉有关文化安全方面的信息越少。

3.2 实验结果分析

实验分别对本文方法和静态推送方法下微博信息推送系统的10次检测结果分别用表1和表2描述。

基于表1和表2中的数据，运算两种方法的查准率和召回率，在实验次数相同的情况下，本文算法相比静态推送方法，本文设计的系统推送的文化安全类微博数与实际文化安全类的全部微博数更相近。其结果分别如图5和图6所示。

分析图5可得，相对于静态推送方法，本文方法下的微博信息推送系统的查准率是稳定的，并且高于静态推送方法。从图6中的结果可以看出，本文方法下的微博信息推送系统的召回率较为平稳，而静态推送方法下的系统召回率具有较高的波动幅度，并且本文方法的召回率低于静态推送方法，说明本文方法下的微博信息推送系统可向用户推送更多文化安全方面的信息，实现了很好的信息推送服务。

4 结语

本文提出基于文化安全的微博信息推送技术，在该技术下的微博信息推送系统，主要包括用户兴趣模块、关键词采集模块、文本分类模块以及信息推送模块实验结果说明，本文方法具有更优的查准率和召回率指标，实现了很好的信息推送服务。

参考文献

[1] 许少华，夏智伟.基于轮转周期的动态反馈负载均衡算法[J].计算机技术与发展，2013，23（6）：63?66.

[2] AL?REFAIE Abbas. Factors affect companies ' safety performance in Jordan usingstructural equation modeling [J]. Safety science， 2013 （57）： 169?178.

[3] FANG Dongping， WU Haojie. Development of a safety culture interaction （SCI） modelfor construction projects [J]. Safety science， 2013 （57）： 138?149.

[4] 中国互联网络信息中心.第33次中国互联网络发展状况调查统计报告[R].北京：CNNIC，2014.

[5] 李森.大数据背景下的内河航运信息化建设[J].信息化建设，2013（8）：29?31.

[6] 冯祖洪，李静.基于主成分分析的改进贝叶斯网络入侵检测研究[J].现代电子技术，2012，35（19）：73?75.