郭文强
摘要:支持向量机是一种基于统计学习理论的新的、非常有效的机器学习方法。针对当前网络舆情研究发展的新需要,本文提出一种基于支持向量机(SVM)的网络舆情信息采集、提取、识别、研判的方法,具有较好的泛化能力,在与神经网络方法的比较中,该方法表现出较低的漏检率、误检率和较好的鲁棒性,在网络舆情研判领域有深入研究的价值和良好的应用前景。
关键词:支持向量机;信息特征识别;网络舆情
中图分类号:TP393.09 文献标识码:A 文章编号:1007-9416(2017)02-0119-02
1 引言
网络舆情研判是有效掌控网络、促进社会主义和谐社会建设的重要手段[1]。当前,信息处理领域内的一个重要的研究方向是网络舆情研判,它具有非常深远的实用价值。分类挖掘技术作为研究互联网信息研究的一种新兴统计学习理论,它能够有效的从互联网中获取相关的舆情信息,通过分析后,最终达到监控和预警的目的,对监管部门管理和处置互联网中的涉警舆情提供帮助[2-4]。本文将在计算动词理论聚类算法中引入支持向量机技术,通过分析计算动词决策树的趋势后,来对互联网信息进行分类和挖掘,实现网络中的舆情侦测、继而探索舆情源头、网络舆情的接收者及特征,最终得到舆情在互联网中的传播方式,并对舆情带来的影响进行评估及其发展趋势做出研判。
3 基于支持向量机技术的网络舆情信息动词决策树的趋势分析
在互联网分析中引入聚类分析,就是对互联网数据进行归类、分组、汇总,得出群体的聚类特征并形成属性知识。而趋势分析则是对前面会联网数据聚类分析后所得到的属性知识为研究对象,接着设计出解决此问题的决策树,以揭示出问题发展的趋势,为预测和把握未来发展方向提供帮助。计算动词决策树的过程是:首先从研究对象属性类型的根節点选取,其次选取根节点的下一个叶子节点N,接着找到此节点N的最佳决策属性,然后通过计算动词增益和计算动词熵来训练节点,最后判断是否把训练样本进行了最佳分类,得到就结束,否则继续找最佳决策属性。
4 基于支持向量机技术的网络舆情研判方法
(1)在支持向量机技术的支持下,对新闻、论坛/BBS、博客、即时通信软件等渠道传播的网络舆情进行采集,运用聚类分析、主题检测与跟踪、自动摘要等定向分析技术,可以得出网络舆情传播者的感情、想法、观点、立场和意图等主观的特征表现。最终实现用关键字布控、语义分析来达到识别敏感话题的目的。(2)热点话题、敏感话题瞄准与追踪。目前国内外大多采用了文本聚类技术——文本关键字词作为文本特征,分析新发表文章、贴子的话题是否与已有热点或敏感主题相同,并对发表的话题和发信人发表的文章的观点、倾向性进行分析与统计。(3)研究发现当前的网络舆情的研判和预警效果并不理想。主要原因是缺乏统一全面的、全方位多层次的网络舆情预警信息系统,无法满足当前用户所期望的需求;此外各大厂商之间缺乏合作和协调,难以形成有效的合力。所以网络舆情分析及研判技术还有更大的发展空间。(4)除市场环境及用户需求没有边界等特殊因素外,怎样将计算技术与处理内容结合,怎样设计具体的分析引擎和自动信息采集,怎样构建舆情分析库、属性知识储备库,怎样对收集的信息进行与判断、筛选和预处理形成格式化信息,怎样加强专家与系统结合、人机结合来提升舆情判断的准确性等到都是当前解决问题的最重要环节。
5 结语
支持向量机理论建立在统计学习理论的VC维理论和结构风险最小原理基础上,它作为一种新的机器学习方法,能够依据有限的样本信息,在模型的复杂性和学习能力之间寻求最佳折中,在解决模式分类问题上具有近似最优,而且在没有问题域相关知识属性时所设计的机器依然具有较好的性能。文中提出一种基于支持向量机技术的网络舆情研判方法,具有突出的小样本学习方法,借助它强大的泛化能力,实现了高效的从训练样本到预报样本的“转导推理”,在网络舆情信息处理中具有良好的性能,即较低的误检率和漏检率,这都充分表明了基于支持向量机技术对网络舆情研判处理及相关问题有良好的应用前景。
参考文献
[1]李敏.互联网舆情监控系统设计与实现[D].上海:复旦大学,2009.
[2]王伟,许鑫.基于聚类的网络舆情热点发现及分析[J].现代图书情报技术,2011(03):74-79.
[3]周黎明,邱均平.基于网络的内容分析法[J].情报学报,2005(05):594-599.
[4]赵曙光.提高自媒体时代突发事件的舆论引导能力[J].政工研究动态,2012(15):22-24.
[5]Vapnik V著,张学工译.统计学习理论的本质[M].北京:清华大学出版社,2000.
[6]王国胜,钟义信,支持向量机的若干新进展[J].电子学报,2001(10):1397-1400.
[7]刘江华,程君实,陈佳品.支持向量机训练算法综述[J].信息与控制,2002(1):45-50.