网页正文提取方法在舆情监控中的应用探究

2018-01-18 09:13曹宇逢
数字技术与应用 2018年9期
关键词:分块数据挖掘

曹宇逢

摘要:本文分析了网络文档内容页面分块的提取方法,同时引入了一个层次化关键数据挖掘思想,自顶向下将网页进行划分,这样就可以划分为多个物理模块,从简单的分块操作中获取一个准确的分块决策方法,进而进一步提高分块数据挖掘的准确度。

关键词:网络文档;分块;数据挖掘

中图分类号:TP393 文献标识码:A 文章编号:1007-9416(2018)09-0231-01

人们通常采用的方法是到街头巷尾实地考察,或通过问卷调查获取相关信息。然而,民间舆论风云变幻,毫无规律可言,政府很难掌握确切的情况,尤其是在过去通讯技术落后的时期。例如某一个地区出现突发事件,或是严重干扰社会秩序的群体事件,如果政府部门不能及时获取相关信息,掌握民情民意,就不能采取有效措施加以治理。这不能有效发挥政府的作用,也会削弱政府的威信[1]。

1 研究背景

目前,随着移动互联网、云计算的应用和发展,网络舆情信息种类迅速增多,涉及的公安、消防、文化、科研、教育和金融等领域也越来越多,网络舆情实时传播速度很快为了提高舆论情报的监督效率,国外许多的政府部门联合软件研发企业对舆情监控问题不断的进行研究,引入了许多先进的遗传算法技术、BP神经网络技术、支持向量机技术等进行数据挖掘和分析,更好地提升网络文档数据的挖掘分析能力。

2 网页正文提取方法

2.1 基于模板的网页正文提取方法

网页正文提取又被人们称为网络文档数据提取,最早提出的理论和方法是基于模板的算法,可以针对一个特别设计的网页制作一个良好的数据提取模板,比如路径抽取模板Xpath,能够获取网络文档的数据资源。网络文档抽取采用模板算法最为耗费精力的就是模板制作和分析,这个过程非常的繁琐,因此一旦网络文档的结构发生了相关的变化,就需要构建一个网络文档数据分析文档,因此需要费较高的成本,如何构建一个高效处理的网络文档数据提取方法是非常重要的,已经吸引了很多人的研究[2]。

2.2 基于统计的网页正文提取方法

基于统计理论的网络文档数据提取方法可以使用数学思想针对网络文档的词语进行统计和分析,包括网络文档数据的长度和密度,这些数值可以将相关的网络正文文本数据信息和网络噪声数据区分开。这种方法可以有效的解决模板方法存在的问题,比如可以有效的构造一个模板,并且能够提高数据分析较难维护的问题,具有更加完善的可操作性和可适应性。此外利用网络文档数据资源的标签密度能够提取论文正文信息,并且能够将文档相关的标签密度进行直方图信息处理和操作,同时可将相关的网络文档数据资源扩展成相关的模型,以区分网络文档的正文内容和相关的非正文内容,相关的操作方法可以更好的获取多个类型的语言、多个类型的程序处理模式,具有非常好的通用处理性,但是需要经过多重的繁琐建模和聚类处理过程。

2.3 基于分块的网页正文提取算法

基于分块的网络文档数据内容获取算法可以将相关的网络内容划分为多个子块,这些子块之间包含了许多正文语义信息内容,这样就可以把相关的网络内容进行有效的处理。与传统的统计理论分析模型、模板模型的相关网络文档资源处理方法相比,采用分块的网络文档处理模式更加具有通用性,并且能够更好的满足用户的分块操作模式,可以大大提升网络文档资源的处理效率,并且可以大大降低硬件实现的成本内容,忽略网络文档资源处理的延迟现象,具有更加完美的操作效率。

2.4 层次分裂分块算法原理

一般来说,同一个语义分块中的内容是紧密联系的,在视觉上,浏览器渲染后的网页正文集中在一块区域,在HTML代码结构上,网页正文代码也集中在一起,所以在DOM树中的分块节点下的所有文本子节点中存在一个中心节点,其他节点的DOM树标签路径与这个中心节点很相似,所有文本节点与这个中心节点的标签路径平均相似度平方和称为聚集度,以此来判断节点是否为分块节点,从顶至下判断节点聚集度是否大于某个阈值,如果是,则此节点为分块节点,否则继续判断其子节点,直至遍布整个DOM树。这个过程是一个按层次分裂判断的过程,所以我们称这种的分块算法为层次分裂分块算法。

3 话题检测与追踪

网络文档的话题追踪和检测功能又被许多学者称为TDT(Topic Detection and Tracking)功能,这些资源可以更好的追踪和检测网络文档的话题内容及资源内容,并且能够处理多种网络文档资源文本内容,同时可以结合当前网络文档数据资源的发展形势,采用语音形势报道相关的新闻内容,可以自动化的识别、跟踪、检测和锁定话题资源,可以根据用户的处理性能实现多种语音的整合检测、多样化跟踪服务[3]。在对网络文档数据资源的分析和构建时,充分利用这个继承关系将相关的知识集成在一起,开发一个广播领域的相关话题跟踪系统,可以跟踪相关的热点话题资源,实现网络资源的检测和分析[4]。目前,基于TDT的网络文档数据资源处理过程包括两种常用的机器学习算法,分别是贝叶斯理论算法和BP神经网络算法。一些学者将BP神经网络算法引入到网络舆情监控信息管理过程中,分析舆情监控关键词分类中存在的问题,研究基于支持向量机的舆情监控关键词分类方法,该方法主要是情感词典选择、扩充情感特征选择,基于支持向量机进行分类器训练,测试分类器的内容,实现信息的处理和分类。

4 结语

本文主要了网页正文内容抓取的方法,这些方法包括基于模板的抓取方法、基于统计理论的抓取方法、基于分块的抓取方法,并且从网络文档话题检测与追踪、网络文档主体模型分析方面阐述了相关技术理论,同时引入了一个层次分裂和模拟退火的关键数据挖掘思想,自顶向下将网页进行划分,这样就可以划分为多个物理模块,网页分块完成之后,可以针对相关的中文网页内容进行特征提取,可以从简单的分块操作中获取一个准确的分块决策方法。

参考文献

[1]王亨桂.电力行业舆情监测系统的设计与实现[J].信息安全与技术,2013,4(5):66-67.

[2]蔡洪民,陈铿.校园网舆情监控系统的设计与实现[J].计算机安全,2013,(2):51-54.

[3]陈彦舟,曹金璇.基于Hadoop的微博舆情监控系统[J].计算机系统应用,2013,22(4):18-22.

[4]吴建军.网络舆情的云計算监测模式分析与实现[J].电讯技术,2013,(4):476-481.

[5]方星星,鲁磊纪,徐洋.网络舆情监控系统中主题网络爬虫的研究与实现[J].舰船电子工程,2014,34(9):104-107.

猜你喜欢
分块数据挖掘
钢结构工程分块滑移安装施工方法探讨
分块矩阵在线性代数中的应用
基于并行计算的大数据挖掘在电网中的应用
反三角分块矩阵Drazin逆新的表示
基于自适应中值滤波的分块压缩感知人脸识别
一种基于Hadoop的大数据挖掘云服务及应用
基于多分辨率半边的分块LOD模型无缝表达
基于两级分块的文件同步方法
数据挖掘的分析与探索
基于GPGPU的离散数据挖掘研究