企业外网应用系统在线评估研究与测试

2015-06-23 16:27:03赵艳平
太原科技大学学报 2015年2期
关键词:引擎结构化页面

赵艳平

(安徽水利水电职业技术学院,合肥 231603)

企业外网应用系统在线评估研究与测试

赵艳平

(安徽水利水电职业技术学院,合肥 231603)

企业外网应用系统作为企业面向社会和外部企业运营的通道,在提高企业运营效率的同时面临着来自互联网安全危险。因此研究实时在线信息安全评估与分析具有很重要的作用。本文结合企业互联网应用系统面临的信息安全现状,研究基于强化学习的WEB信息抓取RLC模型,通过模型来完成WEB页面结构化、页面特征提取、链接特征抽取等任务,同时利用综合回报评价模型中的Q值评价算法评价链接的接口相关度,根据该接口相关度数值进行WEB信息抓取对象选择,为WEB信息抓取提供最优选择策略,减少对无效页面检测的次数,从而提高整体安全检测效率。

企业外网应用系统;信息安全;在线评估;WEB信息抓取;安全测试

随着广东电网分公司信息化建设进程的推进,企业信息化运营从传统的企业内部开始转向互联网用户和其它企业客户。为确保企业外网应用系统稳定可靠,对外网应用系统进行在线评估研究是不可忽视的组成部分,需要通过实时在线评估预防互联网用户网络攻击、WEB应用层渗透等风险。

1 企业外网应用系统安全现状

Web应用在互联网中已经广泛使用,根据CNCERT/CC提供的流量数据抽样统计报告[1],在TCP协议应用流量中WEB应用流量占据了67.7%.然而,由于WEB应用具有开放性、自主性,使WEB应用安全问题日益显著,据统计90%的Web应用存在某种类型的安全漏洞以及75%的网络攻击都是基于HTTP/S协议进行,随着互联网技术的快速发展,这种网络攻击量也逐年增加,据计算机犯罪和完全调查显示[2],网络犯罪从2004年的5%变为了2010年的95%.由此可见,企业外网应用系统安全也面临着严峻的网络安全问题,进行网络安全评测、及时发现问题对于应用安全具有很重要的意义。

2 信息安全实时在线评估模型

信息抓取是Web应用系统安全检测的必要过程,通过对WEB信息中的有效信息的抓取分析发现其安全隐患。然而,由于WEB应用的广泛使用,对WEB应用系统信息抓取存在冗余度高、抓取效率低的问题,本文在相关研究基础上对WEB信息抓取做了改进,提出了基于聚类分析的页面结构化模型和基于强化学习的WEB信息抓取模型。

2.1 基于聚类分析的页面结构化模型

基于聚类分析的页面结构化模型如图1所示,模型由页面源代码文件、页面解析引擎、完全标签树生成引擎(标签提取、特征提取、标签树生成)、多叉树遍历分析引擎、聚类分析引擎、结构化压缩标签树组成,其中页面解析引擎主要负责页面文档的初步解析,并把解析结果转换为文件对象模型(Document Object Model,简称DOM)树,完全标签树生成引擎则负责对DOM进行标签特征提取并生成一棵多叉数(图2),通过多叉树遍历分析引擎对标签特征遍历分析,并把遍历的数据作为聚类分析中的参数之一,通过聚类分析引擎最终把页面内容区块划分,形成结构化压缩标签树。

图1 基于聚类分析的页面结构化模型Fig.1 Page structural model based on cluster analysis

图2 完全标签树Fig.2 Complete label tree

在完全标签数中,树的节点[3]一般由标签名称(TagName)、标签属性(TagAttr)、标签关键字(Key-Word)、超链接信息(Href)、接口信息(Interface)、节点处理状态(bProcessed)、块编码(AreaID)组成,通过这些属性记录着每个标签的特征信息。并通过完全标签数中的AreaID进行区域和块划分,将AreaID相同的节点进行聚类与集合形成块。然后通过共同的特征属性描述块信息。形成块信息后,通过块信息重新对完全标签压缩处理,通过压缩结构化标签树了描述块与块间的逻辑关系与位置关系。

2.2 基于强化学习的信息抓取模型

由于基于聚类分析的页面结构化模型中主要是针对某种特征页面结构化处理,不同页面结构需要采用不同的结构化描述,而WEB应用系统中存在多样化特点,需要对每种类型WEB应用系统进行相应的页面结构化模型描述,这就需要信息抓取引擎对不同WEB应用系统特征选择不同的抓取模型和页面结构化模型,信息抓取引擎需要“自主学习能力”[4]。

在复杂WEB应用环境中,由于WEB应用结构的多样化,无法通过特定的模型进行页面结构化处理。由于在进行数据抓取时,会对抓取的环境返回一个反馈信号,可以充分利用该反馈信号自主选择页面构造模型,即通过从环境中的最大累积回报值来学习最优数据抓取策略即基于强化学习的信息抓取模型实现WEB信息抓取最优策略[5]。

抓取模型的流程图见图3所示:

与此同时在进行WEB信息抓取时,WEB信息中的链接价值对于深度分析WEB信息具有很重要的作用,为了保证WEB信息中的数据提取中的链接只关注需要重点处理的特征,采用基于综合回报评价方法(也称综合Q值评价方法[6])进行筛选,基于综合回报评价方法集合了两种链接价值方法(立即回报价值评价和未来回报价值评价)中的各自的优点,把WEB信息抓取分为训练和搜索两个阶段。在训练阶段采用强化学习的获取具有最大回报值得链接,并记录和保存Value值知识库;在抓取阶段则采用基于未来回报评价方法实现WEB信息(URL信息)抓取高覆盖率。

基于综合回报的强化学习算法能够通过Q值知识库预测状态的未来回报价值。在进行Q值强化学习过程中,首先通过学习方法计算出每个链接的Q值并根据该Q值进行链接级别分类,然后再搜索阶段根据文本特征和Q值知识库计算链接综合Q值,从而最终判定URL相关度评价[7]。由此可知,基于强化学习的WEB信息抓取训练学习过程,首先进行构造页面URL元数据库和建立一个由若干个DEPL组成的元素集合,然后利用反向去重技术对元数据分析处理,提取出该URL的上一级URL地址信息,并得出该URL上一级特征信息和链接回报值。

3 基于强化学习WEB信息抓取模型有效性测试

通过基于强化学习的WEB信息抓取模型有效性测试与RLC信息抓取覆盖率、收益率、效率测试验证抓取覆盖率与抓取收益率,并与传统的信息抓取做比较。

图3 抓取模型的流程图Fig.3 Flow chart of fetching model

3.1 实验场景设计

为了测试在线评估平台的整体性能,对3个公开且具有WEB应用缺陷的测试系统进行测试,其公开可访问的测试系统与可测试对象如表1所示,请平台采用Intel Core 2 Duo CPU 2.2 GHz和2 G内存服务区、100 Mbps网络环境。

根据表中的测试地址列表,对这些WEB应用系统进行在线评估测试,其测试指标包括页面总数、接口总数、报告WEB应用缺陷总数等,并对测试结果数据进行人工确认,其测试统计结果如表2所示。

为了测试模型的有效性,采用C++开发一个WEB应用接口爬虫引擎,该引擎部署在Intel Core 2 Duo CPU 2.2GH服务器上,其网络带宽为100 Mbps,由于测试时需要考虑应用系统的多样化,选择了500个不同领域的WEB应用系统作为抓取目标。

表1 WEB应用系统测试列表Tab.1 The testing list of Web application system

表2 WEB应用系统结果统计Tab.2 The statistical result of Web application system

3.2 RLC参数设置与实验验证指标

(1)RLC参数设置

由于RLC模型实际应用中,需要进行多个参数选择与设置,为实现RLC模型最佳效果,需要对应用参数最优化处理,通过对参数的合理取值范围设置和根据实际测试值合理调整参数值。

(2)验证指标

对于WEB信息抓取模型验证,主要通过接口覆盖率和抓取收益率评价即可,RLC采用综合Q值计算链接相关度,并在作为一次数据抓取后记录相关信息,为下次数据抓取积累经验与最优策略。通过网络爬虫工具抓取的接口数量与目标应用系统总接口数据量比值描述接口覆盖率,通过爬虫工具获取的接口数量与样本数量比值描述收益率。

3.3 仿真结果与分析

(1)抓取性能分析

首先进行RLC抓取性能验证,根据web的资源分类,选取具有代表性的100个WEB应用系统作为WEB信息抓取目标,并以首页作为抓取入口,对页面中的非相关页面不再进行信息抓取,抓取方法采用基于广度优先的索引爬虫和RLC,然后通过对RLC(α,β,R)[8]中的参数调整进行抓取效果测试。测试结束,得出最后的数据结果。抓取效果如图4所示:

图4 抓取模型仿真效果曲线图Fig.4 Diagram of grab model simulation effect

为了减少非相关页面对于本页面抓取效果影响,对相关度参数R设置固定值R=0.1,对目标应用程序进行信息抓取。

(2)学习效果分析

为了验证RLC学习能力,对500个Web应用系统进行更多样本抓取实验,在进行抓取信息前首先对500个WEB应用系统进行分组,按照10个一组进行分组,每组中包含不同类型的主题。可以看出RLC,在保证训练学习充分条件下,RLC覆盖率和收益率随着实验测试的增加而不断身高,当达到一定数值时,其覆盖率和收益率保持在一种最佳状态。其主要原因是RLC充分利用了链接/页面接口相关性分析判断进行选择性信息抓取的结果。

由此可见,基于强化学习的WEB信息抓取利用了综合Q值评价算法的立即回报与未来回报评价法则评价链接的接口相关性,为WEB信息抓取提供了最优选择策略,达到了提高抓取性能的目的。

4 结束语

通过对WEB应用系统信息抓取模块、自动交互方法、安全缺陷检测进行分析介绍,提出了基于强化学习的WEB信息抓取RLC模型,通过模型来完成WEB页面结构化、页面特征提取、链接特征抽取等,然后将页面结构化结果和特征提取结果注入到综合回报评价模型中,对WEB应用系统中的链接进行接口相关度分析评价,通过链接信息评价值进行选择性WEB页面信息抓取,通过减少无效页面检测次数达到最大收益率,从而提高整体安全检测效率。

[1]张国祥.基于Apache的Web安全技术的应用研究[J].武汉理工大学学报,2010,3(3):10-11.

[2]单欧.SSL在web安全中的应用[J].信息网络安全,2009,4(6):12-18.

[3]邓集波.WEB中基于角色访问控制的静态授权研究[D].武汉:华中科技大学,2003.

[4]周颖.Web服务安全性研究及其应用[D].重庆:重庆大学,2004.

[5]张振兴.Web服务安全性的研究与实现[D].北京:华北电力大学,2003.

[6]汪海慧.浅议网络安全问题及防范对策[J].信息技术,2012,9(1):117-120.

[7]刘修峰,范志刚.网络攻击与网络安全分析[J].网络安全,2012,8(12):46-48.

[8]杨颖.基于OVAL的漏洞扫描系统设计与实现[J].西北大学学报,2010,6(18):10-13.

Online Assessment Research and Testing of the Application System of Enterprise External Network

ZHAO Yan-ping
(Anhui Hydropower Vocational Technical College,Hefei 231603,China)

Outside the enterprise network as an enterprise application system geared to the needs of society and external enterprise operating channels.At the same time,the improvement of operational efficiency of enterprises is faced with network security risk.So the online assessment and analysis on information security is of vital importance.Together with the present situation of Guangdong power grid application system facing internet information security,the Web information fetching RLC model of reinforcement learning was studied to complete the struture of Web page,the extraction of page and links features,etc..Meanwhile,the Q-value comprehensive evaluation model of return correlation algorithm evaluates the link interface,through the interface relevance for WEB information grasping object selection,the optimum choice for WEB information fetching strategy,and reduces the number of invalid pages detection,thus improving the overall safety detection efficiency.

the network application system,information security,online assessment,Web information grasping,safety tests

TP309.1

A

10.3969/j.issn.1673-2057.2015.02.007

1673-2057(2015)02-0113-05

2014-12-05

赵艳平(1977-),女,副教授,主要研究方向为模糊信息处理。

猜你喜欢
引擎结构化页面
刷新生活的页面
保健医苑(2022年1期)2022-08-30 08:39:14
促进知识结构化的主题式复习初探
结构化面试方法在研究生复试中的应用
计算机教育(2020年5期)2020-07-24 08:53:00
蓝谷: “涉蓝”新引擎
商周刊(2017年22期)2017-11-09 05:08:31
基于图模型的通用半结构化数据检索
计算机工程(2015年8期)2015-07-03 12:20:35
无形的引擎
河南电力(2015年5期)2015-06-08 06:01:46
基于Cocos2d引擎的PuzzleGame开发
基于软信息的结构化转换
同一Word文档 纵横页面并存
浅析ASP.NET页面导航技术