基于JSSh的信息采集技术研究与实现

2020-12-28 01:59陈云晖
科技资讯 2020年32期
关键词:信息采集

陈云晖

摘  要:该文为了实现对互联网信息的有效监管,在系统信息采集环节,力求实现网站身份的自动化认证,和采集动态化网页信息。提出基于JSSh该脚本交互接口,能够成功实现JSSh客户端通信JSSh服务器,经客户端向服务器发送指令,进而对Firefox浏览器操控即可填写身份认证单,在进行Cookie认证交互处理后便完成了身份自动化认证过程。通过运用Firefox网页排版引擎Gecko对网页动态脚本进行解析,客户端能够根据HTML DOM完成动态化网页内容及链接地址的获取,也就完成了基于JSSh信息采集的全过程。

关键词:JSSh  信息采集  校本服务器  解析技术

中图分类号:TP274.2                        文献标识码:A                    文章编号:1672-3791(2020)11(b)-0057-03

Abstract: In order to realize the effective supervision of Internet information, this paper strives to realize the automatic authentication of website identity and the collection of dynamic webpage information in the system information collection link. The script interaction interface based on JSSH is proposed, which can successfully realize the communication between JSSH client and JSSH server. The client sends instructions to the server, and then controls the Firefox browser to fill in the identity authentication form. After the interactive processing of Cookie authentication, the automatic identity authentication process is completed. Through the analysis of the dynamic script of the web page by using the Firefox web page typesetting engine gecko, the client can complete the dynamic web page content and link address acquisition according to HTML DOM, which also completes the whole process of information collection based on jssh.

Key Words: JSSh; Information collection; School based server; Parsing technology

随着社会发展各项新兴技术得以不断创新研发,互联网作为新兴媒体为人们发布信息提供了有力途径,但也增加了信息采集工作的难度。就目前我国的信息安全现状来讲,通过基于Web自动化功能测试,能够通过对信息自动化采集技术研究,丰富我国现有技术研究成果。并且运用成熟的Web浏览器网页排版引擎,能够进行授权网站的自动化登录解析动态网页。提出JSSh客户端、服务器,能够成功地完成Firefox浏览器功能操控,与目前飞速发展的互联网内容生成方式相适应。

1  JSSh技术概述

JSSh作为Fire Fox C++模块,能够作为Fire Fox成功安装附加组件。作为JSSh客户端、服务器之间的交互过程。外部应用程序能够建立和JSSh服务器之间的Java校本链接,服务器负责对客户端的Java指令执行,并将最终的执行结果反馈给JSSh客户端。客户端即可根据Java通用对象HTML DOM支持的相应方法,实现对浏览器文档对象的操控。

对于附加组件内完成Firefox的XPCOM组件安装,通过运用Gecko SDK,能够运用Java Script或C++完成组件创建。JSSh主要包括了服务器、客户端两大组成,Gecko的提供接口也正是JSSh服务器,实现Firefox浏览器功能操控。JSSh客户端Fire Watir在Web应用程序自动化功能测试中广泛运用,通过基于Ruby編写,实现了JSSh服务器多功能的封装处理,应用程序能够对Fire Fox方便自由操控加载DOM对象。测试者通过利用其完成程序编写,即可实现对Web应用程序的易读、易维护自动化功能脚本测试。

2  基于JSSh网络自动身份认证

2.1 填写身份认证表单

HTML表单主要包括的元素有radio、combobox、checkbox、text field、hidden field等不同类型表单元素,向Web服务器发送数据,可以经适当编码实现有序表示,运用以下公式对表单进行简化处理。

F=(U,(E1,V1),(E2,V2),…,(Em,Vm))

Firebug作为Firefox浏览器的附加组件,能够实现Web页面的编辑、调试、跟踪,并在短时间内实现认证表单HTML代码的快速查找。经Firefox完成身份认证表单网页加载成功后,即可点击鼠标置于网页认证单中,这种情况下的HTML源代码便会显示于Firebug控制窗口内,方便对身份认证表单元素的及时识别。

JSSh服务器根据操作指示完成Firefox身份认证网页加载后,以(how,what)此种语法形式,完成含有认证信息的Java指令向服务器发送。对比编程重构认证Cookie网络交互制,经JSSh客户端完成Java指令发送,可以内嵌于Firefox浏览器内,自动填写身份认证单。仅需Firefox浏览器的附加组件,便可实现Firebug认证表单元素查找,成功构建自动化填写身份认证表单的Java指令。

2.2 身份认证及信息请求交互

完成上述步骤后,JSSh客户端负责对Java指令的操作执行,经Firefox浏览器提交至Web网站的自动化填写身份认证表单,JSSh客户端已经不再参与浏览器及网站的协商认证过程。完成Web及浏览器之间的身份认证后,JSSh客户端向服務器的内嵌Firefox浏览器完成身份认证网站指示发布相关信息,进而转至身份认证网站所进行的信息发布交互环节中。

2.3 JSSh采集网站发布内容

完成以上身份认证步骤后,经JSSh客户端能够继续发送至Firefox浏览器,相应的身份认证网站Java加载指令,并进行相应的信息采集操作。浏览器实现对发布的网页指令执行加载,并向身份认证网站中实现身份发布页面的自动认证。JSSh客户端对于浏览器网页加载DOM树内,可以完成网页身份信息的超文本链接提取,经过浏览并最终导出至对应连接的文本信息,即可成功完成身份认证信息采集工作过程。

2.4 运用网页获取工具采集内容

在完成自动化身份认证后,通过向文件导出网站Cookie信息,并在Wget、Pacuk等下载程序执行HTTP协议文件,最终导入Cookie文件内,这样可以有效提升下载效率。譬如Wget能够完成对用户提供文件的Cookie信息读取,并在交互Web服务器中在HTTP头部附加Gookie信息,保持建立用户会话状态并获取相应内容。

3  基于JSSh动态网页采集

3.1 动态网页解析技术

针对动态网页目前推出Java引擎技术,来完成对动态网页Jave脚本的解释,并获取超文本链接地址及相应内容。以Spider Monkey技术为例运用中,能够实现对基本Java分析器的基本功能,可以经过编译并执行Java脚本语句函数,能够分配脚本变量所需的存储空间,在不需要变量情况下回收原本占用存储空间。在运行Spider Monkey技术时的运行环境,作为对脚本变量、对象及上下文执行所需的存储空间,作为运行Java时的环境和上下文执行关系。

3.2 构建动态网页DOM

在用户请求网页加载时,浏览器根据网络模块完成相关数据获取,并向排版引擎转发接收数据,实现单独线程运行。对于排版引擎载入HTML文档中,可以生成DOM树,且兼容于CSS2规范的浏览器还可以完成渲染树、Frame树的创建,成功创建后便可以在屏幕中显示reflow过程。此时在网页内嵌入的Java脚本代码,便会对排版引擎产生影响,整个HTML文档便可以根据文档对象,对网页元素进行相应的访问改变,譬如实现对样本属性的更改,并完成事件监听器的增设等。

3.3 在DOM内完成内容采集

所示在成功建立Web浏览器的DOM后,便可以根据DOM的本身提供方法,完成HTML元素访问采集,并完成Java指令发送对文档元素属性进行查询,并运行获取网页发布HTML源文件及文本信息。

4  结语

如上在本文提出基于JSSh的信息采集技术,分析了JSSh服务器、客户端交互制,通过完成身份认证表单填写,并协商Web网站身份认证,进而采用动态网页解析技术,构建动态网页DOM最终完成JSSh网站发布信息采集,该技术也会在未来身份认证信息采集相关领域有较好的应用前景。

参考文献

[1] 李曼寻.“互联网+”时代档案价值与档案利用的关系研究[D].安徽大学,2020.

[2] 周静.“BIM+VR”技术在建筑设备运维管理中的应用研究[D].长春工程学院,2020.

[3] 程元泽.基于大数据分析的苏州高铁新城公共空间活力评价研究[D].苏州科技大学,2019.

[4] 梁学书.基于警务平台的视频监控基础信息采集与管理技术研究及实现[J].警察技术,2017(2):67-70.

[5] 陈云坪,孙源,杨玥,李皓昱,马存诗,侯磊,陈彦.叶面积指数在线监测实验系统设计[J].实验室研究与探索,2019,38(11):51-55.

[6] 刘兴奇.故障预测与健康管理技术在用电信息采集系统中的应用与展望[J].电器与能效管理技术,2018(2):73-77+82.

猜你喜欢
信息采集
基于Internet的网络化交通信息采集系统
如何提高卷烟零售市场信息采集的有效性
无线传感器网络在农田温湿度信息采集中的应用
浅析计算机网络技术在电子信息工程中的实践
浅析卷烟消费者研究分析工作的运用与开展