徐玉莲 朱昌洪
摘 要: 为了提高的Web交互网络环境下的信息获取和引擎搜索能力,提出基于Android的大型Web交互网络平台设计方法。通过Web服务器建立Cloud?P2P信息融合模型,在Hadoop,MongoDB,Storm三种开源的底层计算框架下进行大型Web交互网络平台的服务系统设计,基于Android操作系统进行Web交互网络平台软件开发。采用种子URL信息爬取方法进行互联网上的信息搜索和网页信息处理,并设计垃圾信息过滤模块,提高信息识别的效率。测试结果表明,该平台具有较好的Web信息爬取能力,信息召回率等测试指标表现较好。
关键词: Android; Web交互网络平台; 信息爬取; 引擎搜索
中图分类号: TN711?34; TP393 文献标识码: A 文章编号: 1004?373X(2017)10?0046?04
Abstract: In order to improve information access and search engine capabilities in the Web interactive network environment, a design method of large?scale Web interactive network platform based on Android is proposed, in which Cloud?P2P information fusion model is established by means of the Web server, the service system of large?scale Web interactive network platform is designed under the three bottom open source calculation frameworks of Hadoop, MongoDB and Storm, and Web interactive network platform software is developed on the basis of Android operating system. The seed URL information crawling method is adopted to perform information search and Web information processing on the Internet, and design the spam filtering module to improve the efficiency of information identification. The test results show that the platform has a good performance of information recall and other test indicators.
Keywords: Android; Web interactive network platform; information crawling; engine search
0 引 言
在网络信息化环境下,网络特别是Internet为人们提供了无限的信息获取资源[1],人们可以通过搜索引擎、网络百科全书和网络文献进行大型Web交互网络平台优化设计,提高自动化Web信息交互水平。传统的C/S计算Web交互平台在面对大规模PC构成的网络信息交互时任务延迟,容易产生垃圾信息[2]。为了提供Web信息交互能力[3?4],在Android移动终端上进行网页浏览,提高对网页资源信息的调度和利用效率,降低垃圾信息的输出,设计基于Android的大型Web交互网络平台[5]。
1 大型Web交互网络平台的总体设计构架
为了实现对移动Android用户对网页浏览的个性化需求,提高Web信息的交互能力,进行大型Web信息交互网络平台设计。本文设计的大型Web信息交互网络平台采用的是三层网络结构,分别为数据层、分布式计算框架层和应用层。其中数据层建立在C/S计算模型下,为了推断安全性意图,采用浏览器/服务器模式构建Web信息交互的数据库,在Cloud?P2P云平台下建立云存储数据库,实现数据层的资源调度和信息访问与流量预测。用户通过本地客户端界面構建知识规则库,通过构建知识规则库实现用户与资源的数据共享及信息交互。
通过对Web交互的个性化特征的分析,保证系统的应用层中网络与云存储连接,提高对Web交互的云平台信息爬取的及时性。通过集群部署、镜像备份,配置个性化推荐程序,进行I/O接口驱动设计,实现对移动用户在Android终端的层次结构网络信息访问辨识[6]。
系统的应用层是主要通过开放API实现资源分配、部署,将用户提交的服务请求通过集群服务器端传输到节点的终端,结合泛知识云模型增强网络持续提供服务的分类能力[7]。总体设计构架如图1所示。
2 平台设计与实现
2.1 Cloud?P2P信息融合模型
通过Web服务器建立Cloud?P2P信息融合模型,在Hadoop,MongoDB,Storm三种开源的底层计算框架下进行大型Web交互网络平台的服务系统设计。Cloud?P2P信息融合模型通过全局文件系统集合存储资源虚拟化管理模块,采用MISC_DYNAMIC总线技术建立标准应用接口[8]。在Cloud?P2P信息融合模型建立中,设计字符设备驱动程序,定义内核函数为register_blkdev(),在成功向系统注册了设备驱动程序后,通过系统界面和应用程序模块与大型Web交互网络平台的主节点连接,在模块被加载到内核时,管理模块通过调用request_irq()函数对该节点进行身份认证,向内核注册模块在线执行数据存储和业务访问,加入Cloud?P2P计算环境中,通过集群部署,监控模块负责关心存储系统是何种设备、分布在何地,全局文件系统的核心组件通过服务认证模块执行数据交换和节点控制。在资源分配、部署中组件计算模块、网络模块、运算模块、监控模块和用户模块,得到大型Web交互网络平台的Cloud?P2P信息融合模型模块化结构如图2所示。
2.2 基于Android操作系统的Web交互网络平台软件开发
GFSI Cloud平台中结合GCC编译的方式进行Web信息收集和整理,建立主题树模型执行信息监控,在Android客户端的Web网站监控列表中执行信息更新,对上层的应用系统采用的交叉编译以及使用标准GCC编译的方式进行信息监控、预警。Web交互网络平台软件开发的第一步是进行信息爬取,为了提高网页信息的主题相关性,采用种子URL信息爬取方法进行互联网上的信息搜索和网页信息处理,Web交互网络平台的信息爬取结构如图3所示。
为了保证所采集网页信息的关联性,在E?Learning和Android系统中进行应用程序开发,采用锚文本、链接结构进行编译链接程序分析,生成脚本名为install?qt?x11.sh的open source的主题相关文件,在宿主机上进行编译、仿真。在后续页面判断模型中构建QWT库。运行make命令,开始建立主题相关树,在网页爬取过程中定期执行样本集合、模型的更新程序,编辑.Bashrc文件,将交叉编译环境成功安装到Android系统中,交叉编译环境的Android移植过程如图4所示。基于Android操作系统的Web交互网络平台的实现流程如图5所示。
基于X86架构进行大型Web交互网络平台的程序开发过程,在软件系统中可执行代码能在ARM上运行,为了提高信息交互能力以及存储资源的吞吐性能,在命令行输入arm?linux,引导加载程序(Boot loader)进行程序编译,把编译器路径加入系统环境变量,得到程序加载的接口代码为:
2.3 Web交互网络平台的应用服务部署
基于上述整体架构和基于Android操作系统的Web交互网络平台软件开发的关鍵技术分析,进行应用服务部署。为了提高网页信息的主题相关性,采用种子URL信息爬取方法进行互联网上的信息搜索和网页信息处理,并设计垃圾信息过滤模块。首先根据Web交互网络平台的特点和后期信息分析的需要,建立本体模型,对Web交互网络信息进行信息分配和事件分区,从对象、区域、结果等概念集中成内容网页,并通过检索、展示等技术进行信息分配。Web交互网络平台的垃圾信息分类流程如图6所示。
Web交互网络平台的应用服务部署中通过分析引擎进行系统的个性化推荐,使用post关键词投递收集到的网页信息,Web交互网络平台中的网络用户可以从Android客户终端浏览、检索、下载信息,对当天的信息进行排序浏览、检索和下载。通过上述分析,实现了基于Android的大型Web交互网络平台设计。
3 平台性能测试分析
大型Web信息交互网络平台的仿真测试平台搭建在Android开发系统上,用户界面如图7所示。
在性能分析中,测试Web交互网络平台进行网页信息爬取召回率这一参量指标,得到结果如图8所示。
分析上述实验测试结果得知,采用本文设计的大型Web网络交互平台进行网页信息获取,数据的召回率较高,这是因为本文方法通过垃圾信息过滤,提高信息识别的效率。
4 结 语
本文提出了基于Android的大型Web交互网络平台设计方法,并进行了实验分析。研究得知,该平台具有较好的Web信息爬取能力,信息的召回率等测试指标表现较好、性能优越。
参考文献
[1] 杨照峰,王启明,吕海莲.基于任务延迟的云计算资源调度算法研究[J].计算机测量与控制,2014,22(2):499?502.
[2] 匡桂娟,曾国荪.一种基于时分复用的云资源管理方法[J].同济大学学报(自然科学版),2014,42(5):782?789.
[3] 陈小军,方滨兴,谭庆丰,等.基于概率攻击图的内部攻击意图推断算法研究[J].计算机学报,2014,37(1):62?71.
[4] 张凤荔,王丹,赵永亮,等.基于改进的TCM?KNN DoS检测算法[J].电子科技大学学报,2014,43(1):76?81.
[5] 唐明董,姜叶春,刘建勋.用户位置感知的Web服务网络数据流量预测方法[J].小型微型计算机系统,2012,33(12):2664?2667.
[6] 肖建,白裔峰,于龙.模糊系统结构辨识综述[J].西南交通大学学报,2009,41(2):135?142.
[7] 马军,宋玲,韩晓晖,等.基于网页上下文的Deep Web数据库分类[J].软件学报,2008,19(2):267?274.
[8] CZIBULA G, MARIAN Z, CZIBULA I G. Detecting software design defects using relational association rule mining [J]. Knowledge and information systems, 2015, 42(3): 545?577.
[9] 马卫.基于Android移动平台的研究[J].计算机仿真,2016,33(1):218?222.