庞敏
(宝鸡职业技术学院 陕西 宝鸡 721000)
基于Web的电子产品信息分布式检索系统的设计与实现
庞敏
(宝鸡职业技术学院 陕西 宝鸡 721000)
文章旨在从海量信息中对有用信息获取,将用户需求满足,设计了一种基于Web的电子产品信息分布式检索系统。通过结合Hadoop以及Lucene技术模型,对Web电子产品信息进行检索,结合分布式索引文件的存储过程,并应用Lucene检索技术将引文件中的访问实现,并将信息检索效率提高。在Lucene_Hadoop架构分析过程,结合粗粒度检索问题,将细粒度检索方法提出,并将系统建立索引的时间有效减少。实验结果表明,基于Web电子产品信息应用Hadoop以及Lucene分布式检索系统,紧缩性能较好
Web电子产品信息;分布式检索系统;设计;实现
21世纪的今天,互联网的信息呈现出一种不断膨胀的状态,其数据资源较为丰富,对于如何做好互联网信息的有效检索始终是人们关注的焦点之一。然而,互联网的商业网站主要是结合半结构化的形式呈现,应用超文本标记语言,有着较多的展开形式,语义特征逐渐缺乏,难以实现稳定性和高效性的信息提取[1]。基于商业信息的海量选择,就要正确应用商业信息的一种应用系统,并实现信息的有效检索。在搜索引擎的高速发展阶段,信息检索速度以及精确度更是有着越来越高的要求,对信息检索系统的设计带来了一定的挑战。因此文章提出一种基于Web的电子产品信息分布式检索系统,对其设计和实现过程进行研究有一定的现实意义。
文章提出一种Hadoop以及Lucene分布式检索模型,也即是Lucene_Hadoop,不仅仅包括Lucene_Hadoop_Map模块,同时也包括Lucene_Hadoop_Reduce模块[2]。基于信息检索模块的应用,也即是分布式框架结构存在的一种存储功能[3]。在信息检索过程,主要是结合分布式文件的读写功能,并依据于Lucene中的一种索引查询技术,对不同索引块中的搜索结果获取,基于合并结果的情况,实现打分排序的应用。
1.1基于Lucene_Hadoop中的Map端分布式检索模型设计
对于 Lucene_Hadoop_Map分布式的基础检索过程,结合分布式文件系统中的一种HDFS将索引文件存放实现,并结合命名节点中的一种NameNote提供文件,做好文件的备份,将Map_Reduce分布式编程模块提供,结合作业跟踪器的形式,将分布式任务中的一种调度管理实现[4]。关于Lucene_Hadoop_Map分布式检索的模式,如图1所示。
基于模式的应用,主要是结合分布式文件系统的文件存放过程,在命名节点的分析过程,结合作业跟踪器将分布式任务的调度管理实现[5]。基于分布式检索任务的一种调度管理实现,主要是结合Map进行操作,在应用Lucene的应用将索引的建立完成。基于Reduce操作模式的应用,将索引的归并完成,最终实现分布式搜索的过程。
对于Map操作而言,往往是结合分布式的一种基础架构,并应用Hadoop平台,做好文本的合理处理,在多个Map处理应用过程,结合Lucene中的各种方法,将Input HDFS Block中的索引块实现,实现文件索引的基本输出过程[6]。对于Reduce而言,在实际的操作过程,通过对Map输出的一种KEY进行搜集,进而结合Lucene中的基本合并索引应用,注重不同路径索引块的有效性合并,在分布式文件系统中的一种HDFS中进行写入[7]。
图1 Lucene_Hadoop_Map分布式检索的模式
这种模式的应用过程,结合编写的形式,并将索引快递的优点生成,对索引时针建立,并结合Input HDFS Block的形式,归类生成的索引,将多层次的索引进行提供,并避免系统中搜索结果未空白状态,尽可能的结合索引块的主要形式,将全局搜索的形式完成,最后将搜索的性能逐渐降低。
1.2基于Lucene_Hadoop中的Reduce端分布式检索模型
对于Lucene_Hadoop中的Reduce端分布式检索如图2所示。
图2 Lucene_Hadoop中的Reduce端分布式检索
Lucene_Hadoop中的Reduce端分布式检索过程的实现,往往是结合分布式索引的模式,对Map端应用,做好全局查询的方法,往往将查询的效率降低。基于电子产品领域的发展过程,需要做好电子产品结合数据的有效性存放,往往是在Input HDFS Block中将电子产品信息集合数据存放。对于这种分布式索引模式的应用,其中的Map操作往往是将电子产品文本信息的一种建模过程实现,基于分配模式的应用,将索引的建立完成[8]。在模式中的电子产品领域的应用过程,结合文本信息的一种电子产品建模实现过程,实现的电子产品信息的一种有效性应用。
1.2.1Map设计
对于Map_Reduce分布式的一种编程模型应用过程,往往是结合Job中的一种Input Hdfs Block对纯文本电子产品电子信息数据集合进行读取,对Map程序模块进行分类,结合Map程序进行格式的应用,做好数据块数据的合理分析和应用,其中文本格式的一种电子产品信息的表达,实现文本格式中电子产品信息的合理有效性处理[9]。基于电子产品信息内容的直接传递,实现线程数的有效性处理。
关于算法的应用,主要是对InputSplit数据电子产品信息进行处理,在转化过程,结合类型输出,进而得到中间结果。
输入过程,产品数量用Texe Key输入表示,电子产品文本信息用Texe value表示[10]。输出的主要是写入中间结果。
1.2.2Reduce设计
对于Reduce设计而言,主要是结合Mapa程序中的一种Task Tracker节点的形式,对中间计算结果获取。在对Document对象进行构建过程,就要做好不同参数的有效设置[11]。结合检索的过程,对参数进行合理设计,实现参数的有效存储。关于Reduce程序处理阶段,通过结合中文分词器的一种支持过程,对价格以及索引目录问题进行有效性的分析。
2.1基于Web电子产品信息抽取
关于电子产品信息的抽取而言,结合用户文本数据需要的内容,做好标记控制对文本进行展示。关于信息抽取数据流程,如图3所示。
图3 信息抽取数据流程
基于电子产品的应用过程,主要是结合模块信息数据流的处理,并结合HTML以及XML数据格式技术的应用,做好URL地址的分析,结合HMI网页的形式,注重结果特点的有效性应用,实现数据的及时清洗,在XML格式数据相关内容的转换过程,结合文档对象的一种模型应用,做好数据内容内存模式的构建,在信息的抽取测试过程,进而得到Anchor-Hop-T模型的应用[12]。
通过在太平洋网以及淘宝网将输入,也即是 “手机”,对于淘宝网上的页面显示上,主要有100个页面,而太平网上页面显示的数量,有170页。基于模型的应用,通过比较,如表1所示。
表1 淘宝网和太平洋网抽取的结果比较
通过对表格中的数据进行比较。淘宝网基于Anchor-Hop魔影的应用中,抽取的时间为58 052 ms,基于Anchor-Hop-T应用过程,抽取的时间为40 368 ms。在模型的应用过程,相对而言,两个模型均有着较高的召回率,但是在消耗时间的分析而言,Anchor-Hop有着较多的消耗时间[13]。
2.2性能测试结果
索引建立性能的改善过程,往往是结合Task的个数情况,将系统框架的开销逐渐增加,并结合负载均衡的特点,将任务失败的开销逐渐降低[14]。服务器上的运行情况,就要做好参数的设置,并结结合计算机硬件的基本水平,将更好的执行能力逐渐提供,在参数的设置过程,实现参数的科学合理设计。而Reduce Slot处于不变的状态,就要对多个Map Slot作为目标,做好索引建立时间的有效性设置,对Slot基础配置进行验证[15]。相对而言,对于索引建立的性能有着直接的影响,这种程序运行状态的一种调整过程,如图4所示,横坐标表示数据块大小,单位为MB,纵坐标表示运行的时间/s。
图4 Map Slot索引建立性能的比较
相对而言,一旦数据块大小较小的时候,主要是1个Map Slot有着较高的性能。但是有着较大的数据块时,Map Slo较多的时候,有着较好的性能。
总而言之,文章的研究,主要是基于Web技术下的Hadoop _Lucene基础上实现的一种电子产品信息分布式检索系统,在检索技术的访问过程,尽可能的将检索效率显著提高。结合基础架构,做好未来研究的进一步检索,尽可能的结合手机界面,将信息检索实现,注重人工智能以及自然算法结合的一种系统性测试。
[1]YANG Chao,SHAO Yuan-zheng,CHEN Neng-cheng et al. Aggre-gating distributed geo-processing workflows and web servicesasprocessingmodelweb[C].//2012First international con-ference on agro-geoinformatics,2012:1-4.
[2]万东,庄越.基于Web Services的电子产品交易系统的设计[J].微计算机信息,2010,26(9):144-145,150.
[3]邱胜海,鲁泳,葛燕等.CIMS环境下电子产品全面质量检验管理系统设计[J].机械设计与制造,2012,12(10):184-186.
[4]CHEN Jia-ying,REN Yan,ZHANG Hai-tao,et al.Oilseed rape pro-ductive potentialities assessment under OGC web service by using geoprocessing[C].//2012 First international confe-rence on agro-geoinformatics,2012:1-8.
[5]GUAN Qiang,JIA Jian-hua,YANG Xiao-dong et al.An online system of winter wheat drought monitoring based on satellite data:Design concepts and initial testing[C].//2012 First international conference on agro-geoinformatics,2012:1-5.
[6]董李鹏,高东怀,张迎,等.基于 Lucene的校园网智能搜索引擎的设计与实现[J].现代电子技术,2013,11(6):83-86.
[7]赵静.高校图书馆搜索引擎中Web使用记录挖掘研究[J].现代电子技术,2013,36(2):1-5.
[8]张渊源,张琴燕,蒋关富,等.面向Web电子产品信息分布式检索系统的设计与实现[J].计算机应用,2013,33(4): 1026-1030.
[9]Geng,Xiaoyuan,Schut,Peter.OGC Web Processing Service and Table Joining Service:A land suitability rating system implementation case[C].//2012 First international conference on agro-geoinformatics,2012:1-6.
[10]康海燕,XIONG Li.面向大数据的个性化检索中用户匿名化方法[J].西安电子科技大学学报:自然科学版,2014,4(5): 148-154,160.
[11]吴广君,王树鹏,陈明,等.海量结构化数据存储检索系统[J].计算机研究与发展,2012,49(z1):1-5.
[12]齐向东,刘大伟,王劲林,等.分布式结构化P2P网络下局部敏感哈希快速检索的负载均衡[J].高技术通讯,2013,23(12):1213-1218.
[13]吴广印.分布式检索系统架构及核心技术研究[J].情报学报,2013,32(6):601-609.
[14]李德文,黄文君,胡静泓,等.一种分布式冗余的实时数据存储检索机制[J].上海交通大学学报,2014,48(7):948-952,958.
[15]梁敏,任卓然,解萍,等.面向舆情采集的分布式缓存系统设计[J].信息工程大学学报,2013,14(1):118-123.
[16]熊晶,郭磊,高峰,等.基于JPPF的分布式并行检索系统研究[J].计算机技术与发展,2012,22(1):79-82.
The design and implementation of electronic product information retrieval system based on Web
PANG Min
(Baoji Vocational Technology College,Baoji 721000,China)
This paper aims to obtain the useful information from the vast amount of information,and to meet the needs of users,and design a distributed information retrieval system based on Web.By combining Hadoop and Lucene technology model,the Web electronic product information is retrieved,and the storage process of the distributed index file is combined with the Lucene search technology,and the information retrieval efficiency is improved.In the process of Lucene_Hadoop architecture analysis,the paper proposes the method of fine granularity retrieval,and reduces the time of system establishment.The experimental results show that the Hadoop and Lucene distributed retrieval system based on the Web electronic product information,the compression performance is better.
Web electronic product information;distributed retrieval system;design;implementation
TN99
A
1674-6236(2016)21-0082-03
2015-12-11稿件编号:201512129
庞 敏(1976—),女,甘肃镇原人,硕士,讲师。研究方向:计算机技术。