江苏省常州专用通信局 徐伟群 江苏省互联网行业管理服务中心 马 旸
“元搜索”技术在省内网络环境治理中的实践
江苏省常州专用通信局 徐伟群 江苏省互联网行业管理服务中心 马 旸
基于JSSH(Java script shell server)的元搜索引擎构建技术为“元搜索”在省内互联网网络环境治理的研究与部署给出了一种实践方案。结合江苏本省接入的域名库,对Baidu、Soso两个搜索引擎的搜索结果进行重新整合以提高结果的有效性,这种高效的元搜索引擎作为省内网络环境治理工作中不良信息获取方式的补充,为有互联网环境治理需求的单位提供了一种有力的技术手段。
元搜索;网络环境治理;实践
近几年来,利用互联网传播有害信息,进行网络赌博、网络色情等违法犯罪活动层出不穷,成为影响社会和谐的不利因素,《2012年中国互联网舆情分析报告》指出:“2012年,网络民意表达进入移动互联时代,‘90后’青年登上互联网和社会舞台,中产阶层的社会向心力需要修复,网络论争的非理性化,呼吁网络谣言需要刚柔并济的‘生态治理’,推进网络公关成为‘阳光产业’。”[1],这些网络舆论生态的演变,对网络监管部门提出了巨大的挑战。如果监管缺失,在网络上很容易出现虚假、反动甚至暴力的言论,势必严重影响绿色网络的营造与和谐社会的建设。
省内网络环境治理工作重在把握网络信息动向,引导网络言论,建设和谐网络环境,具体来说,省内各互联网专项内容主管部门从互联网上发现有害信息加以治理,如版权部门打击侵权盗版、扫黄打非部门打击淫秽色情信息等。一般这些互联网信息的获得由信息采集、信息融合和结果呈现三大环节共同组成。而对于在整个互联网进行热点信息汇总,搜索引擎拥有得天独厚的优势,搜索引擎为人们在Internet中查询信息提供了很好的解决方案,这也使得它成为了网民使用互联网的第三大应用。不过搜索引擎本身存在着一些局限性,比如它们只能覆盖Internet的一个子集,某些网页内容是不可被索引的,以及某些搜索引擎采用竞价排名,等等,使它不能直接用来进行网络信息监管。高效的元搜索引擎能够解决单个搜索引擎存在的问题,它提供基于主题的全面的信息查询技术,能够很好地帮助跟踪当前热点问题的舆论动向,使其成为省内互联网网络环境治理手段的有力补充。
元搜索引擎(meta search engine,MSE),是一种建立在独立搜索引擎基础上,调用其他独立搜索引擎的引擎,亦称“搜索引擎之母(mother of search engines)”。在这里,“元”(meta)为“总的”“超越”之意,元搜索引擎就是对多个独立搜索引擎的整合、调用、控制和优化利用。相对于元搜索引擎,可被利用的独立搜索引擎称为源搜索引擎(source search engine),或成员搜索引擎(component search engine)。从功能上来讲,元搜索引擎像是一个过滤通道:以多个独立搜索引擎的输出结果作为输入,经过一番提取、剔除、萃取等操作,形成最终结果,然后将最终结果输出给用户。
一个真正的元搜索引擎由三部分组成:检索请求提交机制,检索接口代理机制,检索结果显示机制。“请求提交”负责实现用户个性化的检索设置要求,包括调用哪些搜索引擎、检索时间限制、结果数量限制等。“接口代理”负责将用户的检索请求翻译成满足不同搜索引擎本地化要求的格式。“结果显示”负责所有源搜索引擎检索结果的去重、合并、输出处理等元搜索引擎的出现,对于那些需要连续地使用不同的搜索引擎重复相同的检索的人来说,是一个福音。使用元搜索引擎同时对几个搜索引擎进行检索,获得分级编排的检索结果。
我们可将元搜索引擎看成具有双层客户机/服务器结构的系统,用户向元搜索引擎发出检索请求。元搜索引擎再根据该请求向多个搜索引擎发出实际检索请求;搜索引擎执行元搜索引擎检索请求后将检索结果以应答形式传送给元搜索引擎,元搜索引擎将从多个搜索引擎获得的检索结果经过整理再以应答形式传送给实际用户。
2.1 元搜索引擎的原理和特点
元搜索引擎的典型工作过程可以归纳如下:
1)用户通过统一的查询界面输入查询请求,元搜索引擎对查询进行一定的预处理;
2)元搜索引擎根据成员搜索引擎调度机制,选择若干成员搜索引擎;
3)元搜索引擎根据选择的成员搜索引擎的查询格式,对原始查询请就进行本地化处理,转换为成员搜索引擎要求的查询格式串;
4)向各个成员搜索引擎发送经过格式化的查询请求,等待返回结果;
5)收集各个独立搜索引擎的返回结果;
6)对返回结果进行综合处理,例如,消除重复链接,死链接等,形成最终结果;
7)以一定的格式将最终结果返回给用户。
元搜索引擎区别于独立搜索引擎,主要有这样一些特征:
1)不用设立庞大网页数据库,节省存储设备;
2)提供了统一的外界模式,将一次查询提交到多个独立搜索引擎;
3)基于独立搜索引擎结果的二次加工;
4)标明结果记录的来源搜索引擎及其局部相关度,提供了全局相关度。
2.2 元搜索引擎发展趋势
目前,针对元搜索引擎的研究、开发十分活跃。它用到了信息检索、人工智能、数据库、数据挖掘、自然语言理解等领域的理论和技术,具有综合性和挑战性。一个理想的元搜索引擎应该具备以下功能要求:
1)涵盖较多的搜索资源,可随意选择和调用独立搜索引擎,还可根据一定调度策略进行自动调度;
2)具备尽可能多的可选择功能,如资源类型〔网站、网页、新闻、软件、FTP(文件传输协议)、MP3、Flash、图像、影视等〕选择、等待时间控制、返回结果数量控制、结果时段选择、过滤功能选择、结果显示方式选择等;
3)强大的检索请求处理功能(如支持逻辑匹配检索、短语检索、自然语言检索等)和不同搜索引擎间检索语法规则、字符的转换功能(如对不支持“near”算符(邻近度算符)的搜索引擎,可自动实现由“near”向“and”算符的转换等);
4)详尽全面的检索结果信息描述〔如网页名称、URL(统一资源定位)、文摘、源搜索引擎、结果与用户检索需求的相关度等〕;
5)支持多种语言检索,比如提供中英文搜索等;
6)可对结果进行自动分类,如按照域名、国别、资源类型、区域等进行分类整理;
7)可以针对不同用户提供个性化服务。
基于以上的研究,我们提出了一个元搜索引擎的设计构想。在这个构想中,我们提供了一个实战系统的整体框架,并对它们的功能和关键技术进行了部署实践,在已有的Baidu、Soso两个独立搜索引擎的基础上建立一个元搜索引擎来扩展独立搜索引擎的处理能力,提高检索的查全率,并且有可能进一步提高查准率。同时结合江苏互联网网络环境治理的需要,给出了自己的搜索语法,建立对搜索引擎检索效果的评价机制、成员搜索引擎的自动调度机制,使系统具有良好的可扩展性,给出自己的结果融合算法。
3.1 系统结构框架
图 1 为系统结构框架。
3.2 利用JSSH技术构建元搜索引擎[2]
FireWatir是一种典型的JSSH(Java script shell server)客户端,它使用Ruby语言编写,封装了与JSSH服务器交互的诸多功能,例如网页表单填写、点击网页按钮、网络信息交互与网页内容导出等诸多操作。调用FireWatir生成Firefox浏览器的实例,应用程序能够方便地操纵Firefox加载的网页内容。
以单个成员搜索引擎为例,使用FireWatir作为JSSH客户端,以(how,what)语法形式把计划关注的热点话题描述词汇以Javascript指令形式发送给内嵌JSSH服务器的Firefox浏览器。在JSSH客户端指示Firefox浏览器完成向搜索引擎提交所关注的检索词汇后,客户端就能够进一步指示Firefox导出信息检索结果页面。针对元搜索引擎返回的信息检索结果集,这里首先进行结果提取与存储操作,为后续的元搜索引擎结果整合提供必要的数据基础,如图 2 所示。
通常选择常见的搜索引擎共同构成元搜索平台,图 2 给出的是单个成员检索信息发送与结果提取存储过程。在多个搜索引擎共同工作时,可以为每个成员引擎单独运行JSSH服务器,分别对各个成员进行操作,基于并行处理机制显著提高元搜索平台工作效率。
3.3 实现中的关键技术
基于网络交互重构的方法,需要对每个成员引擎的查询交互过程进行详细的分析,发现相关模式之后,再进行交互过程重构。这里提出的基于浏览器模拟的元搜索引擎实现方案中,与URL、关键字编码等相关的这些过程,全都是在JSSH客户端的指示下,由内嵌JSSH服务器的网络浏览器自行完成。查询分发器不再需要针对不同成员引擎,重复实现网络交互重构机制,有效降低了实现的复杂度,显著提高了普适性。
另外,基于JSSH的方法中使用了Ruby语言,在结果集提取方面也相对网络交互重构方法更加方便。因为Ruby中可以直接用简单的正则表达式匹配出所需要的模式,并且可以简单地将各个成员搜索引擎的结果进行消重,该方法提高了网络监控的信息覆盖面,充分发挥了元搜索的优势,很好的灵活性满足了各种有网络热点信息追踪的组织的需求。
基于以上的研究、开发和部署,我们实现了“元搜索”技术在省内互联网网络环境治理专项任务中的简单应用。我们提供了一个整体框架,结合江苏本省接入的域名库,对Baidu、Soso两个搜索引擎的搜索结果进行归并整理,对省内打击淫秽色情、卫星电视等专项行动予以了有利支撑。该搜索引擎上线后1个月内即先后向省内版权局、文化厅、药监局、扫黄打非办等部门报送专报5期,涉及有价值的互联网信息37条。元搜索引擎的部署可以有效支撑行业监管、提高服务能力、扩大地方影响。
基于JSSH的元搜索引擎构建技术为“元搜索”技术在省内互联网网络环境治理的研究与部署给出了一种实践方案。JSSH客户端以JavaScript指令向内嵌于Firefox浏览器中的JSSH服务器发送查询请求。JSSH服务器运行来自JSSH客户端的JavaScript指令,填写查询关键字并触发提交事件,与各成员搜索引擎进行交互,从各个成员获得相关结果集。这里还提出了一种基于用户自定义权重的结果整合方法,将各成员返回的结果进行重新整合以提高结果的有效性。这种有效的元搜索引擎作为省内网络环境治理工作中信息获取方式的补充,为有互联网环境治理需求的单位提供了一种有力的技术手段。后续结合省内相关互联网内容主管部门的专项任务,如:省测绘局在互联网专项地图治理、省广电总局互联网音视频专项治理等,我们将在结果整合方面做进一步研究,充分地挖掘各成员引擎返回结果列表之间的关系以及一些相关度分析,相信通过更多的努力,一定能进一步提高元搜索引擎的作用。
[1] 祝华新, 刘鹏飞, 单学刚. 2012年中国互联网舆情分析报告[EB/OL]. (2012-12-21)[2013-8-6]. http://yuqing.people.com.cn/n/2012/1221/c210123-19974822-2.html.
[2] 吴宗灵,李翔,林祥. 基于JSSH的元搜索技术研究与应用[J]. 信息安全与通信保密,2010(11): 41-42.