杨 非,花基尧,刘庆涛,姚 葳,杨 柳,胡亚丽
(1.水利部水文局(水利信息中心),100053,北京;2.北京金水信息技术发展有限公司,100053,北京)
水利部门户网站智能搜索引擎建设研究
杨非1,花基尧1,刘庆涛1,姚葳2,杨柳2,胡亚丽2
(1.水利部水文局(水利信息中心),100053,北京;2.北京金水信息技术发展有限公司,100053,北京)
智能搜索作为一种对网络信息进行搜索、提取、组织、处理并提供检索服务的工具,正成为互联网应用的核心功能,成为公众获取互联网信息资源的主要方式。通过仔细研究国内外智能搜索引擎的发展和现状,深入分析了水利部门户网站搜索使用中的问题,提出了水利部门户网站智能搜索引擎建设方向,设计了水利部门户网站智能搜索引擎原型,以期对网站智能搜索建设具有借鉴意义。
智能搜索;搜索引擎;网站;互联网;云平台
搜索引擎优化可以提高网站的可搜索量与辨识度,拓展网站的用户覆盖面积,使网站符合用户搜索习惯与使用惯性,成为政府网站优化外部环境的重要手段。相对于外部环境来讲,搜索引擎优化的重要基础是政府网站内部资源的有效组织,而内部资源有效组织的另一个功能展现则通过内部搜索功能来实现。随着用户的多元化发展以及网络信息的剧烈膨胀,传统的信息公开方式难以满足用户的个性化信息需求,智能化的信息公开与在线服务的刚性需求愈发明显。
中华人民共和国水利部网站作为水利事业发展、水利电子政务的重要窗口,是联系各级水利部门与公众的重要纽带,也是建设服务型政府、效能型政府的重要平台。随着用户搜索行为的深化以及“以用户为中心”理念的深入,为用户提供更为智能的、匹配用户个性化需求的智能搜索引擎研究变得越来越迫切,搜索引擎优化和智能化的必要性也随之提升。
1.智能搜索引擎的发展
总的来说,智能搜索引擎是结合人工智能技术的新一代搜索引擎。将基于层面检索的传统搜索引擎提高到基于知识或概念层面来检索的搜索引擎,以一定的知识库技术基础,能够实现分词技术、同义词技术、概念搜索、短语识别以及机器翻译技术等,具有很高的自然语言理解与知识处理能力,表现出较强的智能化与个性化特色,为用户提供更方便、更确切的搜索服务。
多数学者将智能搜索引擎分为“基于本体的智能搜索引擎”“基于知识库系统的智能搜索引擎”“基于语义关联的智能搜索引擎”三个种类,按照不同的分类,智能搜索引擎的结构也不尽相同,原理也有所差异。
最早研究搜索引擎的文献是1984年数据工程国际会议上出现的《The Fast Data Finder——anarchitecture for very high speed data search and dissemination》,该文献首次提出构建一个快速查找和传播数据的构架。之后相关研究则围绕“基于相似度计算的智能搜索引擎的模型研究”“智能搜索引擎索引算法”“基于语义技术的智能搜索引擎”等内容展开。目前,已有较多学者提出智能搜索的相关研究,对智能搜索引擎的概念、原理结构、功能、种类、核心技术、发展趋势等内容进行了分析与探讨。
在技术方面,多数研究者在“分词技术”“网络蜘蛛”“索引技术”“词频指数”的应用基础上针对自然语言理解、人机交互界面、关联式综合搜索、自动推理、本体知识系统、专家系统等技术进行分析研究,提出智能搜索引擎的核心技术,这些关键技术的应用将使搜索引擎服务向着智能化与个性化的方向发展。相对而言,智能搜索引擎技术的理论研究比较多,真正意义上的智能搜索引擎实现起来还面临很多问题,许多涉及其他领域的技术尚不完善。
2.智能搜索引擎现状
随着“以用户为中心”理念的兴起,用户需求与搜索行为成为搜索引擎优化的重要依据。不少学者也基于用户行为对搜索引擎的智能化提出观点和期望,其中用户与搜索引擎的交互流程或许能够对政府网站搜索服务的智能化研究提供一定的思路。
一般情况下,搜索引擎系统根据用户提交的查询在系统索引库中查找相关的信息资源,并按照一定的策略将搜索结果返回给用户。用户根据系统返回的搜索结果,点击和查看感兴趣的内容页面。如果点击结果页面满足用户的信息需求,用户则可能停止与搜索引擎系统的交互。反之,用户可能继续点击其他搜索结果页面,或者重新构造能更准确表述其信息需求的查询
,继续和搜索引擎系统交互。
一方面,研究者对智能搜索引擎的研究范围仍集中在站外搜索,针对站内搜索的研究则较少;另一方面,对智能搜索引擎的研究多关注于其整体流程中的处理层,集中在技术对查询信息的处理方式上,对智能搜索的输入、输出表现形式及功能展现则未能做更深入的探讨,实际上输入、输出环节是真正接触用户实际操作的层面,如何从基于政府网站的特点和职能,从智能搜索的输入、处理、输出三个层面全方位地考虑政府网站搜索服务的智能化,值得探寻和研究。
当前,水利部门户网站初步运用云平台建设,在栏目组织和内容建设上均呈现出不少亮点,如对网站进行百度官方认证;对网站瘦身,采用DIV+CSS布局;网站设置站内搜索入口,输入关键词进行信息检索后,输出结果能够显示搜索结果数量和搜索用时,并显示搜索结果的标题、摘要、链接、时间,且关键词能够高亮显示。同时,水利部门户网站设有高级检索,其中检索条件包含标题与正文的选择、日期的选择、频道的选择、每页显示条数的选择,并可以实现结果的时间正倒排序和相关度排序。但站点的搜索引擎智能化程度不足,外部的搜索引擎优化也存在较大的提升空间。通过对水利部门户网站深度分析,发现以下问题:
1.网站品牌影响较弱,搜索引擎优化成关键
目前水利部门户网站反向链接数较少,尚未形成自身品牌。通过优化搜索引擎,提升网站的能见度成为目前的关键工作。网站在页面、内容、代码等方面的搜索引擎优化存在较大的提升空间。
一是页面优化,存在未栅格化处理、图标不清晰、图片变形等一系列问题。二是内容优化,存在密度不合理、原创文章重视程度不强、断链错链、URL不合理等问题。三是代码优化,