交通运输部科学研究院 张蕊
智能搜索系统是政府网站赋能数字政府的重要手段,交通运输部政府网站充分利用智能搜索技术,建立了“交通智搜”系统,提供了范围更广泛、功能更实用、结果更准确的搜索服务。
2022 年,《国务院关于加强数字政府建设的指导意见》(国发〔2022〕14 号)正式印发,《意见》指出:到2035 年,与国家治理体系和治理能力现代化相适应的数字政府体系框架更加成熟完备,整体协同、敏捷高效、智能精准、开放透明、公平普惠的数字政府基本建成,为基本实现社会主义现代化提供有力支撑[1]。
数字政府建设需要通过对政府数据进行挖掘、分析、融合、共享、开发、利用,以消除数字鸿沟,实现各业务领域的互联互通、协同联动,促进政府治理革新,推进服务流程优化,而数字政府的对外展示、对外服务需要依托政府网站。
党的十八大以来,在政府网站与政务新媒体检查、政府网站绩效评估等一系列“以评促建”活动的推动下,政府网站建设工作取得了积极进展,网站建设规范、内容丰富详实、功能便捷完善、互动畅通及时,为数字政府提供了良好的展现平台。智能搜索系统的建设,不仅可以精准定位信息和服务,实现“搜索即服务”,同时也赋能数字政府的“敏捷高效、智能精准”服务。
近些年,依据《国务院办公厅关于印发“互联网+政务服务”技术体系建设指南的通知》(国办函[2016]108号)和《国务院办公厅关于印发政府网站发展指引的通知》(国办发[2017]47 号)提出的优化政府网站搜索功能,开发模糊搜索、目录搜索[2]、拼音转化搜索、通俗语言搜索、服务事项和办事指南搜索、关键词推荐、办事进度和信件回复情况查询、错别字自动纠正、搜索结果排序、多维度分类展现、聚合相关信息和服务等功能,实现“搜索即服务”[3]的要求,交通运输部积极推进智能化搜索系统建设,开展集约化搜索应用,本着统一性、实用性、安全性、先进性、规范性、开放性的原则,不断升级“交通智搜”系统,扩大搜索范围,提升搜索结果准确性,丰富搜索结果展现形式,使用户可以方便快捷地在交通运输部政府网站查找所需信息和服务内容,政府的对外服务形象得到了显著提高。
“交通智搜”系统通过构建集约化搜索引擎应用平台(如图1 所示)提供交通运输行业政府网站跨站点信息搜索服务,搜索引擎与内容管理系统之间通过数据接口进行信息数据传递、维护、更新,网站信息经分析、处理后索引进入集约化搜索引擎平台,保障网站信息与搜索信息的及时同步与一致性。
图1 交通运输部集约化智能搜索平台Fig.1 Intensive intelligent search platform of ministry of transport
目前,“交通智搜”的搜索范围涵盖了交通运输部政府网站群(含门户网站、子站)的全部信息、办事服务和互动服务内容、微信公众号以及交通运输部海事局、长江航务管理局、珠江航务管理局、直属海事机构和地方交通运输主管部门的政府信息公开内容,实现了全行业政策信息的一站式搜索。
“交通智搜”系统总体技术架构结构分为:基础设施层、信息资源层、接口层、搜索应用支撑层和搜索功能层,各层通过相应的技术接口进行参数与数据、命令的传递。
信息资源层与搜索应用支撑层之间通过XML/Web Service 技术进行网站信息(包括:ID、更新标志、时间、内容等)的数据传递、维护与更新,并完成索引工作,保障搜索信息与发布信息的及时同步与一致性,更新频率可以根据业务需要自定义(分钟、小时)等。
搜索应用支撑层与搜索功能层之间通过HTTP/XML技术进行请求提交与数据交换,通过JSON/XML 获得返回的结果数据并包装成业务结果返回给用户。即互联网用户通过门户网站搜索框提交搜索请求后,搜索条件传递到集约化智能搜索应用中,搜索应用将转化后的请求传递到分布式搜索引擎中,通过索引库的搜索返回相关的结果列表。
“交通智搜”系统采用分布式控制系统应对交通运输部政府网站群大数据量、高并发、高性能、高可用性的应用需求,保证系统的容灾备份、故障切换和负载均衡。其主要组成模块包括以下几个部分:
(1)分布式请求服务器:使用加权算法将请求转发至不同的智能搜索引擎系统上,实现容灾备份和负载均衡。
(2)分布式索引服务器:将文档分别索引至不同的智能搜索引擎系统中,实现故障切换和负载均衡。
(3)分布式管理服务器:为智能搜索引擎系统各模块提供关键的维护、管理、控制和监测功能,采用统一的方式从中央位置与所有智能搜索引擎系统服务进行通讯。
为提高搜索引擎的响应速度,“交通智搜”系统根据信息源的范围,为网站群设计多个索引库(即每个站点一个索引库)来分散搜索引擎的搜索压力。
针对具体的搜索应用,“交通智搜”系统根据搜索数据的特点,采用合理冗余的索引字段设计方式,提高搜索引擎响应时间。例如,日期字段2008-01-09,在索引库中存储时,设计为:
年:2008
月:2008-01
日:2008-01-09
虽然这种设计会导致索引空间膨胀,但可以提高搜索速度,符合索引系统空间换时间的理念。
通常情况下,在某一时间段内,80%的用户搜索请求会集中于某些特定内容,在搜索引擎收到相同或相似的搜索请求时,“交通智搜”系统合理采用搜索缓存技术缓存上个用户的搜索结果,以减少服务器负载及快速返回搜索结果。
依据上述合理的技术应用与数据库设计,交通运输部政府网站在日均页面搜索量约1.5 万的情况下,搜索结果仍可以快速反馈,服务稳定可靠。
“交通智搜”系统不仅搜索范围广泛、响应速度快速,其搜索方式和搜索结果展示也满足了用户多样化的需求。
系统提供了普通搜索、高级搜索、二次搜索(如图2所示)等搜索方式。
图2 普通搜索和二次搜索Fig.2 General search and secondary search
(1)普通搜索,用户仅需输入搜索词,点击搜索按钮,即可得到相关的搜索结果;
(2)高级搜索,可以对关键词、文档格式、时间范围、排序方式、搜索位置等进行设置;
(3)二次搜索:在第一次搜索的搜索词后空一格,并继续输入二次搜索的搜索词,即可对包含某一搜索词的信息数据进行二次搜索,二次搜索的次数不限,直至搜索到目标信息。
系统建立了停用词、全拼、大众词汇、同义词、行业相关主题词、部门领导人、内设机构名称、直属机构名称、行业相关长尾关键词、办事事项、政策、问题等词典,与网站内容管理系统对接,全面提升搜索词的准确性以及网站自查和校对能力,针对不同的搜索需求,提供了拼音搜索、模糊搜索等,用户输入拼音、同/近义词、大众词汇后,系统会对相关搜索词进行提示、智能纠错,还会推荐其他相关搜索。
(1)拼音搜索:系统基于汉字注音技术和多音排歧技术,在大量拼音语料基础上,统计汉字串的分布规律、拼音串的分布规律等,形成了基于上下文的注音算法技术,保证了注音的准确性。当用户只输入拼音时,系统可推荐相关的搜索词汇,完成搜索。例如,用户输入拼音“jiazhao”,系统会返回含有“驾照”和“机动车驾驶证”两个相关搜索词的搜索结果。
(2)大众词汇搜索:系统将白话文/大众词汇与专有词汇、专业术语一一对应,建立了大众词汇库,通过词库匹配将其转换为网站中的专业术语或准确表述,并返回相关搜索结果。例如,用户输入“驾照”时,系统会提示“您是不是要搜索机动车驾驶证或仅搜驾照”,并返回与“驾照”和“机动车驾驶证”相关的信息。
(3)模糊搜索:系统建立了同义词库,用户输入的搜索词有同义词时,系统会自动按照同义词进行模糊搜索,并返回相关搜索结果。例如,用户输入“交费”时,系统会反馈含有“缴费”和“交费”的相关信息,得到较全面的搜索结果。
(4)智能纠错:对于经常性输入错误的词语,系统会提示按正确词语作为搜索词进行搜索,以减少重复输入操作。例如,用户输入“简历工程师”就可以得到“监理工程师”相关的结果。
(5)搜索词推荐:由于用户使用的搜索词不准确,往往不能得到想要的结果,系统会在用户每次搜索时,依据相关度算法,自动分析出一系列相似或相关搜索词,并在页面下方按照搜索热度进行推荐,点击新搜索词即可完成相关搜索。例如,用户输入“旅游”后,系统会在搜索结果列表下方自动推荐“旅游法、云南旅游、旅游公路标准”等相关搜索词。
(6)热搜词推荐:系统可根据用户搜索频率统计热门搜索词的排名,并在搜索框下推荐热搜词,用户可以直接点击热搜词进行搜索。
(1)分类展示:用户可选择信息所在板块(包括交通运输部门户、政策、新闻、服务、数据、互动、微信、图片等)和信息来源(含子站、部管政府网站和地方交通运输主管部门网站)对搜索结果进行分类展示。
(2)自定义排序:用户可按照相关度、更新时间等自定义搜索结果的排序方式。
(3)缩小搜索结果的显示范围:用户可通过设置搜索词所在位置(如全文、标题)、信息的附件类型、更新时间等进一步缩小搜索结果范围。
系统可根据用户的搜索词,在搜索框的下拉框中或搜索结果列表的右侧按照信息所在板块智能分类提示相关搜索结果(如图3、图4 所示)。
图3 下拉框搜索结果推荐Fig.3 Drop-down search results recommendation
图4 搜索结果列表右侧智能推荐Fig.4 Smart recommendations to the right of the search results list
强大的统计分析功能是智能搜索赋能数字政府建设的一个重要表现。系统可进行可靠即时地搜索统计,内容包括搜索用户数、热搜词排名、流量趋势、用户来访地区等,帮助网站管理者了解用户搜索行为,为做好服务型政府网站提供决策性数据支撑。
5.1.1 常用搜索词排名
系统可采集分析站群或某个特定站点的所有搜索词,并通过柱图等展现各搜索词的搜索占比,政府部门可以及时掌握舆情动态、了解用户需求。
5.1.2 站内搜索词列表
系统可采集所有搜索词,并通过列表方式分析展现搜索词的名称、搜索次数、命中次数、作为二次搜索的次数、结果页浏览量、带来再次搜索的次数和平均访问深度等,以帮助系统管理者优化搜索词库、索引库和相关算法等。
5.1.3 搜索词多维度分析
系统可围绕用户输入的搜索词提供热度分析、增长率分析、相关分析、终端分析等多维度统计,并支持按时段查看,使网站管理者深入了解用户搜索需求,并进一步分析用户的主要诉求,为网站的资源组织、信息发布和其他相关业务开展提供基础决策支持,以优化线上办事流程、引导社会舆论,从而有效提升政府治理能力。
系统可按照搜索词和索引量进行统计,分析“0 结果”的搜索百分比、搜索结果“0 点击”的百分比、搜索终端访问量占比、搜索结果访问趋势等,为系统运维和运营提供客观可靠的数据支持,并进一步开展热词、搜索排行榜及特定搜索词的相关信息统计。
在未来的发展上,“交通智搜”还可以探索开展搜索结果的场景化服务,根据用户历史搜索情况和访问转化情况,为用户整合与其搜索内容相关的服务、信息和互动内容,实现千人千面,针对不同用户提供不同的搜索结果,以提高用户的体验感和获得感,进一步提升用户对数字政府治理能力的满意度。