孙雨生,李沁芸,刘 阳,朱礼军
(1.湖北工业大学经济与管理学院;2.中国科学技术信息研究所信息技术支持中心)
伴随Web 2.0时代到来,可视化搜索引擎应运而生。可视化技术将搜索结果转成图形或图像显示,[1-5]以形象化其中隐含规律、形成概念并通过人机交互高效引导用户搜索,方便其更好地分析、理解领域信息,直观发现信息间隐藏关系并最终提升用户搜索效率及体验。[6-12]现有可视化搜索引擎应用领域虽较广但存在理论研究不充分(可视化技术在搜索过程中应用潜力待挖掘)、架构体系不完整、应用深度不够(重引入轻原创、实用性搜索引擎不多)等问题。因此,系统研究可视化搜索引擎应用与实现问题具有重要意义。
本研究以中国知网、万方数据的学位论文库、期刊论文库及维普的期刊论文库为信息源,分别以“可视化”、“搜索”和“可视化”、“检索”为关键词组合在题名中检索相关文献(截止2017年7月28日)。以“可视化”、“搜索”为关键词组合,从知网检索到硕博论文12篇、期刊论文28篇,从万方检索到硕博论文13篇(新发现3篇)、期刊论文21篇(新发现0篇),从维普检索到期刊论文29篇(新发现2篇);以“可视化”、“检索”为关键词组合,从知网检索到硕博论文15篇、期刊论文101篇,从万方检索到硕博论文16篇(新发现6篇)、期刊论文91篇(新发现5篇),从维普检索到期刊论文101篇(新发现3篇);合计175篇文献。通过阅读175篇文献归纳出国内可视化搜索引擎应用领域、系统实现进展,并从领域应用、系统实现两方面阐述国内可视化搜索引擎研究进展。
国内可视化搜索引擎应用集中在生物医学[1,13-15]、数字图书馆[8,10,12,16](文献[5,17-19]、专利[20]、多语言[21]搜索)、农业[22-24]、地理空间 (GIS)[3-4,25-28]、电子商务[29-30]、社交网络[5,11,31]等领域且前景良好。其中,生物医学、GIS可视化应用领域性较强但实现方式及
架构可供Web信息可视化参考。
作为分子生物学新兴交叉学科,生物信息学旨在由生物、数学、计算机学家共同研究生物分子数据,对其进行获取、处理、分析、利用,以揭示其内涵及人类未知的生物学知识和有用信息。龚庆侠[15]基于信息图层动态可视化生物医学数据提出KNALIJ引擎,辅助用户浏览并高效搜索PubMed海量信息;张浩然[14]基于Android系统开发了支持代谢网络可视化和生化反应检索的搜索引擎;王鋆[1]提出新的分子数据集分析算法并结合可视化技术提供高效直观分子数据集搜索方法;张飞[13]设计了旨在可视化RNA序列数据的B/S模式基因预测平台,并成功预测鸡microRNA新基因。
可视化搜索数字图书馆中文献(论文、著作、专利)及其来源(期刊、会议等)、作者、研究领域等信息,相关研究主要分为理论、应用两类。
理论方面,王宁[8]阐述数字图书馆可视化搜索引擎总体结构及关键技术;窦淑庆[10]阐述图书馆可视化文献搜索引擎设计理论方法并进行具体设计;桂思思[32]从设计步骤、实现方法方面阐述基于主题图与MARC书目的可视化搜索引擎构建原理;周怡雪[19]基于共现分析理论构建“二维度(横向和纵向)-三方面(内部特征、外部特征和内外部特征结合)-四部分(关键词、作者、研究机构和主题)”的文献搜索结果可视化研究框架;周宁[18]基于词频分析图,运用Java Applet对文献搜索结果进行可视化;秦雪梅[33]指出文献可视化搜索引擎可将文献间语义关系、提问与搜索结果关系可视化并提供有效信息反馈机制。此外,Julia J.Jürgens[20]指出市场上可视化专利搜索引擎多采用传统图表、显示技术(如3D专利地图)分析并展示搜索结果集,未充分发掘可视化技术在搜索过程中的潜力,但已开始探索新应用方向,如从专利空间分布展示到搜索结果集可视化。
应用方面,钱力[16]、马雨佳[12]设计并实现交互、立体式数字图书馆馆藏跨库可视化搜索引擎并用于中科院国家科学图书馆,[16]最终实现视觉化人机交互;王宁[8]用3D漫游实现虚拟图书馆场景并用于复旦大学图书馆;[5,34]桂思思[32]融合 MARC、主题图与可视化技术构建原型系统,以可视化主题图中主题类型间联系并基于此搜索图书;张学福[17]实现基于知识模型的文献可视化搜索引擎;蔚元方[5]针对文献互引问题提出共引矩阵构造方法,基于社会网络分析[19]算法实现文献可视化搜索。此外,张秀梅[35]基于文献信息的科研合作复杂网络方法并用于大型文献搜索引擎,同时介绍美国国家科学数字图书馆为馆藏增加交互式可视化浏览器以提供可视化搜索服务;张学福[17]指出新西兰数字图书馆用自组织可视化技术处理搜索结果,用HyperSpace生成三维图像并提供文献访问途径;刘如[36]指出微软学术搜索在深度搜索过程中可视化搜索结果所隐藏有价值信息。
目前国内农业搜索引擎主要有农搜网、搜农网等,仍处发展期。[24]张阳[22]以农业文本信息、农产品价格为研究对象,构建基于地理信息库的农业信息可视化搜索引擎;赵兰荣[23]构建基于元搜索的农业信息可视化平台以图形化搜索结果;王恬[24]二次开发农业搜索引擎,用Web信息抽取、数据挖掘及信息可视化技术将搜索结果可视化,实现人机交互,提升搜索体验。
徐少坤[26]研究基于多维可视化技术的地理空间元数据可视化搜索;宋国民实现基于双曲线树[4]和基于平行坐标[27]的地理空间元数据可视化搜索原型系统;张向荣[25]设计空间数据管理系统模型,实现基于SVG(可缩放矢量图形)的GIS可视化,通过可视化搜索引擎模块返回空间属性信息来动态维护GIS数据;孙洪亮[28]设计地理空间语义搜索引擎架构,基于地学知识库,用命名实体识别、实体消歧等自然语言处理技术空间化非结构化文档,用WebGIS将搜索过程、结果可视化;朱向彩[3]结合VB、可视化等技术研究城市交通站点可视化搜索问题,为城市建设、三维仿真、交通模拟、信息搜索及维护等提供技术途径。
目前大多数商务搜索引擎为用文本标注方式标注、索引图像的视觉搜索引擎。黄辉[29]提出可视化搜索引擎及相关技术是可视化电子商务核心和业务基础,构建了符合用户搜索和使用习惯的可视化电子商务搜索引擎体系,通过第三方技术授权与合作的方式提供可视化搜索服务,运用完善互联网图片自动采集分析机制构建可视化电子商务平台并提供搜索服务;胡亦奇[30]分析了现有电子商务网站搜索结果显示的优缺点,比较了多维数据可视化方法,用气泡图显示电子商务网站的搜索结果;刘晓慧[37]设计并实现了基于可视化图像搜索技术的商务可视化搜索引擎iSearch,由Web端可视化搜索、广告注册、手机端可视化搜索、数据操作模块组成,以增强海报广告交互性。
关岳[31]认为当前社交网络数据可视化研究较分散,主流研究是可视化信息传播路径;周霞娟[11]认为微博搜索过程用户需求较模糊,更倾向于探索式搜索,提出用户驱动微博可视化搜索方法,基于微博用户特征和兴趣特征,用向量空间模型表示用户微博,引入IDF(逆文本频率指数)降低常用词汇权重、提升用户兴趣模型精准性。提出关注度传递算法,计算微博用户对特征词的关注度并用气泡图将其可视化,以搜索用户感兴趣的微博。此外,蔚元方[5]指出北京大学开发的微博分析工具WeiboEvents可辅助用户认知,理解微博运转、传播过程,展示微博事件中关键人物、观点、人物关系及转发情况。
在海量信息中,若想快速、准确且可视化地获取所需信息,必需在掌握搜索方法与技巧基础上熟悉可视化搜索引擎,并深刻理解其相互间的区别与联系,[38]其中的核心是可视化搜索模型(注意其适用情形和可扩展性[12,39])及相关算法,以在有限可视空间中展示搜索对象主要属性[21]、揭示搜索对象间深层语义和复杂关系,[7,9,12,17,21,33,39]同时为构建新可视化搜索引擎[38]提供支持,最终更好地帮助用户搜索,提高搜索效率。[6-12]现有可视化搜索引擎主要分为四类。
该类引擎能够分析并可视化用户提问与搜索结果,为搜索结果中的文献间关系提供可见语义关系,用可视化技术在知识域中辅助用户深度搜索及分析,通过可视化图形交互降低用户认知文献间语义关系的负荷,[33]现有文献可视化搜索引擎见表1。
该类引擎能够基于图像内容语义特征来消除文本标注等导致的搜索结果偏差,提升搜索准确性和用户体验。[37]现有基于内容特征图像搜索引擎见表2。
表1 文献可视化搜索引擎
表2 基于内容特征图像搜索引擎[29,37]
该类引擎能够结合用户搜索和浏览行为将复杂搜索对象结构、语义、相互关系可视化,基于用户行为优化并明确用户搜索需求进而精准获取所需文献,提升人机交互效果和搜索效率,[9]最终将用户搜索过程变为学习过程。现有基于用户行为可视化搜索引擎见表3。
表3 基于用户行为可视化搜索引擎[9]
该类搜索引擎聚类文献标题、摘要并以树和图形式可视化,从而向用户快速、全面、直观、结构化地展示搜索结果,辅助用户准确获取领域信息。[6]现有聚类可视化搜索引擎见表4。
此外,周群[38]基于各可视化搜索引擎相似点,用动态引擎技术串联可视化搜索引擎,以便用户全面准确获取所需可视化信息并一定程度解决可视化搜索易导致的网络堵塞及死机等问题。
表4 聚类可视化搜索引擎[6]
[参考文献]
[1]王鋆.生物数据库搜索和可视化的研究[D].杭州:浙江大学,2006.
[2]周宁,文燕平.检索结果的可视化研究[J].中国图书馆学报,2002,28(4):48-50,53.
[3]朱向彩,等.利用VB技术实现城市交通站点检索及其可视化[J].泰山学院学报,2006,28(3):34-37.
[4]宋国民,等.双曲线树在地理空间元数据可视化检索中的应用研究[J].测绘科学技术学报,2014,31(3):300-304.
[5]蔚元方.文献检索的信息可视化技术研究[D].郑州:中原工学院,2015.
[6]赵华军,等.网页搜索结果聚类与可视化[J].南京大学学报(自然科学),2010,46(5):542-551.
[7]韩丽华.信息检索可视化效率若干问题研究[D].哈尔滨:黑龙江大学,2008.
[8]王宁,等.可视化信息检索系统的设计与实现[J].计算机工程,1997,23(S1):179-182.
[9]李春旺.信息检索可视化技术[J].现代图书情报技术,2003(6):44-46,49.
[10]窦淑庆.图书馆可视化文献检索系统研究[J].情报探索,2009(10):11-13.
[11]周霞娟,等.用户驱动的微博可视化搜索[J].中国图象图形学报,2015,20(5):715-723.
[12]马雨佳.信息可视化技术在数字图书馆馆藏资源检索中的应用研究[J].图书馆界,2015(4):57-60.
[13]张飞.鸡microRNA新基因预测与检索自动化软件系统及Web可视化[D].咸阳:西北农林科技大学,2011.
[14]张浩然,等.基于Android的代谢网络可视化和生化反应搜索的实现[J].计算机应用与软件,2016,33(6):224-226,302.
[15]龚庆侠,雷润玲.生物医学可视化搜索引擎KNALIJ特色评析[J].中国医学教育术,2017,31(3):302-305.
[16]钱力,等.信息可视化检索在数字图书馆中的应用实践[J].现代图书情报技术,2012(4):74-78.
[17]张学福.基于知识模型的文本信息检索可视化研究[J].中国图书馆学报,2006,32(5):52-56.
[18]周宁,等.文献检索结果的可视化研究[J].情报探索,2007(6):3-6.
[19]周怡雪.基于共现分析的文献检索结果可视化研究[D].北京:北京大学,2009.
[20]Julia JJürgens,等.专利检索系统中可视化查询的比较研究[J].情报工程,2015,1(5):8-17.
[21]朱云霞.我国信息检索可视化研究现状与发展趋势分析 [J].情报探索,2012(8):112-115.
[22]张阳.农业搜索可视化平台的研究[D].合肥:中国科学技术大学,2010.
[23]赵兰荣,朱学芳.基于元搜索的农业信息可视化平台实现研究[J].农业图书情报学刊,2011,23(12):5-8,11.
[24]王恬,等.农业信息搜索可视化平台研究[J].计算机应用与软件,2016,33(3):271-274.
[25]张向荣.空间数据的储存、检索与可视化研究[D].西安:西北工业大学,2006.
[26]徐少坤,等.多维可视化技术在地理空间元数据检索中的应用研究[J].地理信息世界,2013,20(1):46-50.
[27]宋国民,等.基于平行坐标的地理空间元数据可视化检索研究 [J].测绘工程,2015,24(5):1-4.
[28]孙洪亮,等.基于WebGIS与SOLR的地学可视化检索系统研究[J].计算机技术与发展,2016,26(6):171-174.
[29]黄辉,等.基于可视化搜索技术的新一代3G移动电子商务 [J].电信科学,2011,27(6):33-37.
[30]胡亦奇.数据可视化的研究及其在搜索结果显示中的应用[D].南京:东南大学,2008.
[31]关岳.大规模微博数据的品牌检索与可视化[D].大连:大连理工大学,2015.
[32]桂思思,石义金.基于主题图与MARC的书目可视化检索系统设计与实现[J].科技创业月刊,2012(8):194-196.
[33]秦雪梅,等.可视化情报检索[J].图书情报工作,2002,46(4):89-92.
[34]陈颖.基于摘要信息的中文信息检索可视化系统研究与实现[D].哈尔滨:黑龙江大学,2007.
[35]张秀梅,吴巍.科研合作网络的可视化及其在文献检索服务中的应用[J].情报学报,2006,25(1):9-15.
[36]刘如,等.微软学术搜索的可视化应用探析[J].天津科技,2014,41 (9):48-50.
[37]刘晓慧.基于可视化检索的广告信息增强系统的设计与实现[D].广州:中山大学,2013.
[38]周群.论可视化信息检索系统研究[J].情报杂志,2006,25(7):94-96.
[39]张进,等.信息检索可视化的主流路径[J].图书情报知识,2008(5):24-27.