王一华
(郑州大学科学技术信息研究所,河南 郑州 450001)
目前,搜索引擎可以说是用户上网信息检索时手中的一把利剑。众所周知,工具的优劣往往影响工作的成效。因此,为了提高用户的使用体验,进行搜索引擎绩效评估很有必要。搜索引擎绩效评估就是采用搜索引擎绩效评价的指标体系,评价其满足用户需求的信息服务情况。在参考有关文献的基础上[1-9],本文从检索功能、检索效果、用户负担、影响力、用户满意度五个方面构建搜索引擎绩效评价指标体系,并进行实证分析研究。最后,依据分析调查问卷而得到的搜索引擎绩效评价结果,提出搜索引擎的改进建议,并指出搜索引擎评估的未来研究方向。
根据成年用户因特网利用调查,成年因特网用户把利用搜索引擎作为最重要的上网行为之一,甚至高达91%。可见,搜索引擎在人们日常生活中占有非常重要的地位。目前,百度、360、搜狗、谷歌中文、必应、搜搜、有道、雅虎中文这8个搜索引擎在 PC端搜索引擎使用率所占市场份额比较大,因此作者选择这8种搜索引擎作为代表(表1)。
借鉴国内外搜索引擎评价领域的研究成果[1-9],再加上使用搜索引擎的实践,根据对搜索引擎基本原理和主要功能的分析,把搜索引擎评价指标归为五类:检索功能、检索效果、用户负担、影响力、用户满意度。所构建的搜索引擎绩效评价的指标有:检索功能(包括自然语言检索、高级检索、多媒体检索、相似检索和特色服务五项二级指标)、检索效果(包括检索结果数量、相对查准率、相对死链接率和相对重复率四项二级指标)、用户负担(包括结果的显示、相关性排列、个性化查询界面、帮助文件实用详尽性、界面友好性和快照预览功能六项二级指标)、影响力(包括首选可能性、Alexa排名和外链接数三项二级指标)、用户满意度(包括搜索功能满意度、响应时间满意度和结果满意度三项二级指标)。
表1 八个搜索引擎网址及所属公司Tab.1 URLs of eight search engines and their companies
测量环境采用操作系统是Windows 7,浏览器采用360极速浏览器。该研究测量要求:关于同一指标的各搜索引擎的测试在一天内完成,以保证各搜索引擎结果的客观性。在使用某一检索词测量时,分早中晚测3次,取平均值作为最终测量结果。高级检索指有无高级检索以及选项多少。关于 Alexa排名,参见网站(http://www.alexa.com/)。多媒体检索包括图片、音乐、视频、地图等。相似检索可以检索到与特定网页相似的网页信息[10]。特色服务是对搜索引擎实用功能的测评。每个搜索引擎都各有特色。相对查准率=(相关检出数目/相对检索数目)*100%。界面友好性指界面是否美观大方、人性化、操作易学易用。个性化查询界面,通过搜索设置可对搜索引擎进行设置。百度有输入法设置,可拼音、手写。结果的显示是指显示标题、描述信息、类目位置、网页文本大小、快照、相似页面、结果集中放置、检索结果总数、搜索时间。死链率,即测试检索结果死链情况,在参与测试的搜索引擎上进行搜索,查看各引擎的前 20个结果中的可成功打开的链接比例。对无法打开页面进行统计,得出死链率[11]。网页检索评测任务对测试集提出了较高的要求,参考北京大学网络实验室中文Web信息检索论坛(http://www.cwirf.org/)中的中文Web信息检索评测,构建查询主题集。本次研究把清华大学图书馆网站、武夷山的博客、论文+颠覆数字图书馆的大趋势、感动中国十大人物、南京大屠杀、咏春拳等共计60个任务作为查询主题集。具体评分方法如下:参考文献[12],并进行修正,把主题与相关文档间的相关度分为三个层次:非常相关(3分),相关(2分)、部分相关(1分)和不相关(0分),再者,查询返回条数均大于20条,因此计算式如下:P(20)=[R(1-3)*20+R(4-10)*17+R(11-20)*10]/(279*3)。其中,P(20)为前20个搜索结果的检准率,R为各个命中记录的相关系数。关于各指标的权重,则采用专家算术平均法进行确定。
对有关数据进行处理后,八大搜索引擎绩效评价结果如下:
谷歌中文除相似检索功能不理想外,其他都很好,因此这项得分第一(0.8518);百度自然语音检索也不如谷歌中文,所以这项得分第二(0.829762);搜狗多媒体检索和特色服务搞得不错,所以得分第三(0.812471);搜搜和360搜索多媒体检索和相似检索功能都很好,但由于高级检索功能差,所以得分不高;而有道、雅虎中文由于这几项功能均不出色,所以得分最低分别为0.43356、0.311415。建议必应、搜搜、有道、360搜索、雅虎中文加强高级检索功能,而有道、雅虎中文加强检索功能。
谷歌中文和百度检索效果评测结果之间无明显差异,但检索数量百度不如谷歌中文,在所有检索数量中,由于检索结果的重复,除非专门选择,百度一般显示搜索到的前800条信息,谷歌中文一般显示前 1000条信息;相对查准率较好的是谷歌中文、百度和必应。重复内容多不但影响用户感受,还很耗费系统资源,影响检索效率[13],相对重复率较小的是百度和雅虎中文。建议搜狗增加检索数量,有道、360搜索、必应减少查询结果的重复率。
谷歌中文在结果的显示、个性化查询界面、帮助文件的实用性详尽性、界面友好性上做的都很好,但没有快照预览功能,建议以后加上;相关性排序是一项非常重要的指标,这项做得名列前茅的是谷歌中文和必应,其它网站搜索结果里前几项出现的是广告,而不是用户所查询的东西,不符合用户需求,严重影响了用户的体验,特别是有道、雅虎中文相对于其他搜索引擎差距不小,希望以后改进,最好是把广告放在用户查询结果的侧面;帮助文件的实用性详尽性方面以搜狗和360搜索较佳,希望其它搜索引擎能够借鉴;搜狗和搜搜的快照预览功能做的最好,期望其它搜索引擎能够多学习;用户负担包含的这几项雅虎中文和有道可以说各项做的均不理想,因此得分很低,分别为0.29307、0.27,建议以后多加改进。
因为Alexa排名和外链接数是客观的、定量的统计,所以没有让被调查者进行评价。谷歌中文和百度各项结果都比较好,较其它搜索引擎要占较大优势,因此很多人都把它们作为查找资料的首选。
得分最高的是谷歌中文,得分为 0.946166,其次是必应和搜搜,得分分别为0.862504、0.858838。搜索结果满意度是一项非常重要的指标,谷歌中文、必应、搜搜做得较好,因此得分较高,而百度搜索结果的第一页因广告占据了重要位置,所以得分稍低一些;最差的是雅虎中文,得分仅为0.499506。
八大搜索引擎综合评价参见图 1。得分第一的是谷歌中文,得分为4.522380,尽管它在相似检索、外连接数和快照预览功能相对弱些,但是因为它在很多方面做的都很好,所以得分最高;百度由于几个重要指标比如相对查准率、相关性排序等不如谷歌中文,因此得分为 4.108437,位居亚军;得分最差的是雅虎中文和有道,得分分别为 2.31000、2.20673,因为相关性排序等很多指标做的都不如其他搜索引擎。
图1 八大搜索引擎综合评价Fig.1 Comprehensive evaluation of eight search engines
下面以用户负担、影响力为例绘出雷达图,可以形象地表明各搜索引擎之间的差异。由图2可以看出,用户负担一项谷歌中文得分最高而有道得分最低,影响力一项谷歌中文得分最高而有道明显偏低。
图2 八大搜索引擎以用户负担与影响力为例所画雷达图Fig.2 Radar chart drawn by user burdens and influence of eight search engines
(1)加强优化设计,提升用户的搜索体验。优化链接,努力提升搜索的速度;优化界面设计,提高用户的搜索体验;搜索结果要加强可信性评价,可像必应(bing)、搜搜、搜狗等那样加上“可信网站”标示;定时更新程序,减少死链接的出现;优化程序,提升搜索结果的覆盖率和收录率;从数据空间化、空间显示、用户交互三方面提高检索结果可视化展示;可参考点击率的数量等因素优化检索结果的位置;搜索引擎应与文献计量学有关理论与技术相结合,提供更优的搜索结果;优化内容,减少重复等。
(2)把握未来发展趋势,打造新型搜索引擎。搜索引擎未来朝着移动化、智能化、社会化、个性化、可视化、语音化发展。搜索引擎功能更丰富,智能化程度更高,可进行视觉搜索、语音搜索、地点感知搜索,最好还有推荐引擎的功能,搜索结果呈现知识图谱化。搜索引擎会针对社交信息进行挖掘,将社交结果嵌入到搜索结果之中,并对搜索结果进行优化,以满足更多的用户需求[14-15]。未来搜索引擎像Siri那样自然口语输入,并能提供对话式的应答。未来搜索引擎不仅可以搜索到表层网络(Surface Web)的内容,也可搜索到暗网(deep web)中的内容。此外,计算机搜索将与用户(包括移动终端用户)人工回答有机结合,产生出更佳的问题解决方案。在不久的未来,采用虚拟现实技术展现用户的搜索结果将令用户产生身临其境的体验。比如,搜索“东坡饼”,香甜酥脆的美食呈现在人们的眼前,用户在“品尝”着东坡饼的唇齿留香与回味悠长的同时,内心也许还品味着苏东坡的诗句:“纤手搓来玉色匀,碧油煎出嫩黄深。夜来春睡知轻重,压扁佳人缠臂金”,这些都将会大大增强用户的快乐搜索体验。
在参考有关文献的基础上[16-33],笔者认为搜索引擎评估的未来研究方向主要有以下方面:
(1)应多层次研究搜索引擎的绩效评价。目前本研究是中文网页信息检索为例进行搜索引擎的绩效评价,以后可以以英文为例,研究搜索引擎的绩效评价,还可以进行中英文的比较,为进一步优化搜索引擎提供基础。当然,也可从图片、音频、视频、地图等其他格式的文件方面进行搜索评价。此外,也可对Metasearch Engines进行绩效评价研究。
(2)应探讨搜索引擎多种评价方法的优劣性。衡量搜索引擎质量指标(DCG, Discounted Cumulative Gain)方法[34]与前20条记录方法比较,哪个更好? DCG方法中以2为底,下一步可以2、e及10为底进行计算,然后与人工排序比较,看看孰优孰劣?此外,对解决问题而言,搜索引擎与社交网络(Social Networks)哪个效果更好、效率更高?
(3)应多角度地研究探讨搜索引擎评价。要让普通用户、专家学者、搜索引擎开发者、网站开发者等参与搜索引擎的评价研究,综合考虑用户角度和系统角度,如把普通用户检索评价和TREC类的检索评价结合起来,这样会使搜索引擎评价结果更有说服力。当然,也可从搜索引擎的广告效果、用户满意度、经济效益、社会影响等多个角度对搜索引擎进行评价研究。
(4)应加强可信性评价,提高自动评价的实效性。要加强搜索引擎有关技术研发,大力推进其智能化、移动化、社会化、个性化、可视化、语音化,特别是要提升语义理解力,提高情境搜索水平。这应该把人工智慧和搜索科技相融合,呈现出符合用户个人需求的搜索结果[35]。搜索引擎评价也要与时俱进,满足用户的信息需求[36-38],加强可信性评价,提升相关的评价水平,尤其注意提高自动评价的实效性[39],最终达到提升用户满意度的目的。
[1] 吴胜利, 谭延之, 施化吉. 搜索引擎指标综合特性的评价[J]. 江苏大学学报(自然科学版), 2015, 02: 181-186+214.
[2] 费巍. 搜索引擎评价研究方法综述[J]. 现代情报, 2010, 12:163-167.
[3] 邱均平, 胡文君, 罗力. 基于知识图谱的国际网络搜索引擎研究现状与前沿分析[J]. 图书情报工作, 2010, 24:89-94.
[4] 涂佳琪. 国内三大中文搜索引擎检索性能评价的实证研究[J]. 中山大学研究生学刊(社会科学版), 2014, 02: 64-73.
[5] 马志杰. 国外搜索引擎评价研究综述[J]. 图书馆学研究,2013, 02: 2-6.
[6] 马志杰. 我国搜索引擎评价研究的现状、问题及对策[J].图书馆学研究, 2013, 04: 11-17.
[7] 朱庆华, 杜佳. 搜索引擎评价指标体系的建立与应用[J].情报学报, 2007, 26(5): 684-690
[8] 董文鸳, 吴娟仙. 图像搜索引擎综合评价指标体系的构建[J]. 嘉兴学院学报, 2008, (04): 121-125.
[9] 凤元杰, 刘正春, 王坚毅.搜索引擎主要性能评价指标体系研究[J].情报学报, 2004, 23(1): 63-68.
[10] 费巍, 张进. 相似检索与链接检索的性能评价研究[J]. 情报杂志, 2011, (02): 156-159.
[11] 常用六大网络搜索引擎实用简评. http: //www. topenergy.[2016-06-20]
[12] Leighton V and Srivastava J. First 20 precision among World Wide Web search services(search engines)[J]. Journal of the American Society for Information Science. 1999, 50(10):870-881.
[13] 清华大学IT可用性实验室. 2005中文搜索引擎质量对比[N].计算机世界, 2005-11-14(E07)
[14] 搜索引擎的未来趋势. http://blog.sina.com.cn/s/blog_6592-c40501019l37. html?tj=2. [ 2016-05-02]
[15] 华薇娜. 搜索引擎的最新进展述要[J]. 图书与情报, 2009,06: 83-87.
[16] Ajayi O O, Elegbeleye D M. Performance Evaluation of Selected Search Engines[J]. Computer Engineering & Intelligent Systems, 2014, 5(1): 01-13.
[17] Deka S K, Lahkar N. Performance evaluation and comparison of the five most used search engines in retrieving web resources[J]. Online Information Review, 2013, 34(5): 757-771.
[18] Ribeiro C, Lopes C T. Comparative evaluation of web search engines in health information retrieval[J]. Online Information Review, 2011, 35(6): 869-892.
[19] Su, L. T. A comprehensive and systematic model of user evaluation of Web search engines: I. Theory and background.Journal of the American Society for Information Science and Technology, 2003, 54: 1175–1192.
[20] Su, L. T. A comprehensive and systematic model of user evaluation of Web search engines: II. An evaluation by undergraduates. Journal of the American Society for Information Science and Technology, 2003, 54: 1193–1223.
[21] Dai N, Davison B D. Topic-sensitive search engine evaluation[J]. Online Information Review, 2011, 35(6): 893-908.
[22] 刘璇, 于双元. 非结构化P2P 网络基于马尔科夫链的搜索算法研究[J]. 软件, 2015, 36(3): 116-121
[23] 王一华. 基于超效率DEA的网站绩效评价[J]. 情报科学,2012, 30(09): 1371-1375+1384.
[24] 武涛. 基于云计算的并行动态路径搜索算法研究[J]. 软件,2015, 36(4): 128-132
[25] 王一华. 图情博客评价实证研究[J]. 现代情报, 2015,35(11): 13-17.
[26] 王一华. 社交媒体信息可信度评估研究综述[J]. 现代情报,2016, 36(12): 164-169.
[27] 胡一然, 宋中山, 孙翀, 等. NVSA: 一种具有可变节点值的查询图搜索算法[J]. 软件, 2018, 39(3): 16-21
[28] 靳佳丽, 王一华. 我国高校图书馆微信服务评价[J]. 图书馆学研究, 2015(10): 56-61+78.
[29] 王一华. 基于IF(JCR)、IF(Scopus)、H指数、SJR值、SNIP值的期刊评价研究[J]. 图书情报工作, 2011, 55(16):144-148.
[30] 王一华. 中国大陆图书情报专业期刊的综合评价——基于熵权法、主成分分析法和简单线性加权法的比较研究[J].情报科学, 2011, 29(06): 943-947.
[31] 王一华. 学术期刊的组合评价研究[J]. 情报科学, 2011,29(05): 763-765.
[32] 王一华. 期刊评价指标SJR、JIF和H指数的关系研究[J]. 图书情报工作, 2010, 54(06): 145-147.
[33] 王一华. 图书馆学术论文评价指标体系初探[J]. 现代情报,2008, 28(12): 138-139.
[34] Jarvelin K and Kekalainen J. Cumulated gain-based evaluation of IR techniques[J]. ACM Transactions on Information Systems. 2002, 20(4), 422–446.
[35] 秦海波. 让更多人用上第三代搜索[N]. 经济日报,2013-02-27(012).
[36] 李诗苗, 王一华. 我国数据库评价研究现状与发展趋势[J].图书馆学研究, 2013, 16: 2-9.
[37] 王一华. 国内外网站评价研究综述[J]. 情报科学, 2013, 11:125-132.
[38] 王一华. 数据库绩效评估实证研究[J]. 情报科学, 2016, 06:82-86.
[39] Azimzadeh M, Badie R, Esnaashari M M. A review on web search engines' automatic evaluation methods and how to select the evaluation method[C]// Second International Conference on Web Research. IEEE, 2016.