张彦文
[摘要]网络技术的发展,涌现了大量的Web信息资源。Web信息资源还不能成为严格意义的数字图书馆。Web信息搜索引擎是用户查询和访问Web信息资源的主要方式。现有的搜索引擎在使用过程中还有诸多亟待解决的问题:搜索结果往往会远远超过一个人的阅读能力;搜索结果的排序是不透明的;Web信息资源的可靠性得不到完全保障等。网络百科是一种非常重要的Web信息资源,也是用户获得Web信息资源的另一种重要方式。
[关键词]数字图书馆 Web 搜索引擎
[中图分类号]G250.76[文献标识码]A[文章编号]2095-3437(2014)13-0082-03
一、引言
数字图书馆就是以数字形式贮存和处理信息的图书馆,是将计算机技术、通讯技术、微电子技术等融合为一的信息服务系统。[1]它针对有价值的图像、文本、语音、影视、软件和科学数据等多媒体信息进行收集、组织和规范加工,不再是传统图书馆以纸介质或其他非数字介质为存储载体。它利用现代先进的数字化技术,将图书馆馆藏文献数字化,通过国际互联网上网服务,供用户随时随地地查询,使处在不同地理位置的用户能够方便地利用大量的、分散在不同贮存处的信息。只要在有网络覆盖的地方,就可以随时随地地查询资料、获取信息。通俗地说,数字图书馆是因特网上的图书馆,是没有围墙的图书馆。大量的数字化资源是数字图书馆的“物质”基础。数字图书馆是数字信息时代传统图书馆的拓展和延伸,在媒体丰富的当今社会生活中扮演着极其重要的角色。
毫无疑问,万维网(WWW)上的大量Web信息资源正影响着我们的工作、生活、学习,甚至思维。人们可以通过搜索引擎或直接访问熟知的网站来获取Web信息资源。Google、Bing、Yahoo、百度、搜狐等都是我们熟知的Web信息搜索引擎。然而,在使用搜索引擎查找Web信息时,往往会得到远远超过一个人阅读能力的大量匹配记录,而用户实际阅读的仅仅是前面几页非常有限的匹配记录;其次,搜索结果的排序是不透明的,可能是按付费的多少来排序,可能是根据点击率的多少来排序,也可能是根据误导用户的某些因素来排序等等;再次,Web信息资源的可靠性得不到完全保障。
Web信息资源的混杂性和不可靠性决定了Web信息资源还不能视为严格意义下的数字图书馆。如何检索出可靠的Web信息资源?Web信息资源如何成为严格意义下的数字图书馆?这些都是我们在Web信息资源建设和利用中需要关注的问题。[2]本文从数字图书馆角度,对Web信息搜索引擎等相关问题进行讨论。
二、Web搜索引擎
用户从大量的Web信息资源中获得自身期望的信息,有赖于使用Web信息搜索引擎。Google、Bing、Yahoo、百度、搜狐等都是用户经常使用的搜索引擎。这些搜索引擎在查询Web信息资源时会遇到各种各样的问题。使用搜索引擎遇到的最明显问题是,搜索到的信息量太多不便于用户使用。此外,许多搜索结果相互之间非常相似,亦即,冗余度太高。最糟糕的情况则是,不同结果之间有可能是矛盾的。
对于冗余度,未来的搜索引擎最好能够自动聚集相似的结果,甚至将结果集聚成一个连贯的文档,这样用户只需要面对有限量的群集,甚至具有内容述评标签的文档。研究人员发现,通过相当简单的相似性识别算法或者内容重复检测算法,可以将某些Web信息资源中的冗余度减少75%。[3]具体来说,50个论题的20篇文章在没有丢失任何信息的情况下,可以减少为平均每个论题6.3篇文章。仅有的代价是不能保证所有的文献资料阅读起来都像原稿那样连贯和通顺。明显减少冗余度(不是75%而是99%)并保持文献连贯(亦即,从搜索到的大量信息片断中创建出连贯文献),现在听起来还是有点像科幻小说。然而,这是搜索引擎当前面临的最大挑战,问题的解决取决于文本语料库语义分析方面能否获得重大突破。目前,已能够实现聚集相似文档(采用矢量字方法等)和自动给出一个群集的摘编。可视化技术可以给出文档群集间关系的生动描述。遗憾的是,大量的搜索引擎还没有采用这一技术。值得注意的是,Google知识图(Google Knowledge Graph)已在此方面进行了尝试:在查找一个文档时,显示了与其相关的文档。Google利用了历史查询的丰富信息,但缺失了一个重要方面:知识图中的边没有与之相关的元数据。因此,并不能直接看出,一个节点是否支持、矛盾或回答一个问题,等等。
对于大量的检索信息,目前搜索引擎主要通过排序或个性化来减少提供给用户的信息数量。排序是一个重要问题。排序算法通常是不公开的,由此会带来许多问题。比如,如果条目A排在条目B的前面,它可能确实因为具有更高的点击率,或者,条目A较之于其后的条目同搜索引擎商有较好关系,也可能是条目A支付了有优先处理权的费用?曾有传言:使用Google分析(Google Analytics)就会被Google管理员设置为优先索引,以作为使用Google产品的奖励,是否属实?人们可能感兴趣的是,排序的负面影响到底有多大。我们通过一个例子来阐述。如果想在某一城市预订一家旅馆,人们一般最容易想到的是找预订代理商。这些代理商一般都会提供旅馆的各种各样的信息,如交通情况、服务设施等,但是通常不会提供旅馆的有效电话号码或电子邮箱。大家都明白,代理商并不想让顾客直接和旅馆联系。不过,这也没多大关系。但是有可能出现如下情形:旅客在旅行中变更计划,迷路的顾客想要问路, 需要取消预订或重新预订,等等。这时候就可能需要和旅馆直接联系。经验丰富的旅客就知道如何克服这个困难:他们通过预订代理商来查找合适的旅馆,接着通过搜索引擎来搜索这家旅馆。这往往也会把他们导航至某一家或同一家预定代理商。关键的问题就出现了:在搜索结果中翻阅前10页才发现该旅馆的网站,这上面就有所有相关信息。幸运的话,旅客还可以得到更便宜的房间,当然也可以协商其他一些事宜,如房间不要靠近电梯,以免受电梯上下的打扰影响休息。有趣的是,一些预订代理商开始拒绝接受具有自身网站的旅馆的预订代理业务!大规模文档查询或允许用户缩放兴趣领域是减少信息匹配数量相关的研究问题。搜索引擎Blekko通过一系列斜杠标记前缀来缩小搜索范围。[4]例如Iceland volcano/flickr会给出用户:网络相册(flickr)中冰岛火山(Iceland volcano)的圖片。
关于Web信息资源的可靠性或准确性,引用如下一段话[3]:“我们都承认,获得的信息是不可靠的(除了有人能确信信息的来源),而给出不可靠的例子则更为引人注目。通过Google于2010年8月25日搜索‘boiling point of radium得到2个条目。一个条目给出摄氏1737度,另一个则给出摄氏1140度。我们怎么知道哪个是正确的呢?生活并不一定取决于某一特殊的答案。然而,设想我们采摘了一种野蘑菇,我们若是想知道它是否可食用,就可以在搜索引擎的第1页得到5个条目,其中3个条目都告诉我们,它是非常美味的可食用蘑菇,1个条目告诉我们它有剧毒且致命,还有1条则简单告诉我们它有毒!对于似乎可靠的信息来源,怎么会出现如此大的差异和矛盾呢?主要有两方面原因:其一,定义的不同。如果你搜索“largest cave in Canada”(加拿大最大的洞穴),你认为是长度最长、体积最大、高度最高还是其他什么标准?如果你想知道月球上山的高度,你意指相对于邻近它的最低点的高度,还是假想球面月球平均高度(类似于地球上的海平面高度)之上的高度;其二,不同时间点提供的信息会有所差异,不幸的是,Web上的信息资源总是在不断地及时更新!这就是前面关于蘑菇的可食用性得到不同结论的原因所在。几千年前,人们吃了它之后没有副作用;在2002年,突然发生了似乎和食用了该蘑菇的一道菜有关的两起死亡事件。依据此两个人的死亡是否就能断定蘑菇有毒本身也存在疑问,毕竟,这两人也食用了花生、鱼、牛奶等,且两人也有过敏症(可能致命),然而我们既不能认为花生,也不能认为鱼和牛奶有毒!无论如何,这两个案例的出现产生了该蘑菇有剧毒的新条目。我们可从中得到这样的启示:其一,如果有各种各样的定义,信息条目应该阐述清楚,但这不应该是搜索引擎的任务,而应该是信息条目作者的责任;其二,所有信息条目必须明确标注日期;其三,信息发布日期应当是搜索引擎中排序算法需要考虑的因素。值得一提的是,如果想要搜索一个会议、一种算法、一个工具等,更让人感兴趣的是最近的一些内容,而不是10年前或者更早以前的内容!
与搜索引擎相关的另一个问题是:传统的Web搜索引擎大都还采用由“or”“and”“not”将词汇连接的查询提问式。然而,自然语言查询应该是更加贴近语言规律的方法,对此已有相关研究工作报道。[5]电子词典中采用自然语言查询已有5年多的时间,遗憾的是,这样的形式让用户查询起来相当费力。一种办法是分析查询的第一个词:“who”显然是查询一个人,“where”是查询一个地址,“why”是查询一个解释,等等。例如,查询“Who was York”。这就直接排除了所有城市名York以及其他领域(音乐、公司等)相关的York。还有60个名字为York的知名人士(列出的结果相对来说就可以承受),引用最多的且排在首位的是Lewis和Clark登山队的探险家York。在Google中输入“Who was the inventor of the toothbrush?”,经过执行语言分析后得到“Who invented the toothbrush”。进一步实施Google搜索,给出的结果是“No exact date known...”,但是接着继续给出许多相关信息,如William Addis于1770年实现了大规模生产……显然,语义分析不是仅仅使用重要的词汇。在Google中输入“toothbrush inventor”,也会得到不同的结果。通过Google搜索“Who was the physicist born in Vienna and died in Italy?”,得到的结果并不理想。分析搜索结果不难发现:搜索基于文本,因此Google找到了所有维也纳籍物理学家。由于奥地利理论物理学家Schr dinger(还在世)曾经在意大利工作过,他的名字较早弹出,但忽视了动词“die”。使用搜索引擎Bing,准确地得到了结果Boltzmann,并提供了进一步的相关信息,其搜索依然是基于词汇。
总而言之,主流搜索引擎大都还没有使用深度语言分析工具,往往难以较好地缩减大量的查询集合,没有认真对待减少冗余度問题,也没有充分考虑日期(时间戳),因此,为了满足用户需求还需要开展很多工作。由于搜索引擎的重要性,可以预期会有进一步的发展。从用户角度考虑,采用Bing或其他完全不同风格的搜索引擎,尝试新的搜索方式是很重要的。因此,主流搜索引擎,甚至Google,仍需要不断地通过技术更新,实现自我完善。实现有价值但有疑问的Web信息资源的价值更大化,并最终转化为数字图书馆,需要的是能够搜索语义数据,又能确保一定可靠性的搜索引擎。
三、结束语
Web信息是我们当今学习、工作和生活中非常重要的资源,其信息量在不断涌现,管理也在逐渐规范。毫无疑问,我们正在越来越多地使用Web信息资源。信息资源的可靠性是用户越来越担心的重要问题。然而,Web信息资源生成及其访问的各种现有方法分析的结果表明[3]:任何方法都有某种程度上的缺陷。我们从数字图书馆的角度开展Web信息资源的讨论,目的在于:一方面,Web信息资源的创建和利用,能够借鉴数字图书馆组织和管理的一些理念、体系结构甚至技术;另一方面,图书馆员们能够及时接纳Web信息资源,适时地拓展服务。
Web信息搜索引擎是用户查询和访问Web信息资源的主要方式。现有的搜索引擎在使用过程中还有诸多亟待解决的问题:搜索结果往往会远远超过一个人的阅读能力;搜索结果的排序是不透明的;Web信息资源的可靠性得不到完全保障等等。网络百科是一种非常重要的Web信息资源,也是用户获得Web信息资源的另一种重要方式。网络百科中信息资源的可靠性也是一个重要问题。维基百科是最为成功和用户最多的网络百科之一,在改善信息资源可靠性方面已经开展了大量的工作,但是,要实现任何主题的可靠信息资源,直至转换为数字图书馆的终极目标仍需要重大的技术突破和持续不断的努力。
[参考文献]
[1]Wiederhold G.Digital Libraries: Value and Productivity[J].Communication of the ACM,1995(4):85-96.
[2]Hermann Maure, Heimo Mueller. Can the Web turn into a digital library?[J].International Journal of Digital Library,2013(13):65-75.
[3]Wurzinger G.Data consolidation in large bodies of information[J].Journal of UniversalComputer Science,2010(21):3314-3323.
[4]Blekko[EB/OL].http://blekko.com,2013-06-06.
[5]Brockhaus Der elektronische Brockhaus[Z].Mannheim,Germany,2006.
[6]李铃.浅议高校图书馆个性化服务[J].大学教育,2013(6):33
[责任编辑:覃侣冰]