翟云超,马王储,常璐
(华北理工大学外国语学院,河北唐山,063000)
搜索引擎指根据一定策略、运用特定的计算机程序从互联网搜集信息,完成信息组织、处理后为用户提供检索服务,并将检索信息展示给用户的系统,包括 全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索、引擎与免费链接列表等(刘彦平,2011)。百度和谷歌等是搜索引擎代表。
(1)抓取网页。每个独立的搜索引擎都有自己的网页抓取程序爬虫(spider)。爬虫Spider顺着网页中的超链接,从这个网站爬到另一个网站,通过超链接分析连续访问抓取更多网页。被抓取的网页被称之为网页快照由于互联网中超链接的应用很普遍,理论上,从一定范围的网页出发,就能搜集到绝大多数的网页。
(2)处理网页。搜索引擎抓到网页后,还要做大量的预处理工作,才能提供检索服务。其中,最重要的就是提取关键词,建立索引 库和索引。其他还包括判断网页类型、去除重复网页、分析超链接、分词(中 文)、计算网页的重要度/丰富度等。
(3)提供检索服务。用户输入关键词进行检索,搜索引擎从索引数据库中找到匹 配该关键词的网页。为了用户便于判断,除了网页标题和URL外,还会提 供一段来自网页的摘要以及其他信息。
布尔逻辑检索的使用面最广,使用频率最高。利用布尔逻辑运算符连接各检索词,然后由计算机进行相应逻辑运算,找出所需信息。需要注意的是,在使用布尔逻辑检索时仍然需要参考具体数据库使用帮助或说明。
表1 布尔逻辑运算符与检索式
位置算符检索也称全文查找逻辑算符或相邻度算符,是用来规定符号两边的 词出现在文献中的位置的逻辑运算算符。
(1)W算符(with):通常写作A(nW)B,表示词A与词B之间至多可以插入n个其他的词(注意是单词,不是字母),同时A、B保持前后顺序不变;其中(W)也可以写作(),表示两词之间不得有其他词,但有些系统允许有空格或标点符号。
(2)N算符(new): 通常写作A(nN)B,表示A与B之间至多可以插入n个其他词,同时A、 B不必保持前后顺序。其中W)表示算符两侧的检索词必 须前后相连,但词序可颠倒,词间不允许插入其他词或字母。
(3)Same:通常写作A SAME B,表示SAME两侧的检索词A和B必须同时出现在数据库的同一个段落中。
(4)s算符(subfield):通常写作A(S)B,表示A与B必须同时在一个句子或同一子字段内出现,但词序可随意变化,且各词间可以加任意多个词。例如输入solar(W)energy,会得到solar energy;输入solar(N)energy可能会得到solar energy或者energy solar。
截词检索是指在检索词的合适位置进行截断,然后使用截词符进行处理,既 可节省输入的字符数目,也可达到较高的查全率。需要注意的是,任何一种 截词检索,都隐含着布尔逻辑中的“或”运算(刘振西、李润松、叶茜,2006)。检索符:“?”代表零或一个字符,“*”代表无限截词符号。
(1)后截词 :输入“book?”,检索结果为“book”或“books”;输 入“educat*”,检 索 结 果 为“education” 、“educational”、“educator”。
(2)中截词 :输入“s?w”,检索结果为“saw” 、“sew”。
字段检索是指根据标题、作者、摘要、关键词、作者单位、文献来源、学位授予单位、学位级别、会议信息、会址、会期、书名、出版地、出版年、专利号报告号、ISBN 和 ISSN 等字段检索所需内容。
表2 常见字段检索
全文检索是一种将文件中所有文本与检索匹配的文字资料检索方法。全文检索系统是按照全文检索理论建立的用于提 供全文检索服务的软件系统,可将存储于数据库中整本书、整篇文章中的任 意内容信息查找出来,进行各种统计和分析。
精确检索是指尽可能限定检索范围,以最快速度找到自己所需的检索方式。在计算机辅助翻译中采取精确检索能够提升检索效率,避 免大量冗余信息。需要注意的是,采取该种检索方法的前提是译者对自己的检索内容非常确定。
例 1
使用双引号“”。检索符含义:对引号中的内容不进行任何添加删除处理进行检索。
在 Google 中检索短语 knock down joint 会发现,除了包含完整关键词 knock down joint的检索结果外,还显示了包含 knock down、joint 等关键词和关键字的结果。将整个关键词 knock down joint 加上双引号“”进行检索,结果则只剩下包含完整关键词knock down joint 的词条。
例 2
使用布尔逻辑检索符“-”。检索符意义:排除减号“-”后面的内容。“Bass”在中文中既指一种低音乐器(贝斯),同时也有“鲈鱼”之意。如要在搜索引擎中仅查找有关“贝斯”的检索词条,需在检索框中输入“bass[空格] -fish”,就可以把有关鲈鱼的检索词条全部屏蔽掉。
除了电子词典与工具书,在进行翻译实践时,搜索引擎已经成为翻译实践工作必不可少的工具。与此同时,在使用搜索引擎辅助翻译时也要辨别检索结果的真伪,避免出现偏差、低质量或违法的结果。
参考文献
[1]李跃珍.信息检索与利用[M].杭州:浙江大学出版社,2006.
[2]刘廷元,邵卫东,汤凝.信息检索原理教程[M].北京:北京交通大学出版社,2008.
[3]刘彦平.关于网络搜索引擎及其优化的讨论[J].电子商务,2011(04).
[4]刘振西,李润松,叶茜.实用信息检索技术概论[M].北京:清华大学出版社,2006.
[5]徐剑,柯贵明.网络爬虫技术在搜索引擎中的应用[A].全国第21 届计算机技术与应用学术会议(CACIS·2010)暨全国第 2 届安全关键技术与应用学术会议论文集[C]. 2010.
[6]赵慧,李春明,鲍可进.一种基于 DotLucene 搜索引擎的知识库中文全文检索系统[A].第二十二届中国数据库学术会议论文集[C].2005.