李淳
摘要:针对科技信息检索过程中存在的问题,本文从数据库的选择、检索字段的选取、检索范围的调整及检索策略的优化等几个方面提出了一些实用的技巧和方法。这些技巧和方法可以有效地解决检索不到、检索不全、检索不准等常见问题,提高检索效率和效果。
关键词:信息检索;检索技巧;精确检索;逻辑运算符;位置运算符;通配符
中图分类号:G642.0 文献标志码:A 文章编号:1674-9324(2017)30-0278-03
一、引言
基于网络平台的科技信息检索,是现代科技人员获取信息的主要手段,也是科学技术研究的重要前期工作。据统计,科研人员项目时间的51%都花费在查找和阅读科技资料上。能够快速有效地查找科技信息,已经成为科研人员一项重要而亟待解决的问题。然而,大数据时代,想要在短时间内从浩如烟海的资源中搜索出有价值的信息并非易事。原来从100篇里就能搜出10篇有用的信息,而现在可能要从1万篇里才能搜出。检索不到、检索不准、检索不全,就是目前科技信息检索中面临的严峻问题。如何找到有价值的资源库?如何选取关键词?如何从纷繁复杂的资料中挖掘出准确、有价值的信息?本文就信息检索过程中遇到的实际问题,提出了一些实用的技巧和方法。
二、科技信息检索的技巧
(一)数据库的选择
数据库的选择对信息检索工作的开展具有十分重要的意义和作用。每个数据库都有其倾向的专业范围,检索时如果根据所需信息的内容大致判断出可以从哪些数据库中获得,选择合适的数据库,就能减少查询时间,提高检索效率和准确度,提升检索质量,达到事半功倍的效果。
1.中文数据库。目前国内使用率最高的三大综合型中文数据库系统是中国知网(CNKI)、万方数据知识服务平台和维普期刊资源整合服务平台。三大检索平台都有自身特点、收录范围及学科类型。在信息资源上有交叉也有不同,各有特色,各有长短。(1)中国知网(CNKI)的特色。①工具书检索功能非常强大,涵盖范围广。②资源综合性强,收录全面。注重二次加工,提供增值服务,比如提供知识元搜索服务,将文献中的概念、数字、图片、图表等析出,详细标引,方便用户查询。③强大的整合能力。系统分类细致,清晰有序,兼顾了综合性和特色性[1]。(2)万方的特色。①万方的产品类型优势很明显,中外专利、中外标准、科技成果、新方志、法律法规、机构、科技名人等都是其重要的延伸产品,种类繁多。②自有特色数据库。万方自建的方志、科技视频、中国医学会期刊等数据库特色非常明显,这是另外两大数据库公司基本没有涉猎的,因此万方有着一定的竞争力。③服务企业的商务信息数据库。与另外两大数据库比起来,万方一个很明显的特色就是有众多的服务企业的数据产品,如商务信息数据库,这也是万方最早提供的产品服务之一[2]。(3)维普的特色。①专注期刊文献的收录和二次加工。在《中文科技期刊数据库》基础上,拓展文摘库、引文库、行业资源系统等。其收录的期刊更全,提供专业同义词检索,为用户提供高质量的题录和文摘数据库,并基于内容价值分析,发布了2006年以来历年的中国科学家影响排名、中国科研机构影响力排名、学科前沿问题导读等。②商业化程度高。其专题一般由几百个精选集构成,而每个精选集多为几十篇论文构成,每个精选集标价不等,并做成了类似淘宝的形式;其会议展览、教育培训这方面的信息资源也都有很强的商业目的性:维普是三者中唯一在首页做广告的数据库公司[3]。
2.外文数据库。常用的外文数据库:INSPEC、EI、Google Scholar。(1)INSPEC:科学文摘。INSPEC分三个专辑:物理文摘,电气与电子学文摘和计算机与控制文摘。该数据库是查找物理、电子工程、电子学、计算机、自动控制以及信息技术的重要检索工具。(2)EI:工程索引。EI收录的文献涵盖了所有工程领域,其中22%为会议文献,90%的文献语种是英文。(3)Google Scholar:谷歌学术搜索。Google Scholar 的资料主要来源于网络免费的学术链接、开放获取的学术论文期刊网站、付费的学术论文电子资源提供商以及图书馆链接等。
Google Scholar 的搜索服务主要针对科学家和研究人员。其搜索结果可以滤掉普通搜索中的大量垃圾信息,减少搜索噪声;同时在搜索结果中还可以排列出文章的不同版本以及被其他文章所引用的次数,也可以通过引用链接方便地找到与搜索结果关联的其他相关学术资料。
(二)检索字段的选取与确认
检索字段的选取应遵循“选全、选准”的原则,尽量避免遗漏主题词。应根据检索信息的中心内容和研究对象进行客观、细致的主题分析,找出最能表达主题内容、最具检索价值的词汇。尽量不遗漏文中涉及的新观点、新方法、新技术、新成果概念等关键性的主题词;其选取范围不能局限于文章标题,还要从文章的摘要、各级层次标题、正文、结论中进行遴选[4]。
(三)检索范围的调整
在检索结果不理想的情况下,可以考虑调整检索范围,对检索字段进行适当的扩展,使搜索到的信息準确性高、针对性强。检索字段的扩展应从其是否存在同义词、近义词、上下位类词、音、形相近词、专有名词、截词、外来词等方面进行分析,最后确定检索字段[5]。
(四)检索策略的优化
采用简单的检索字段容易造成检索结果不准确,无法满足检索需求。为保证检索结果的全面性和准确性,在检索过程中,科研人员应充分利用大型数据库检索系统所提供的“高级检索”、“专业检索”等方法,对关键的检索字段进行合理组配、扩展、组合,完善检索途径,优化检索策略,从而提高检索字段的检索效率。检索要达到最终较高的专指度,检索字段、检索范围及检索策略等方面都是一个不断修正、校准、优化的过程。
(五)特殊检索符的巧用
不同的算符组成不同的检索式,检索结果会截然不同。巧妙使用各种算符,编写恰当的检索式,可以合理地限制检索词,优化检索策略,提高检索精度。
1.双引号。双引号表示精确匹配。如果输入一个名称直接搜索,比如,天津总后军事交通运输研究所,可以搜出上百页,大概100多万条记录。如果加上双引号再搜,只剩下两条!为什么会出现这种状况?双引号表示全字符匹配,就是一个字不能差。但如果不加双引号,“天津”这个词搜出10万条,“总后”这个词搜出10万条,“军事”这个词又搜出10万条,这样累加起来,数量极其庞大!所以,给要检索的主题词加上双引号,检索结果可以实现精确匹配,而不包括其他演变形式,可以滤掉很多冗余信息。
2.减号。“-”的作用是去除标题中很多不相关的结果。找出不相关结果的特征关键词,将它减掉,查询结果中将不出现该关键词。例如,检索时输入“超市—家乐福超市”,表示最后的查询结果中一定不包含“家乐福超市”。
3.逻辑算符AND。用AND连接两个关键词进行搜索时,两个词必须同时出现在查询结果中,实现有效检索。例如,导弹的一体化设计,如果直接将导弹(missile)和一体化设计(integrated design)两个词同时输入:missile integrated design,则数据库中只显示2条记录;而使用missile AND integrated design 组合查询,则显示270条记录。可见,逻辑运算符的使用技巧决定着检索结果的满意程度。
4.位置算符。(1)NEAR。表示两个检索词必须紧密相连,两个检索词的词序可以颠倒,但除了空格和标点符号外,不得插入其他词或字母。例如,检索education NEAR technology,结果中同时包含education和technology,也可以technology NEAR education。(2)WITH。表示两个检索词必须按顺序出现,两个检索词的词序不可以颠倒。中间不允许插入其他词或字母,只能有空格和标点符号。例如,high(W)class,检出的匹配词可能有high class 或high-class。
5.布尔逻辑算符。运用布尔逻辑算符将具有简单概念的检索项组配成能完整、准确地表达检索内容的检索式,运用此检索式进行检索,可以剔除不需要的概念,使检索结果更加全面、准确。(1)OR。将若干个检索词组合起来,检索结果中至少包含一个检索词,与检索词的先后顺序和位置无关。例如,education OR technology 的检索结果中必然包含education或technology中的一个。(2)NOT。排除一个检索词,检索结果中不包含紧跟在NOT后面的检索词,可以排除无关的检索项。例如,education NOT technology 的检索结果中必然包含education而不包含technology。布尔运算符可以扩大或缩小检索范围,改变检索策略,直接影响检索结果。
6.截詞符。(1)“*”用于通配多个字符,只能用于英文和数字。例如,使用“aero*”可以检索到所有包含aero开头的单词(如:aerospace,aerobus等)的文献,但“*”不能置于表达式开头。(2)“?”用于通配单个字符,只能用于英文和数字。例如,使用“aero???”可以检索到所有包含aero开头,共7个字符单词(如:aerocab,aerobus等)的文献。
截词检索节省输入的字符数目,却可以有效预防漏检,提高查全率。
(六)其他重要检索事项
1.注意英文检索词的选择。在查找专业领域的资料时,为了保障查找资料的准确性和完整性,往往需要对照翻译前的英文原文。但实际检索过程中,会发现英文原文给出的关键词不准确或不全面,甚至是中文直译成英文的,这些都可能导致搜集到的资料出现错误或不全。例如,查找“小卫星”这个词时,如果用直译的small satelite检索,搜出的资料肯定不全。可以尝试多种表达方式,如mini satelite、smallsat、tiny satelite、micro satellite等。
2.搜素引擎的灵活应用。搜索引擎名目繁多,应根据不同的检索需要选择合适的搜索引擎,灵活运用各种检索方式。大多数搜索引擎都支持元词(meta words)检索功能。把元词放在关键词前面,搜索引擎要检索的内容就具有了明确特征。例如,在搜索引擎中输入“title:清华大学”,就可以查到网页标题中带有清华大学的网页。另外,百度等搜索引擎都具有高级搜索功能。可以很好地限制搜索范围、搜索时间、搜索格式以及过滤关键词等。优化标题时,还可以灵活使用短线“-”、下滑线“_”、空格“”、竖线“|”或者“——”等符合搜索引擎规则的间隔符[6]。
三、结语
检索技巧的运用,在科技信息检索中起着非常重要的作用。它直接影响检索策略,影响检索效率和检索效果。在数据量激增的今天,掌握有效的信息检索方法,提高检索技巧和搜索能力,对于科研人员获取科技前沿信息会有很大的帮助。
参考文献:
[1]马云彤.中国知网文献与引文检索评述[J].西安文理学院学报(自然科学版),2007,(4):112-114.
[2]林豪慧,陈如好.知网、维普、万方的同质化和差异化评析[J].图书馆学研究,2009,(9):25.
[3]王永敏,施玲琳.万方、清华同方、维普三个数据库检索平台的比较[J].晋图学刊,2012,(6):22-34.
[4]张柏秋,吴晓敛.科技查新检索中的关键词选择[J].情报科学,2008,26(9):13-44.
[5]崔林.问题与对策:关于我国科技查新工作的若干思考[J].科技管理研究,2010,(1):31-17.
[6]张帆,朱红涛.基于关键词的网络信息检索优化探索[J].情报科学,2005,23(6):37-39.