赵 欣,郭建伟
(1. 北京科学学研究中心 北京 100089;2. 北京市科学技术情报研究所 北京 100048)
情报分析工作主要包括信息的抽取、筛选,知识分析、综合,知识浓缩、集成,以及相应的情报(信息)系统(决策支持系统、群体决策系统、电子数据处理系统等)开发、研制与使用[1]。情报分析的最终目的是通过分析研究已知信息,获得对事物深层次的认识与把握,探索未知、预测未来,为科学决策、科学研究、市场开拓等提供参考方案,为知识创新服务。通过情报分析,揭示研究对象的内在变化规律及其与周围有关事物的联系,弄清其历史和现状,并预测其未来发展的可能趋势;通过情报分析,可根据决策者和有关人员的情报需求,动态及时提供情报。
按照内容的加工深度分,情报分析的对象可分为零次文献、一次文献、二次文献和三次文献[2]。零次文献是指最原始的未公开传播的文献,如私人笔记、设计草图、试验记录、文章草图、会议纪要及各种内部文档。一次文献是以作者本人的生产和科研工作成果为依据而创作的原始文献,如期刊论文、科技报告、专利说明书、会议论文、学位论文等。一次文献通常反映了作者的创见,是对知识的第一次加工。二次文献是对一次文献进行替代、改组和综合的产物,如编辑成目录、文摘、索引等检索工具或数据库。二次文献具有存储、报道和检索的功能,是对知识的第二 次加工。三次文献是对原始文献群的内容进行系统分析、综合、评述而编写的文献资料,是高度浓缩加工的再生科研文献,如专题评述、动态综述、学科年度总结、进展报告以及数据手册等。
目前,情报分析工作一般是通过二次文献,或直接阅读、筛选一次文献,对情报信息的再度浓缩、提炼和加工。其研究报告是直接面对用户、面向问题的智慧结晶或决策参考方案。国外把承担这类工作的机构称之为“智囊团”或“脑库”,如美国的兰德公司、英国伦敦国际战略研究所、日本野村综合研究所等。在我国则是由情报研究机构、咨询公司等承担,如中国核情报研究所、全国各省市情报所等。他们为各级、各行业领导机关、决策机构、科技管理部门的宏观决策及时提供情报支持;为科学研究单位承担的科研项目提供情报调研服务及关键技术跟踪,研究科技发展态势;为社会有关行业和部门提供科技信息咨询服务,为重大项目论证、重大技术攻关以及科研成果产业化提供信息支撑服务。
情报分析是情报研究当中的一个重要环节,传统的分析方法大多是采取人工方式,侧重于对文献的调研,如判断分析法、对比法、相关分析法、综合法、类别法、时间序列分析法、模糊综合评价法、回归分析法、文献计量法和德尔菲法等[3]。这些方法在一些经典的情报学著作中有详细的介绍,在此不再赘述。网络时代的到来,可以获取的信息资源越来越多,怎样从海量信息当中获取有价值的情报,去伪存真,总结提高,并且对分析结果进行明晰表达,都是急迫需要解决的问题。面对数量庞大和形式复杂的信息资源,已经有越来越多的研究和实践表明,将计算机技术应用到情报分析当中,可以极大地提高情报分析的质量和效率[4]。
通过对美国、英国、日本、加拿大、韩国等信息分析业比较发达的国家的研究发现,充分运用现代化的信息分析手段是其提高情报分析水平的关键[5]。早在1980年美国进行的一次信息分析专业人员的调查就表明他们的工作已经计算机化。这些国家的信息分析机构除了采用熟知的通用统计分析软件包,如社会科学统计软件包(Statistical Package for the Social Sciences,SPSS)、统计分析系统(Statistics Analysis System,SAS)和Oracle、SQL server等数据库软件,德温特分析家(Derwent Analytice,DA)等专利分析软件包,还自行开发了大量情报分析专用软件。
我国在普及计算机技术在情报研究中的应用、掌握利用互联网从事信息采集和分析的技术、熟悉并开发各种情报分析软件、改进情报成果表达和交流方式等方面做了大量的工作,使情报研究环境得到改善。以中国科技信息研究所、上海市科技情报研究所为代表的一些国内情报服务机构,已经在情报分析专用数据库建设、智能情报分析软件的开发和利用等方面,取得了显著的成果。中国科技信息研究所为了加强对中国科技论文的统计和分析,在1987年建立了大型多功能文献数据库——“中国科技论文与引文数据库(CSTPCD)”,既有科技论文与引文的统计分析功能,又有很强的文献检索功能。数据来源于1200多种科技类核心期刊,以及国家科技部年度发布的科技论文与引文的统计结果。除了关键词检索之外,还能通过地区、城市、学科、科研单位、高等院校、各类基金资助论文发表情况、科研人员本人发表的论文情况等方面进行检索和统计,从而反映我国学科、专业的发展趋势、国家的科技水平、主要大学和科研院所的科学生产能力以及新兴领域的潜力。在CSTPCD数据库的支持下,中国科技信息研究所每年完成《中国科技论文统计与分析》年度报告、《中国科技期刊引证报告》、《中国高校科技论文产出排行榜》,对中国作者在国内外发表的论文和被引情况进行多角度的深入分析,从科技论文角度反映我国科研整体状况和在世界上所处的位置及其变化。
上海市科技情报研究所利用Oracle数据分析软件实现对专利信息的数据挖掘;北京市科技情报研究所建立的以自然语言处理技术为基础的智能情报处理系统,实现了科技情报的自动分类、去重、摘编等功能。一些软件公司也推出了专业的情报分析软件,如万方数据专利文献多维检索与分析软件、TRS竞争情报系统等[6]。
情报机构的信息化、情报分析工作的现代化仍是我国科技情报事业的工作重点。目前,我国在情报研究工作方式、手段及研究方法上都有待提高。国内的情报研究工作方式还有相当一部分停留在文献调研的基础上,单纯的定性研究仍占有较大的比例,情报分析工作也要加强信息资源的整合,通过引入和利用计算机辅助情报分析(Computer Aided Information Analysis,CAIA)软件,通过数据挖掘技术、语义理解技术、相关统计分析技术以及数据抽取技术等提高定量分析能力,并集成多种情报分析手段和工具,建立更为完善的情报分析平台,并通过网络组成虚拟的情报分析团队,发挥潜在的社会智力资源。
数据挖掘,又称数据库中的知识发现[7],是指从巨大的、不完整的、有声造的、含糊的、随机的数据中,抓取隐藏在其中的、人们事先不知道的但又潜在有用的信息和知识的过程。最为著名的是美国沃尔玛连锁超市利用数据挖掘方法对顾客的购物行为进行分析,意外发现:跟尿布一起购买最多的商品竟是啤酒。原来美国的太太们常叮嘱她们的丈夫下班后为小孩买尿布,而丈夫们在买尿布后又随手带回了他们喜欢的啤酒。
数据挖掘的主流技术方法有:关联分析、决策树、遗传算法、贝叶斯网络、粗糙集方法、神经网络、统计分析[8]。近几年来,自然语言理解、语义关联分析、词频分布统计、语料学研究等可以用于进行情报分析的技术方法和工具已经成为数据挖掘算法的重要研究方向,并且已经出现一些成型的软件工具。计算机技术的飞速发展使情报的自动化收集、自动化处理成为科技情报工作必然的发展趋势,更需要利用数据挖掘技术从海量信息中快速、准确地获取有用信息,并发现这些信息内在的联系,根据现有信息预测将来的发展趋势,以帮助情报分析人员实现对情报资料的深加工。
层次分析法一般针对目标结构复杂的决策任务,通过将目标分层,建立多个分层的矩阵进行计算得到最后结果,在解决实际问题时,往往计算量大,手工计算费时且容易出现错误,这很大程度制约了此方法的应用。随着计算机技术的出现,计算量大的任务在计算机上实现能够极大地节省时间。下面就Matlab软件实现层次分析方法进行介绍。
Matlab能够对层次分析法的判断、分析和计算过程进行处理。当用户输入层次结构方案和两两对比的判断矩阵后可以快速得出相应的结果,提高了层次分析方法在实际应用中的效率。层次分析方法中最大的计算量是计算判断矩阵是否满足一致性约束,并且求解最大特征值和它对应的特征向量。它在Matlab中求解程序如下:
使用者既可以利用上述程序在Matlab中编程实现,也可利用一些成熟的层次分析法软件,如yaahp 0.4.1进行计算。
模糊综合评判法的基本思想主要是先利用与评价对象有关的单因素来评价结果,构成相应的评价矩阵,然后利用各确定因素重要性程度的权重因子作模糊变换,最终得到对评价对象的评价结果。
模糊评判法的实现步骤如下:
①设定各级评价因素和评判集。对于一个问题进行评判,关键问题之一是确定与此问题有密切关系的评价因素。找出影响问题领域的典型因素,需要全面但是不能太过精细以免影响效率。
②计算因素值。一般现实生活中评价因素多是定性指标,而进行模糊评判时需要转化为定量指标,SPSS统计分析软件为处理此类问题提供了强大的 功能。
③设定各级评价因素的权重(W)。各评价因素权重系数的准确定义对于评判结果的合理性有决定性作用,为合理确定权重系数,需要综合考虑问题领域多个经验丰富的专家意见和此前相关的处理经验。权重系数的量化处理方式可参照层次分析法的权重选择系数确定方法。
④进行模糊综合评判计算,得出最后结果。建立评判因素、评判集、因素值矩阵和权重系数之后,即可以借助计算机进行模糊综合评判计算。
情报研究的目的不仅在于更好地解释过去与总结现在,更重要的是要有效地预测将来,加强对未知领域的预测是提高情报研究生命力的重要途径,也是充分体现科技情报前瞻性的价值所在。通过科学的情报预测可以找到未来一个时期内预测对象的发展动向和必然的趋势,并给予评价和做出预想的结论,包括水平发展动向、发展规模、发展过程中的主要因素和可能的影响因素以及各环节之间的关系变化等。通过对以往发展过程的调研和总结,结合目前的现状和发展趋势,经过分析、判断、推理而提出未来发展中的问题。
情报预测具有战略意义,这种研究的结果为决策者确定科技发展的方向、规模、结构和速度提供依据。如科技发展方向预测,科技发展水平预测,某个行业、某个专业在国民经济发展中地位和发展比例的预测,科技发展速度与科技队伍之间的比例关系和培养的途径,对国内外重大科学技术发明、发现的预 测等。
目前,情报预测已成为科研活动和科学决策中不可缺少的部分,并且人们对预测的科学性、合理性要求也日益提高。传统的情报分析活动以手工方式和直观预测进行的定性分析占据了相当大的比例[9]。随着现代信息技术的迅速发展和广泛应用,信息的搜集、处理和传递方式都发生了革命性变化。特别是在分析处理过程中,由于在现代信息社会中信息量剧增,需要处理的信息和可利用的情报数量巨大,更加需要采用一定的信息技术或人工智能的手段,才能达到科学预测的目的。
随着社会环境和战略决策需求的不断变化,作为科技情报研究前提和保证的情报研究方法也必将进一步得到充实和完善。一些情报研究方法的软件化、集成化及在计算机上的实现都是未来发展的趋势。