杜 晖
(武汉大学信息管理学院,武汉 430072)
国务院2010年6月颁布的《国家中长期人才发展规划纲要(2010-2010年)》(以下简称纲要)中明确提出,为了加强人才工作基础性建设,推进人才工作信息化建设,建立人才信息网络和数据库,为此政府需要积极支持社会各方力量建设完善面向市场的各类专业人才数据库和人才管理系统。同时纲要还提出,在体制机制创新中必须创新人才工作机制,特别是人才评价发现机制,要求完善人才评价标准,注重靠实践和贡献评价人才,把评价人才和发现人才结合起来,坚持在实践和群众中识别人才、发现人才[1]。
本文将构建一个可操作性强的实际人才评价的应用平台,该平台可以依托各期刊数据库,自动化处理和分析文献信息,构建各领域的专题文献库,基于该库通过识别、筛选出各个研究领域的杰出专家及相互联系,解释其合作模式与规律,并对其进行科学评价。专家库的建立主要是通过采用包括h指数评价法、引文分析在内的多种文献计量方法和“中心性分析”等社会网络分析方法,利用专题文献库从各领域的核心作者中筛选出各领域专家而实现。各领域专家库的建成不仅有助于领域研究者加深对同行的了解,而且有助于科研管理部门和社会大众把握各领域研究人员分布情况和遴选相关专家。目前,我们开发的专家评价网络信息服务平台已经在武汉大学研究中心各项目组都投入了实际使用,大大提高了科研中的数据获取、处理、分析与评价的效率,并能导出各种统计图表、专家地图和专门格式的数据文件,以供更为深入分析之用,本网络平台也为一些高校的高端人才引进与评价提供了咨询服务。
通过对专题文献库进行科研合作网络和引文网络的分析,可以发现某学科领域的核心专家群体,发现国家或机构研究人员的合作模式及规律,综合运用文献计量学、社会网络分析等指标对科学家个人,甚至扩展应用到对科研机构、学术期刊、科研项目进行学术水平的评价,从而为科研管理部门的人才引进、项目论证、科研团队组建、科技资源配置等决策提供定量依据。
评价理论框架本身具有跨学科特征,所涉及的学科领域主要有决策学、管理学、政策学、行为学、经济学、计量学、工程学、社会学、心理学和逻辑学等,设计和实施科学的评价活动需要跨学科的方法,需要不同专业领域理论的整合和综合应用[2]。我们在评价过程中采取了多学科方法的融合,综合运用了以下各种方法:综合评价方法(如层次分析法、模糊综合评判法)、统计学方法、文献计量学方法(如引文分析)、社会网络分析方法(如中心性分析等)、心理测量方法等。
在评价过程中充分利用先进的信息技术是提高评价活动效率和准确性的必然要求,受到科学评价界的广泛关注。本网络平台要解决海量数据的获取途径和处理、分析方法的创新以及过程的自动化问题,实现各类数据库的数据自动采集、整理和目标关系矩阵的生成与运算,从而实现数据处理完全自动化,大大提高研究效率和结果的准确性,为科学研究的深入开展创造条件。
搭建基于web的评价信息服务平台能够充分利用互联网的开放性和社会性,充分整合各种类型的信息资源,更好地实现个性化信息服务(如本平台后面的专家地图功能,就是利用了谷歌公司的地图开放应用编程接口,实现了专家评价信息和地理信息的有效整合,提供了直观的评价结果可视化方案);开放化的网络服务平台,能满足广大科研工作者、科研管理部门各种信息需求,全面实现评价信息资源的社会价值和经济价值。
科学评价(广义)是指用科学的方法对一切对象进行评价,意指“科学地评价”、“评价科学化”,覆盖的范围非常广泛,囊括了各行各业、各学科领域、各层次、各种类型的评价。评价就是根据评价的综合标准和指标体系确定被评价对象有无价值及价值的大小,价值是评价的基础[2]。本文研究的专家评价属于科研领域人才的评价,建立在心理测量学、文献计量学、社会学等基础上,对人才的人格、态度、能力、道德等内在(隐性)特质、工作成果与绩效等外部(显性)素质以及在同一社会群体的地位和影响力共三个方面进行测量,并按照评价标准进行评价的一种活动。科研人才的评价可以全面了解一个人各方面的内在素质、能力、业绩和社会影响力,对于科研管理部门的招聘、录用与选拨都有一定的参考价值。表1是我们提出的一个针对科研领域专家的一个通用人才评价体系,能根据不同的应用领域和目的对这三个方面的内部进行适当的微调。
本文将搭建一个基于文献信息的分析挖掘和专家评价系统,研究的目的是构建一个操作性强的应用平台,筛选出各个学科领域的杰出专家并进行评价和展示。哲学关于物质决定精神的观点,是心理测量的理论基础,一个人的心理特质可通过外在的行为样本进行间接测量和评价,很多都是通过与常模(群体中的相对水平,如人格特质测评)对比或者自比(个人在各种职业兴趣类型上得分的对比,如职业兴趣测评)的方式判定一个人的某种心理特质水平,无法进行直接比较[6],因此没有纳入综合排名的计算,而是另外单独提供心理测评服务,而学术道德诚信方面的评价更是难以标准化处理。因此,评价指标侧重于科研绩效(文献计量学定量指标)的评价和学术水平与地位(社会网络分析定量指标)的评价,突出可操作性,评价的指标权重确定采用了层次分析法。由于很难获得科研人员在具体某一学科的专利、自然基金项目、科技奖励等数据,因此专家评价主要采用期刊论文数据。本系统的国内数据源主要来自CNKI中国学术期刊出版总库,国外数据源主要来自美国ISI的Web of Science,而没有涉及博士、硕士学位论文、会议论文、专利、标准和其他科技成果数据库以及科技奖励和科研项目信息,这个需要以后再加以扩展。
本系统选择的开发平台是:LAMP(Linux/Apache/MYSQL/PHP)。此开发平台具有开源、免费、跨平台、低成本的优势。这是一组常用来搭建动态网站或者服务器的开源软件,四个部分具有很高的兼容度,共同组成了一个强大的Web应用程序开发平台[7]。从使用的广泛性看,互联网信息服务提供者大量采用了LAMP的开发平台,比如著名的Google、FaceBook、维基百科以及大量的开放社区系统等。
表1 专家评价指标体系
本系统采用三层架构(3-tier application),将整个业务应用划分为:表现层、业务逻辑层、数据访问层。区分层次的目的是为了降低层与层之间的依赖,更利于系统功能的扩充,并有利于各层逻辑的复用。部分功能采用了A jax技术,实现了异步数据传递,使得页面无需刷新实现局部更新,既减轻了服务器的负担,又提升了用户体验[8]。
图1 三层系统的分层次结构
整个系统主要包括从期刊数据源采集、整理、入库,到文献分析挖掘、专家筛选与管理、专家评价、专家关系挖掘与展示等各种分析结果导出,流程非常复杂,中间还涉及到大量系统与用户的交互环节,因此系统的流程设计必须充分考虑用户体验,部分交互环节采用了AJAX技术实现,做到按需加载数据,简洁高效,同时基于web信息构建原则,系统还具备了清晰的导航、标识和检索系统。系统流程模型如图2所示。
图2 系统模型
本项目数据库的设计综合考虑了数据库存储优化和查询效率优化两方面的需求,对数据库的关系表结构进行了相应的优化处理。比如优化查询语句、试验联接、并、子查询等寻找最佳查询语句,文本检索时为了性能考虑少用LIKE关键词通配符匹配,而考虑采用全文本搜索(FULLTEXT)。为经常检索的表字段建立合适的索引,表结构设计选择正确的数据类型等[9]。后台数据库的设计采用免费、开源数据库管理系统MYSQL,并采用可视化的管理工具Navicat for MySQL实现数据库的开发与管理。系统包括以下核心关系表:管理账户表、评价指标表、期刊表、论文表、主题词表、关键词表、共词表、专家表、作者对表等。
本系统主要包括信息采集、文献信息分析与挖掘、专家库三大模块。首先通过信息采集功能完成专题文献库的自动化建立,然后利用文献分析与挖掘模块从专题文献库分析、抽取出该领域的专家信息,并构建专家库。专家库采用了专家网络(将专家库中的专家按照其合作或潜在合作关系组成一个相互链接的专家网络,就是一个相互链接的专家页面集合)、专家地图(以Google地图作为媒介的方式可视化呈现专家信息、区域分布与相互联系)和专家排行榜(综合排行榜和各单项指标排行榜)三种形式展示丰富的专家信息。为了便于阐述系统设计与实现原理,本文采用测试数据集演示系统功能界面。
1.信息采集
信息采集功能主要完成以各文献数据库(目前,本系统的数据源主要来自CNKI中国学术文献网络出版总库、ISIWeb Of Know ledge,以后将逐步扩展)为数据源的自动采集、入库,并完成数据的标准化处理,自动建立各领域的专题文献库,以符合深入分析与评价的需要。首先选定特定的研究领域,构造检索式完成信息检索,通过期刊系统的数据接口将检索结果导出为txt格式的文本文件,然后按照分析需求解析并截取题录信息各字段内容存入数据库(专题文献库)。有些数据则通过web采集,识别指定数据库网址URL特征和页面文本特征,分别编制相应正则表达式集合,通过字符串截取、正则匹配抓取指定数据(各种引文、下载信息等)完成采集入库。
2.文献信息分析与挖掘
主要包括基本文献分析和高级文献分析。基本分析功能实现对某领域文献库的基本分析,让科学研究人员能从整体上把握研究领域的基本状况。主要完成基于传统的文献计量学的一些基本统计,比如论文总数、合著论文数、作者总数、合著作者人数、合作度、合作率、词频统计与分析、作者发文数分布、期刊发文分布、机构发文分布、发文时序分布等,还包括一些基本的社会网络指标(包括网络节点数、边数、平均度、网络密度、节点度分布)的统计。这些基本统计运算逻辑通过本系统的统计业务类实现了封装。统计分析结果的可视化则采用第三方绘图组件包JPGraph实现。高级文献分析模块主要是发现科研工作者的相互联系,解释其合作模式与规律。主要包括基本功能:(1)作者关键词耦合分析(潜在关系网络挖掘);(2)作者合著关系分析(外在合作关系网络挖掘);(3)作者共被引分析,用于挖掘学科共同体及其共同约定,进而分析其学术观点归纳出该学科领域的学科范式;(4)共词分析(挖掘研究热点、学科前沿领域)。几个模块的实现有很多相似之处,都是通过调用基本统计分析后生成的数据(如词频统计生成的核心关键词表、关键词、作者的共现分析生成的共词表和作者对表)生成相应的矩阵,然后调用本系统的分析业务类所封装的矩阵算法进行分析处理,得出有意义的社会变量。本模块可以将生成的各种矩阵数据(专家合作矩阵、专家潜在合作矩阵等)导出为excel格式、UCINET专用的数据语言文件(DL file)格式,可以方便地导入SPSS或UCINET,从而进行更深入的数据分析与挖掘。
3.专家库
主要实现识别并筛选指定研究领域的专家,构建各领域的人才库,并进行评价和各种分析。各领域人才库的建成有助于各领域研究者加深对同行的了解,也有助于科研管理部门和社会大众把握各领域研究人员分布情况和遴选相关领域的专家,能为各科研机构和高校的人才选拨、招聘以及项目团队组建提供定量依据。专家库需要存储以下四类信息:第一类是专家基本信息(如姓名、单位、联系方式、科研简介等);第二类是该专家的专长研究领域信息(通过系统内置主题词表结合专题文献库的词频统计分析进行抽取);第三类是该专家的合作网络揭示及其可视化呈现(科研合作网络、潜在合作关系揭示);第四类是该专家各单项指标和综合指标的得分及其排名信息。包括专家识别与筛选、专家地图、专家检索和专家评价输出4个子模块。
之一,专家识别与筛选。通过分析专题文献库(作为专家数据源),提供各种组合筛选条件(发文数、期刊级别及影响因子、被引用频次、H指数、社会网络中心性指标等)由用户定制,然后根据用户定制条件从专题文献库提取专家基本信息(如姓名、单位、研究专长领域等),并计算该专家的相关特征数据,包括发文指标(发文数、第一作者发文数、个人独著发文数)、引文指标(被引用频次、高被引论文数、H指数)、社会网络指标(度中心度、中间中心度、结构洞约束系数)等,经过评价模型运算后将和评价数据一起存入该领域专家库。专家库会按照综合排名进行列表输出,点击每一个专家条目则进入该专家主页。后期通过后台管理界面实现专家个人信息的人工添加,主要包括个人各种联系方式、成果简介等补充信息。
之二,专家地图。专家地图是专家库系统的一个用于可视化展示的功能,其基于专家库的各种数据,通过Google Maps API实现地理信息和专家信息的有效整合,实现专家相关信息的可视化展示。专家地图是通过google地图加载专家基本信息(姓名、所在机构、研究领域等)和评价信息(发文数、引用次数、度中心度等指标的原始数据及其排名),通过google地图这个媒介直观呈现本学科领域专家的地域分布,使得专家的相关信息得以可视化展示。
基于专家数据库的基本信息和各项指标原始数据,进行各项排名生成处理,然后按照预置的模板将这些信息动态生成XML文档,然后利用XMLDOM解析相应专家各项数据,并利用循环语句在地图上添加GMarker地标即可。由于专家数目比较多,所以采用了GMarkerManager地标管理器通过导入地标数组实现批量地标数据的加载[10]。
之三,专家检索。主要包括两部分:第一部分是专家库的多途径关键字(包括按题名、作者、机构、关键词、摘要、全文等)检索,通过关键字匹配实现精确或模糊检索,输出该专家基本信息和相关文献列表;第二部分是作者合作关系网络检索与可视化呈现(作者间的合作关系和潜在关系的揭示),可以任意指定一对作者,系统可以输出他们之间的所有最短路径,包括联系他们的作者及其文献信息,这是基于图论的Dijkstra算法并作出改进后实现的[11]。专家个人主页实现了专家相关信息的深度聚合,今后将向科研社会化网络服务方向发展,包括:个人基本信息、研究主题及时间分布、在线沟通(嵌入及时通讯和电子邮件工具)、各单项指标数据及其排名、二度合作人脉网络(每一个专家姓名链接到其个人主页,形成一个相互链接的合作社会网络)、潜在合作关系挖掘与展示(通过对因时空障碍而无直接联系的专家之间进行关键词耦合分析[12],发现共同的研究兴趣及耦合度,以及相互之间共同的合作者)、相关文献列表(通过机构、关键词、期刊、标题等字段链接到对应专题文献库的详细信息)。
之四,专家评价输出。基于构建的各领域专家库实现专家的综合评价与单项指标评价,各种评价结果便于科研管理部门和相关领域研究者全面了解和把握本领域的专家绩效、学术水平和影响力。本模块包括指标库管理、评价模型运算等功能。指标库管理包括专家评价指标库的增、删、改、查等基本功能。其中评价指标库的权重生成采用了层次分析法(AHP)实现,层次分析法的算法封装在了系统的评价业务类中。评价模型运算通过调用评价指标库的指标及其权重数据,同时调用评价业务类的评价算法实现各一级指标排序和综合排序,并自动生成各种评价报表,包括了各个二级指标的单项排名和综合排名。
本文搭建了一个基于科学文献的信息分析与专家评价网络信息服务平台,目的是通过该平台满足科研工作者和科研管理部门关于领域专家的各种信息需求。平台依托各期刊数据库,实现了自动化的文献信息处理和智能化的分析挖掘,能对目标研究领域的学科知识结构进行一定程度的揭示,并运用社会网络分析方法对科研工作者的(潜在)合作关系的网络结构进行挖掘,以发现核心作者群体及其相互联系。同时,本文提出了一个实用的科研人才评价体系,综合运用文献计量学、社会网络分析的指标进行专家评价及排名,并通过Google Maps API实现了专家的地域分布及相关评价信息的可视化展示。本平台现已得到部分科研领域用户的使用及反馈,目前在支持的数据源(由于数据源的原因尚无法进行引文网络的分析挖掘)及其采集的自动化和准确性方面尚有待提高,对专家绩效指标仅仅支持其科研论文数据的采集和分析,今后将对专利、标准、报告等绩效指标的采集处理进行扩展。而关于专家个体内在特质的各种心理特质、道德水准的衡量,因为采用的测量及评价方法属于间接测量和心理映射,我们并没有纳入综合排名计算中,而是作为单独的模块提供,作为用户单位在择人、用人方面测试评价使用。
[1]中央人才工作协调小组办公室,中共中央组织部人才工作局.国家中长期人才发展规划纲要(2010-2020年)学习辅导百问[M].北京:党建读物出版社,2010:8.
[2]邱均平,文庭孝.评价学理论·方法·实践[M].北京:科学出版社,2010:5.
[3]赵基明,邱均平.一种新的科学计量指标——h指数及其应用述评[J].中国科学基金,2008(1):23-32.
[4]宋歌.社会网络分析在引文评价中的应用研究[J].图书情报工作,2010,54(14):16-19.
[5]朱天,吴斌,王柏.科研合作网络的重要作者发现[J].数字图书馆论坛,2010,75(8):29-35.
[6]刘远我.人才测评——方法与应用[M].北京:电子工业出版社,2008.
[7]JASONW,GILMOREW J.Beginning PHP and MySQL(Third Edition)[M].朱涛江,译.北京:人民邮电出版社,2009.
[8]叶新伟.PHP+Ajax Web2.0编程技术与项目开发大全[M].北京:电子工业出版社,2008.
[9]BEN FORTA.MySQL Crash Course[M].Beijing:Posts&Telecom,2009.
[10]江宽,龚小鹏.程序天下Google API开发详解:Google Maps与Google Earth双剑合璧[M].北京:电子工业出版社,2008:1.
[11]周益民,孙世新,田玲.一种实用的所有点对之间最短路径并行算法[J].计算机应用,2005,25(12):2911-2934.
[12]刘志辉,张志强.作者关键词耦合分析方法及实证研究[J].情报学报,2010,29(2):268-275.