陈 健,孙济庆,吉久明
随着我国高校国际化课程的发展,对外国教学参考书引进工作力度加大,引进外国教学参考书数量显著增长。如何评价引进的外国教学参考书,对教学参考资料的质量应用客观科学的评价方法,是引进教学参考书急需解决的问题。国内图书馆界对国外文献资源评价的研究较少,现有文献多为对外国教学参考书评价存在的问题、评价标准等定性研究,缺乏定量研究的过程与方法。
为了能定量地、客观地对外国文献资源质量进行评价研究,不能仅从单个指标或单角度进行评价,而应从反映文献质量的多因素与多角度客观评价,即在评价研究中需要引入更多的与外国文献资源质量有关系的指标,对其进行综合评价分析。本文提出的基于文献外部特征的评价方法,综合利用主成分分析法和投影寻踪法对外国教学参考书质量进行评价研究,以期能达到客观综合评价国外文献资源的目标。
主成分分析法作为基础的定量分析方法,实际应用广泛,比如人口统计学、农业科学、医学等学科中均有应用[1-3];应用于期刊评价的研究比较多,比如张弘[4]等人利用主成分分析法对科技期刊评价。投影寻踪模型在环境质量评价与环境监测、交通安全评价、农业基础科学、地震预报、水资源调查与水利规划、经济评价等方面得到了成功应用[5-10];应用于期刊评价的研究也开始出现,比如刘金福[11]等人利用投影寻踪模型对我国农业类大学学报的学术水平进行综合分析,周晓蔚和李春阳[12]用投影寻踪和遗传算法对期刊质量进行评价。这两种方法相结合应用于外国教学参考书的评价还没有出现过,具有较强的新颖性。主成分分析法与投影寻踪法都是对高维评价指标的降维方法[13]。两者有优缺点。
在分析处理多指标问题时,由于指标之间往往存在着一定的相关性,使得指标数据所反映的信息存在重叠现象。主成分分析法可以用少数几个互不相关的综合指标来尽可能地反映原来指标数据所含有的绝大部分信息,避免信息重叠,减轻工作量。然而在求主成分综合得分时,主成分分析法通常取各主成分的方差贡献率作为权重;由于在实际问题中,通常第一主成分的特征值远远大于其他主成分的特征值,所以第一主分的方差贡献也常常很大,而其他主成分的方差贡献却很小,这样主成分综合值对m 个主成分起到的综合作用较小,因此取各主成分的方差贡献率作为主成分权重的设定方法具有一定的主观性[14]。
投影寻踪法[15]将多维指标的教学参考书样本数据按照某种投影方向投影到一维空间,根据投影值散布特征的要求构造投影指标函数,寻找出投影指标函数达到最优时的投影值和最佳投影方向。投影寻踪法是用来分析和处理高维观测数据的一种统计方法,尤其是对于非线性、非正态高维数据有很好效果的。它要求选择的指标之间相关性不能太大,否则会造成最终投影评价效果产生不好的影响。
基于上述对主成分分析法和投影寻踪法优缺点的分析,可以看出主成分分析法与投影寻踪法具有优势互补的特点,主成分分析法可以弥补投影寻踪法在评价指标选择上的指标相关性不能太强的缺陷,投影寻踪法可以通过寻找最佳投影方向来解决主成分分析方法在主成分权重的选择上存在主观性的问题。
本文依据文献的外部特征选取了能较为客观地反映文献的质量的7 个评价指标:作者H指数(x1)、作者出版教学参考书种数(x2)、出版社选定学科五年影响因子(x3)、收藏该教学参考书的图书馆数(x4)、出版时间(x5)、出版版次(x6)、销售排名(x7),提出一种结合主成分分析法和投影寻踪法各自优点的外国教学参考书质量评价模型。该模型既考虑指标的相关性问题,又在指标权重的选择上能够通过挖掘已有的数据信息,消除主观因素的影响,可以使评价结果客观科学。具体的建模过程如图1 所示。
图1 外国教学参考书质量评价建模过程示意图
该模型的过程为:首先,运用主成分分析法通过原始数据标准化、计算相关矩阵、确定主成分个数得到主成分矩阵,把得到的主成分矩阵作为投影寻踪法处理的原始数据;然后运用投影寻踪法构造投影指标函数、优化投影指标函数,从而得到最佳投影方向,进而计算得到投影值;最后根据得到的最佳投影方向和投影值对外国教学参考书质量进行综合评价。
(1)原始数据标准化处理。为方便之后的投影寻踪分析,在主成分分析之前先将逆指标和适度指标数据进行同趋势化处理,确保所有指标数据都是正向指标。对逆指标一般采用倒数的方法;对于适度指标,当区间为[a,b]时采用公式x*i=1/|xi- (a+b)/2| 进行,其中xi为适度指标x 第i 个原始数据,x*i为适度指标正向化后数据。对样本进行标准化变换[16],从而各项指标值具有可比性。
(2)计算标准化后两两指标间的相关系数,得到相关系数矩阵R。利用spss 软件会自动求出。
(5)构造投影指标函数。将得到的主成分矩阵F 作为样本集。设投影向量为α=[α(1),α(2),…,α(m)],样本集F 一维投影值为Gi:
(6)投影指标函数可以表达成Q(a)=SGDG,SG为类间距离,等于投影值Gi的标准差,SG越大,散布越开;DG为局部密度,即:
R 为求局部密度的窗口半径,一般取为0.1[17];rij表示样本之间的距离,即|Gi- Gj|;u(t)为单位阶跃函数,当t<0 时其值为0,当t≥0 时其值为1;DG越大,分类越显著。
(7)优化投影指标函数。由于投影指标函数Q(a)只随投影方向α 的变化而变化,最佳投影方向α 能够最大限度揭示高维数据的特征结构,因此投影寻踪的关键是找到最佳投影方向α。此过程多采用遗传算法[18],利用Matlab 软件通过求解投影指标函数Q(a)最大化的问题来估计最佳投影方向,即:
(8)根据优化得到的最佳投影方向α 可以计算出投影值Gi。根据Gi值的大小对外国文献资源质量进行评价。
本文随机选取哈佛大学和麻省理工大学各10 本教学参考书。以序号1 到10 赋予哈佛大学的教学参考书,以序号11 到20 赋予麻省理工大学的教学参考书。原始数据通过以上7 个指标在Web of knowledge 数据库、亚马逊网上书店、Worldcat 联机书目数据库和CALIS 联合目录公共检索系统中搜集整理得到。具体数据信息如表1 所示。
表1 哈佛大学和麻省理工大学教学参考书基本信息表
由于销售排名(x7)为逆指标,采用倒数的方法进行正向化处理,其余为正指标,不需要同趋势处理。进行主成分分析,首先要进行KMO和Bartlett 的检验。KMO 统计量越接近1,表明指标间的相关性越强,越适合做主成分分析,一般要求该值大于0.5;Bartlett 球形检验认为显著性值小于0.05 主成分分析才是适宜的。将整理后的数据导入spss19.0 进行KMO 和Bartlett 的球形检验,得到的KMO 值为0.655,Bartlett 球形检验的显著性值为0.019,具备做主成分分析的条件。通过spss 软件计算可以得到相关系数矩阵,从大到小排列的成分特征值、方差(贡献率)、累计方差(累计贡献率)如表2所示。
表2 成分特征值及方差累计方差信息表
本文选取累计贡献率大于85%的前4 个成分作为主成分,即m=4,得到主成分因子载荷矩阵,即成分矩阵,如表3 所示。
表3 成分矩阵信息表
利用得到的主成分矩阵数据通过软件Matlab7.0 建立投影寻踪模型,此过程中设定样本数量n=20,指标数m=4,交叉概率pc= 0.8.,变异概率pm=0.2,R=0.1。经计算得到,当目标函数Q(a)取最大值时,最佳投影方向向量α=(0.8815,0.1754,0.0445,0.4361),主成分矩阵、各样本的投影值Gi 及排名如表4 所示。
表4 主成分矩阵、各样本的投影值Gi及排名信息表
根据投影值Gi,可以得到哈佛大学和麻省理工大学教学参考书得分的散点图,如图2 所示。排名前10 位中,哈佛大学的占6 位,哈佛大学和麻省理工大学的教学参考书平均得分分别为0.42555 和- 0.42556。哈佛大学的教学参考书评价得分高于麻省理工大学的得分。这一结果与两校综合排名相符合,也与人们的普遍印象相一致,从而验证基于主成分分析法和投影寻踪法的外国文献资源质量评价模型的可行性和科学合理性。
图2 教学参考书得分散点图
本文通过分析主成分分析法和投影寻踪法优缺点,提出了一种主成分分析法和投影寻踪法相结合的外国教学参考书评价模型,既考虑评价指标相关性问题,又摒弃了权重选择上存在主观性的问题。通过案例分析和比较,验证了该方法的有效性和科学合理性,弥补了现有外国教学参考书评价研究方法存在的不足,为外国文献资源质量评价提供一种新思路和新方法。
[1] 杨兴民,董安广.主成分分析法在暂住人口统计分析中的应用[J].科技信息(学术研究),2007(23) .
[2] 于晓秋,任国春,仪秀琴,等.主成分分析方法在农业技术经济效益评价上的应用[J].农业与技术,2007,27(3):120- 124.
[3] 余发军,赵元黎,刘伟,等.主成分分析结合感知器在医学光谱分类中的应用[J].光谱学与光谱分析,2008,28(10):2396- 2400.
[4] 张弘,赵惠祥,刘燕萍,等.基于主成分分析法的科技期刊评价方法[J].编辑学报,2008,20(1):87- 90.
[5] 王顺久,张欣莉,侯玉,等.投影寻踪聚类分析在环境质量综合评价中的应用[J]. 三峡环境与生态,2002,24(3):74- 76.
[6] 林雨,牛建峰,徐颖.道路交通安全宏观评价投影寻踪法[J].安全与环境学报,2011,11(2):221-223.
[7] 封志明,郑海霞,刘宝勤.基于遗传投影寻踪模型的农业水资源利用效率综合评价[J].农业工程学报,2005,21(3):66- 70.
[8] 王琼,朱令人.投影寻踪聚类在新疆地震预报中的应用[J].内陆地震,2005,19(1):8- 15.
[9] 王顺久,侯玉,张欣莉,等.流域水资源承载能力的综合评价方法[J].水利学报,2003(1):88- 92.
[10] 投影寻踪模型在国民经济综合评价中的应用[J]. 运筹与管理,2005,14(5):85- 88.
[11] 刘金福,杨林香,李振华,等.基于投影寻踪模型的科技期刊学术水平评价研究[J].图书情报工作,2009,53(20):144- 147.
[12] 周晓蔚,李春阳.基于投影寻踪和遗传算法的期刊质量评价模型[J].情报科学,2013(2) .
[13] 刘睿劼,张智慧.基于两阶段降维的中国经济发展协调性评价[J].中国人口·资源与环境,2011,21(9):117- 122.
[14] 徐永智,华惠川.对主成分分析三点不足的改进[J].科技管理研究,2009(6) .
[15] 段俊杰,蒋美红,资文华,等.基于遗传算法优化的投影寻踪烤烟质量综合评价[J]. 湖北农业科学,2012,51(10):2040- 2044.
[16] 俞立平,潘云涛,武夷山.学术期刊综合评价数据标准化方法研究[J]. 图书情报工作,2009 (12) .
[17] Yang SL,Wang S,Gong D N. Approach to Weighted Geometric Evaluation Based on Projection Pursuit [J].Engineering Sciences,2006,4 (1):85- 88.
[18] 李世玲. 基于投影寻踪和遗传算法的一种非线性系统建模方法[J].系统工程理论与实践,2005,25(4):22- 28.