基于粗糙集属性约简的统合结构模型在期刊量化指标分析中的应用

2021-03-13 13:08:04温学兵王秋萍

沈阳师范大学学报(自然科学版) 2021年6期

温学兵, 刘洋, 王秋萍

(1. 沈阳师范大学学报编辑部, 沈阳 110034;2. 铁岭市私立求实中学数学组, 辽宁铁岭 112000; 3. 沈阳师范大学国际教育学院, 沈阳 110034)

0 引言

期刊量化评价指标有数十种,其中有些指标对期刊的评价方面有重叠性,各个指标间的相关性强弱差别也很大。本文目的是削减对期刊某一方面性质的刻画有重叠性和相关性很弱的指标,即去除冗余指标,而这恰巧是粗糙集属性约简理论最擅长的应用。

粗糙集(rough sets,RS)是由Pawlak[1]于1982年提出的一种知识发现与数据挖掘的方法,主要对信息系统含有的不够准确的数据或数据缺损情况进行研究。经过近10年的研究发展,粗糙集理论开始在数据挖掘、人工智能、模式识别等各个领域得到广泛应用。

本文先利用粗糙集理论将期刊评价指标约简,去除冗余指标,再根据指标理论意义进行分类,最后利用结构方程模型原理进行指标间的相关性和因果关系认定[1]。

1 指标选取

《中文核心期刊要目总览》是由近万名专家遴选出的学术影响力较高的期刊,本文选取2014版《中文核心期刊要目总览》[2]和2017版《中国科技期刊引证报告(扩刊版)》[3]中共有的工程技术类347种期刊,采用2017版《中国科技期刊引证报告(扩刊版)》的具体数据。

2 基于粗糙集属性约简的统合结构模型的具体过程

2.1 基于粗糙集属性约简方法的期刊评价指标的筛选

1) 数据离散化

经典粗糙集[4]只能处理离散数据,故分析前需将量化指标数据进行离散,这里采用等距离散化方法。

2) 粗糙集属性约简

属性约简是在保持数据分类能力不变的前提下, 对数据进行约简, 删除冗余指标, 得到知识的最小表达。决策表的属性约简是通过定义属性的重要度函数或差别函数的一类启发式算法, 通过该算法得到决策表的相对约简, 比如, 基于属性重要度的属性约简算法、基于差别矩阵的属性约简算法、基于差别函数的属性约简算法、基于互信息的属性约简算法等。本文选用基于差别函数的属性约简算法。

2.2 结构方程统合模型分析

统合结构模型是包含测量模型和结构模型在内的结构方程模型,可以说是结构方程模型各个基本模型的整合运用,也可以说是路径分析和验证性因素分析的综合分析,同时也称为结构回归模型[5-6]。

当路径分析与验证性因素分析的概念融合在结构方程模型分析过程时,验证性因素分析的潜变量分析技术恰好充实了被路径分析缩减的非具体概念的测量以及相应误差项的解决问题,同时也加强了路径模型的测量理论。擅长因果分析的路径分析方法将因素分析的格局扩大了。

利用知网和万方两家数据各自的优势,把二者的量化评价指标结合在一起使用,基于结构方程模型方法,利用AMOS 20.0软件,首次获得了满足结构方程模型方法所要求的所有拟合指标满意度的统合结构模型。特别对粗糙集约简后的指标进行统合模型分析,并得到了相关关系。

3 实例研究

3.1 粗糙集约简的数据选择

考虑到2017版《中国科技期刊引证报告(扩刊版)》的量化评价指标比较多,且把新出现的一些量化评价指标纳入了其报告中,故参照2014版《中文核心期刊要目总览》所列期刊,并选择2017版《中国科技期刊引证报告(扩刊版)》中共同含有的工程技术类期刊的相应数据作为下一步约简选用的数据。

3.2 基于粗糙集属性约简方法的期刊评价指标的筛选

首先对这些数据进行离散化,然后进行粗糙集属性约简[7]。粗糙集约简结果见表1,这些指标就是下一步结构方程模型方法所要用到的指标。

表1 粗糙集约简结果Table 1 Rough set parsimony results

把约简结果的指标作为一级指标下设的二级指标,并将它们归为3类一级指标,即影响力、传播力、期刊特征。影响力下属的4个二级指标与期刊总的量化指标有关,传播力下属的4个二级指标反映了期刊在各个方面的影响程度和广度,期刊特征下属的4个二级指标都是与时间相关的期刊量化指标[8]。指标分类见表2。

注意粗糙集约简只是选择了结构方程模型要用的指标,指标对应的数据仍为原始数据。

3.3 数据预处理

此处数据规范化处理与验证性因素分析的数据规范处理方法相同[9]。

3.4 模型假设与识别

初始模型假设和最终初始模型[10-11]见文献[12]。

3.5 模型拟合与修正

AMOS软件不仅可以对测量模型进行分析检验,也可以对结构模型进行分析验证。本文应用AMOS 20.0软件进行拟合检验[13],根据检验结果发现,尽管所有指标都满足显著性p<0.05,但是各项配适度指标并不满足优秀拟合结果。见表3。

由于配适度指标并未达到优秀,对照MI修正指标对模型修正处理。修正后的配适度指标见表4,基本上都满足优秀配适度,说明修正合理[14]。

表4 修正后配适度检验表Table 4 Revised accessories degree inspection table

根据标准化结果可以计算出潜在变量的组合信度[15],用来表示测量变量与潜在变量之间的结束程度。一般组合信度的检验值为0.5,若其大于0.5,则认为组合信度良好。计算结果见表5。

表5 修正模型拟合检验Table 5 Modified model fitting test

3.6 结果分析

从模型的配适度检验表以及估计值报表可以看出,EXT(传播力)与扩展引用刊数、地区分布数、机构分布数之间存在结构关系,因子载荷量分别为0.539,0.714,0.991,组合信度为0.805,表示其解释能力较强,可信度高;DIS(期刊指标)与其下设的3个二级指标平均作者数、平均引文数、基金论文比之间也具有结构关系,因子载荷量分别为0.545,0.970,0.584,组合信度为0.756;INF(影响力)与其下设的3个二级指标扩展总被引频次、扩展学科影响指标、扩展影响因子之间也存在结构关系,因子载荷量分别为0.733,0.463,0.870,组合信度为0.742。

4 结语

本文将粗糙集理论与结构方程模型理论结合使用[16]。采用2017版《中国科技期刊引证报告(扩展版)》工程技术类期刊量化指标数据,首先运用粗糙集方法对其进行约简,去除冗余指标,然后利用结构方程模型方法对约简后的指标数据进行分析,最终得到了其中12个指标间的结构模型。