董珏+杨眉+郭晶+宋海艳
摘要通过对科学研究和技术应用的产出关联性和引用关联性分析,可以反映科学研究与技术应用间的相互扩散、转移及贡献程度,从而为合理地指导科学研究与技术应用资源配置和绩效评价提供依据。选取教育部自然科学类高校排名前3的国内理工类高校近30年(1985-2014年)的论文和专利产出、专利引用关系等7个数据变量共21种组合关系,采用关联性分析对现有的分析方法和指标进行修正,有效反映科学一技术在时间维度上的关联性。结果表明,关联性分析在实证研究中具有较好的适应性,其分析结果具有统计意义,能够消除突变噪声,为管理决策提供合理依据。
关键词学科一技术关系 关联性分析 转化效率
1.引言
“科学一技术”关系的实践研究发展于上世纪90年代,弗朗西斯·纳林(Francis Narin)通过专利对论文引用在来源和时间方面的关联性,证明在高科技领域,科学与技术之间有着紧密的相互作用。利用论文和专利数据可以衡量国家、地区或机构的创新能力测度以及相互间知识转移、技术转移途径的研究,主要是基于宏观数据进行统计分析。基于专利的科学一技术关系的研究,主要包括定量指标方法、数理模型方法、科学一技术映射模型及社会网络分析方法。指标方面主要有科学联系度(Science Linkage)及其标准化后的产业标准化指数、当前影响指数(Current Impact Indicator)及衍生的科学强度、技术循环时间(Technology CycleTime)、技术扩散系数、相对强弱指数(RSI)等。数理模型方面,有基于熵值算法学校一产业一政府的三螺旋模型与算法(已由Mode-1进化到Mode一2),技术成长曲线及其修正,以及用于科研投入与产出绩效间的灰色关联分析;科学一技术映射模型方面,国内学者尝试建立科学学科分类与专利IPC分类的映射模型等;社会网络分析方法,如高继平提出的专利/论文的混合共被引网络分析、聚类分析和聚类自动标引,基于社会网络分析工具的研究等。定量指标方法难以避免突发因素造成的数据噪音,例如论文或专利的数量的突发性增长或引用;模型研究和社会网络分析其关注的指标较为局限,例如模型研究主要是宏观的规模性产出数据;社会网络分析则要求变量数据间有共现关系。文章涉及7个论文和专利的数据变量,得到21种关系组合,扩展了定量指标体系,同时发现了一些原本弱相关或无关的数据变量去除时滞影响后呈现出较强或极强的相关性。
“科学一技术”相互作用分析能体现出科学研究与技术应用间的协同发展、扩散转化和相互贡献程度,从而为支持科技领域布局、制定技术创新策略、合理配置科研资源等提供决策依据。文章以国内高等学校“科学一技术”发展现状为研究对象,通过高校的专利数据和论文数据关联性分析,挖掘影响科学和技术发展的关联性因素,探讨科学与技术相互转化、扩散、相互促进的时间效率。一项研究,或某一领域的研究,在研究发表后需要多长时间能被关注(被引)、被传播、以及促进技术应用的出现,通过時间度量来揭示该问题,能够为高校科技管理部门开展科技资源布局提供有效的决策支持的定量分析方法体系和策略。
2.研究方法
关联性分析方法在很多学科领域得到了应用,在挖掘“科学一技术”关联性分析方面,可以分析研究经费的投入产出,但其涉及的变量局限于产出数据,而忽略了引文关系,即科学与技术间的转化和扩散效率;可以分析科研项目与专利产出间的关联性,但其忽略了科研与技术之间的时间转化差异,其相关性系数均低于0.9。
对于科学与技术的关系,通常认为:先有科学研究再有专利产出,即研究总是走在应用的前面;成果公开之后会经过一段时间得到关注、扩散、被利用。那么一个机构、一个学科、一个技术领域甚至单个的研究内容发表之后,究竟要多长时间才能爆发出大量的技术应用成果?文章扩展了“科学一技术”常用的分析指标涉及的数据变量(见表1),考量了科学与技术发展的时间差异性,一方面挖掘了更多的可用指标;一方面将原本弱相关的关联性通过时间关系处理得到了较强或极强的关联性,并分析该时间差异对科技转化效率的影响。
从表1看出现有文献的研究方法主要有两种:一是考察单一变量的变化趋势或者分布情况;二是对技术相关变量(如专利被引次数与专利公开量、引用论文文献和专利公开量或论文发表量)间通过逻辑运算得到的数值进行分析,形成衡量科学一技术关联性、活跃度和影响力的常见指标体系,运算方法主要包括平均数值、标准化数值、引用关系时间间隔等。但其存在的共性问题是:变量关系单一,且依赖于指标的建立来对数据进行处理,无法消除由突发因素引起的数据噪音。
2.1关联性分析方法
在不同的变量间可能存在着线性相关或曲线相关关系,可以是正相关也可以是负相关,不同类的相关又可分为强相关、中等相关、弱相关或者无关等几种关联程度。而曲线相关大多可以转换线性相关进行研究,衡量变量间的线性关系常用的系数为皮尔森(Pearson)相关系数。假设:变量A(专利申请)与变量B(专利被引)之间存在潜在的关联性,当N=30(1985-2014年),A与B两个变量曲线走势见图1,但两条曲线并不完全重合,可以首先计算得到一个皮尔森相关系数:
对于同一年份的数据来说,专利被引相对于专利申请有所滞后。这一规律在图1中表现为变量B的峰值在时间上较变量A提前出现。因此,在计算相同年份的变量A和B的相关性之后,尝试寻找变量B的峰值相对变量A峰值前移的一般规律,计算不同年份的变量A和B之间的相关性;当Pn达到最大值时,n即为变量B相对于变量A的峰值前移时间差,也可以理解为变量B相对于变量A的时滞。新的线性相关系数计算公式如下:
当Pn达到最大值时,n即为A变量对B变量产生作用的时滞度量。
关联性分析主要解决两个问题:(1)对于相互之间没有直接关联性的变量,通过考察其时间序列变化情况,挖掘其在时滞效应和转化速度方面的关联性,以考察其预测性。(2)消除单个数据带来的噪音影响,使分析结果具有较好的稳定性和合理性。
2.2方法验证
通过曲线拟合,比较A和B,以及A和B两组曲线的皮尔森系数和R方值,若皮尔森系数R方值得到改善或有明显提高,且通过SPSS分析软件得到的置信区间均在95%及以上,则说明该方法对于该变量组合具有统计意义。
文章通过列举两个例子来进行验证说明:(1)选择机构G的30年间(1985-2014年)论文发表(A1)和专利申请量(B1),并假设论文研究能带动专利的申请,分析在当前的发展趋势下,预测专利申请要经过时间n才能达到当前科学研究水平带来的相应技术应用规模;(2)选择机构G的30年(1985-2014年)专利申请量(A2)和专利被引量(B2)进行关联性分析,与现有的“技术扩散速度”指标进行参照分析。两组变量30年时間序列数据的趋势分布与关联性见表2和图2。
经公式(2)计算得到表3。可见,G单位专利申请与论文发表间的关联性,在时间差值n1=2年时达到最强,预测2年后在当前的总体研究态势下,会引发技术引用的大量出现;专利申请与专利引用之间原本呈现的弱关联性,在时差n2=3年时获得较强的关联性,且推测得出G单位的技术扩散速度为3年。
经过该处理后,通过SPSS以A为自变量,B为因变量进行曲线拟合,R方值都得到了明显改善(见表4)。证明该关联性方法具有统计意义,能够表征两个变量间的关联程度。
同样,通过数据验证,关联性分析7个变量(论文发表、论文被引、专利申请、专利授权、专利被引、引用专利、引用论文)的21类组合关系都呈现出较好的应用可行性。
3.评价体系的构建
文章的数据包括专利和论文两部分。专利数据来源于TI数据库,以专利权人代码为检索条件,获得1985-2014年国内排名前3的理工科高校(高校S、高校Q、高校Z)的专利公开和引用情况;论文数据来源于InCites平台中3所高校1985-2014年的论文发表和被引情况。
3.1评价指标的确立
从论文和专利数据中提取出7类变量,通过前期的关联性分析后,得到21个组合形式并确定变量A对变量B具有促进或推动作用(表5)。
根据主/客体(论文与专利)与行为(引用与被引)之间的时间维度关联性(图3),15对变量组合可以大致划分为四个类别:
(1)表征产出规模驱动的时间效应,体现在不同主体具有同样的行为:论文发表一专利申请,即科学研究产出对技术应用产出的推动作用。
(2)表征扩散时间效应,体现为不同主体的产出与被引行为的时间维度关联性,又可以细分为两类:一类包含论文发表一论文被引、论文发表一专利被引、论文被引一专利被引,即科学研究的扩散对科学研究和技术引用产出的时间影响;一类包含专利申请一专利被引、专利申请一论文被引,即技术应用的扩散对新技术应用和科学研究扩散的时间影响。
(3)表征转化时间效应,体现为不同主体的产出与其引用行为的时间维度关联性,分为两类:一类包含专利申请一引用论文、专利申请一引用专利、引用专利一引用论文,即技术转化对科学研究和新技术应用产出的作用;一类包含论文发表一引用专利、论文发表一引用论文,即科学研究转化对新的研究内容、技术应用和技术应用转化的影响。
(4)表征贡献程度,体现为引用行为与被引行为的时间维度关联性,也可分为两类:一类是科学研究对新的科学研究转化和技术应用转化的贡献度,包括引用论文一论文被引、引用论文一专利被引;一类是技术应用对新的科学研究转化和技术应用转化的贡献度,包括引用专利一专利被引、引用专利一论文被引。
3.2机构数据对比
通过公式(3)的计算处理后,我们得到以下结果(表6)。比对国内3所水平较高的理工类院校的论文和专利的产出及引用关系数据,其论文数量与专利信息的产出规模、扩散效应、转化效应和相互贡献程度都具有极高的关联性。对比变量A对变量B的推动或促进作用在时间维度的间隔大小,可以挖掘各高校间的“科学一技术”间扩散、转化速度的快慢,以及相互贡献程度的时滞效应。
从关联性来看,高校Q除了专利申请与专利被引、专利授权与论文发表、论文发表与专利被引、论文发表与专利引用专利文献、论文发表与专利引用论文文献和专利被引与专利引用专利文献6种组合呈现出中等相关外,其他变量间都呈现出较强相关;高校S和高校Z在专利被引与专利引用专利文献、专利被引与专利引用论文文献2组变量无关联性。
从时间关系上来看,专利授权与其他变量的关系,和专利申请与其他变量的关系差值在0-2之间,整体抵消了我国专利申请到授权的18个月审核周期的时间,因此两者可按需选择,文章以专利申请为主要变量开展分析。另论文被引和专利被引(2,2,1)在时间关系上同步于论文发表和专利申请(2,2,1),即一项/篇专利和论文被引用的同时,意味着另一项/篇专利和论文公开发表。因此两组变量具有相互验证的效果(表6中灰色部分为文章未选取的变量组合)。
(1)从产出规模来看:高校Z对科学一技术的产出发展较快,其变量间的时间间隔均小于高校S和高校Q。
(2)从扩散效应来看:高校S与高校Q技术扩散对科学的影响时效长于高校Z(论文被引一专利被引、论文发表一专利被引、专利申请一专利被引),而科学研究扩散对新的科学研究的促进(专利申请一论文被引)高校S要迟于高校Q和高校Z,科学研究扩散对新的技术应用的促进(论文发表一论文被引)三所高校时效相同。
(3)从转化效应来看:在技术转化方面(专利申请一引用专利),三所高校的效率相似;但高校Q的科学研究转化效率(论文发表一引用论文、论文发表一引用专利)略低于其他两所高校。
(4)从贡献程度来看:高校Z的科学贡献度较差(引用论文一论文被引),高校Q的科学贡献度和技术贡献度(引用论文一专利被引、引用专利一专利被引)较好,高校S的技术贡献度和科学贡献度(引用论文一专利被引、引用专利一专利被引)都略低于高校Q。
总体来看,高校Z近年来的产出发展较快,其科学研究向技术应用方面的转化速度较快,但是技术与科学的关联度较低,科学贡献度较低,但技术影响力较高。高校Q近年来科技产出变缓,科学研究向技术应用扩散速度较快,高校Q的科学研究转化效率较高,科学与技术的关联度居中,技术循环时间变长,但其技术贡献度和影响力仍较高。高校S在产出发展速度上略缓于其他两所高校,其技术扩散效率不高,科学贡献度和技术贡献度的水平居中。
3.5与传统指标的对比检验
传统指标受到时间变化以及突现的大数值个例影响,会导致指标结果具有数据样本的依赖性。通过分别比较扩散效应与“技术扩散速度”指标,转化效应关联性分析与“学科关联度”和“技术循环时间”指标(见表1)的数据值,对关联性方法的可行性进行检验。
(1)扩散效应关联性与“技术扩散速度”指标。
在已有的科学一技术分析中,计量扩散效应的是(专利申请)与(专利被引)的平均时间间隔,即“技术扩散速度”这个指标来度量的,用这个办法得出来的一个高校的技术扩散速度,选取的时间范围距离现在越远则值越大,选取的时间范围距今越近值越小。例如:图4中,选取30年的数据时,校S、高校Q和高校Z的均值分別为9.1、8.2和9.9年,中值为8.7、6.2和8.3年;选取近十年的数据时,三者的技术扩散速度分别为2.3、1.8和2.4年,中值为2.2、1.6和2.2年。
关联性的分析则是对两个变量的总体趋势进行对比,根据表6的结果,在30年的数据范围内,科学研究的扩散对科学研究和技术引用产出的时间影响(论文发表和论文被引:4、3、3,专利申请和专利被引:4,3,3),以及技术应用的扩散对新技术应用、科学研究和科学研究扩散的时间影响(论文发表和专利被引:5,5,4)的时间效应更加的均衡和稳定。
(2)转化效应关联性与“科学关联度”和“技术循环时间”指标。
传统指标中评价科研转化和技术转化的指标有科学关联度和技术循环时间两个指标。通过计算学科关联度得到图5,得到的2014年累积值分别为1.10、0.70、0.59,高校S的科学关联度较高,高校Q科学关联度居中,高校Z的科学关联度较低。该结果与三者的科学研究转化对新的研究内容、技术应用和技术应用转化关联分析结果(1,1,1)近似。
近五年(2010-2014年)技术循环时间方面的高校S的技术循环时间(4、5、3、3、3年)与高校Z(5、4、4、3、2年)近似,较高校Q(8、7、4、3、4年)略快,且年代越近,其技术循环时间越小。通过关联性分析,技术转化对科学研究和新技术应用产出的作用(2,3,2),高校Q略缓于高校S和高校Z,与传统指标的结果相近,但受数据集合时间范围的影响更小。
4结论
在现有的科研产出绩效评价体系中,对于产出规模的考量远多于对于“科学一技术”。即重视“论文发表一专利申请”的数量发展,但是对于一个机构、一个学科的“科学一技术”发展状态的衡量,还要综合考虑科学研究与技术应用的扩散效应、转化效应和贡献度,从多种角度考察发展现状,选择有效的评价因子,制订合理的评价机制。文章提出的关联性方法,将现有指标化评价转化为从时间维度的关联性评估,有效地解决了突变因子的负作用,有利于更加客观、均衡地表征“科学一技术”间的发展状态。
关联性分析在大样本量的数据集合中,例如学校层面具有很好的表征作用,最大程度地挖掘了变量间的影响关系,且可以消除历史数据或突变数据带来的负面作用,更加合理地体现变量间相互作用的时间关系。但在高校内部学科层面的集合中,变量间的关联程度不够稳定,该问题主要来源于小规模数据集合的时间序列的不完整性,以及专利引用动机的复杂性。因此,可以通过两种手段进行进一步的修正,例如:对于时间序列的缺失,可以采用累积统计的办法消除时间序列空白,保证统计意义上的完整性和有效性;对于专利引用动机复杂性,可以通过专利信息中的引用来源标注(申请引用和审查员检索引用)和关联性代码(对于引用文献是对技术背景的描述,还是技术新颖性判断等)进行进一步的数据清理和深层次关系的挖掘。