剧晓红+++赵一方+++裴雷+++孙建军
摘 要:文章以长三角地域科技报告文本为研究对象,基于LDA主题模型分析、差异性分析等研究方法对其进行科技专长识别监测及科技专长演化研究,在此基础上提出基于地区科技专长来平衡和再分配的科技资源动态配置的政策设想。
关键词:科技专长;动态监测;资源配置;科技报告
中图分类号:G322.0 文献标识码:A DOI:10.11968/tsyqb.1003-6938.2017092
Regional Academic Superiority Surveillance Based on Big S&T Textual Data and Policy Application
Abstract Science and Technology Report in Yangtze River Delta is taken as the research samples, and LDA model analysis and discrepancy analysis are used to examine the regional academic superiority and evolution of science and technology research. Based on the regional academic superiority, this paper put forward suggestions to balance and redistribute the technology resources of the dynamic configuration.
Key words regional academic superiority; dynamic surveillance; resource re-allocation; science and technology reports
1 引言
推进科技创新,建设科技强国,一方面需要强调国家需求的重点建设领域,以国家需求为导向,另一方面也不能忽视科技创新效率和科技资源配置效率问题。在以往研究中,杨传喜主张从科技成果利用与再利用角度增加科技资源的配置效果[1];魏守华、吴贵生[2]提出从科技产出角度评估科技资源配置效率;曾硕勋等[3]强调从科技要素投入角度评估科技资源配置效果。在科技资源配置活动中,围绕热点焦点的问题一拥而上,不考虑地方的实际科技攻关能力和科技专长的方式有蛮干之嫌;长期按照固有的配置领域和配置额度执行科技资源配置,则无法最大可能地激发地方科技创新活力、提升科技创新实效。而依据经济学中的比较优势理论,地方科技管理机构将资源投入到最具有比较优势又符合国家发展战略的研究专长领域,可能是一种比盲目聚焦热点更有效的配置方式。
随着科学数据的逐渐开放与共享,跨区域的科技活动数据、科技研究数据、科学家行为数据等所建构的科学大数据,使得地方政府能够更准确地理解区域科技专长,从而制定更加优化的资源配置策略。在科学数据建设环节,国务院印发的《促进大数据发展行动纲要》中确切提出:要发展科学大数据,积极推动由国家公共财政支持的公益性科研活动获取和产生的科学数据,逐步开放共享。习总书记在全国科技创新大会中也指出应尊重科技创新的区域集聚规律,李克强总理同时强调应大力推动科技创新协同以及区域创新协同[4]。因此,本文以长江三角洲地区三省一市的科技报告文献为研究对象,对其进行地区科技专长监测及科技专长演化研究,在此基础上提出基于地区科技专长来平衡和再分配的科技资源动态配置的政策设想。
2 研究背景
科技报告作为一种特殊的科技文献,是科学研究活动的重要科学技术产物,是科学工作者对其所从事的科学研究工作过程详细记录的一种特定文献[5],是国家科技创新战略性资源之一,加强对科技报告的利用与管理是提高科技创新能力的重要因素。目前国家科技报告服务系统收录的科技报告涉及国家高技术研究发展计划(863计划)、国家科技重大专项等国家科技重点研究计划所呈交的科技进展报告、专题技术报告、最终技术报告、组织管理报告以及部分地方科技报告等[6]。科技报告在一定程度上反映了国家科技前瞻技术以及重点技术进展情况,对其研究主题识别与主题演变规律进行分析,能够有效了解相关科学技术知识的发展态势以及分布规律等,不仅有助于科学研究人员以及相关科研管理者制定科研决策,对区域间科学技术知识转移、科技资源协同创新、合理分配等也有一定的实践意义。如张军亮[7]以科技报告生物与医药技术领域为研究对象,从作者合作等视角进行相关文献计量研究;王曰芬等[8]对“微波功率放大器”领域的科技报告文献进行主题演化分析,以佐证其将主题模型分析引入科技监测方法的适用性。
其次,对科技专长的研究一直以科技研究的特征表征为着眼点。尤其是在科技文献的计量研究中,通过对文献诸如关键词、题名、摘要、引文等相关信息特征进行研究分析,识别科技文献中蕴含的科学技术研究主题,并对其进行主题跟踪、演化等分析工作,以了解与把握科技活动的关注重点,有助于监测科学技术的研究方向,揭示科学技术的发展态势以及演化规律。目前,学术界对科技文献主题分析多以学术期刊论文、学术会议论文、专利文本、科技规划文本以及相关基金项目数据等为研究载体,且较多针对某特定学科领域进行单一维度或加入时间、作者等维度进行主题识别、主题跟踪、主题演化等监测研究[9]。尚未有学者从区域视角出发,对科技报告的研究主题进行识别发现分析。
再次,从研究方法看,科学文献的区域主题追踪与监测研究普遍采用基于描述性统计分析、基于关键词、爆发词的共现分析、社会网络分析、复杂网络分析、引文分析等科学计量方法。也有学者采用LDA主题模型分析方法,以及基于改進的相关主题分析模型诸如主题-时间模型、主题-作者模型、层次概率主题模型等进行学科主题识别、演化分析。但是,对于改进模型的验证较多采用某一特定专业领域期刊文献进行验证,优化后模型的普适性尚未得到广泛验证。LDA (Latent dirichlet allocation)是一种三层贝叶斯主题模型,通过无监督的学习方法挖掘文本中隐含的语义主题信息[10],已经被广泛应用于主题分析、科学监测、前沿分析、文本挖掘、情感分析等领域,模型适用与稳定性相对较好。而在以往研究中,对科技报告的区域特征、区域专长的识别并不完善。endprint
3 研究设计
地区科技专长是以地域作为参照的,科技能力或科技产出的优势领域。在以往研究中,对专长领域的界定多采用学科作为参考标准,一是领域界定口径较宽,无法深入细节;二是对跨学科、交叉学科领域的识别效果不突出。因此,本文提出从科技产出的基础语料抽取主题对象来反映地区专长领域的分布、变化与演进。主要研究工作包括:第一,地区科技专长的特征表达与提取,主要是通过LDA计算设置最优主题数目以及相关模型参数,识别地区科技研究主题以及分布;第二,地区科技专长的差异性监测,对采样区域的科技研究专长的差异性进行监测判断,进而识别地区特长;第三,地区科技专长的演化分析,基于上一步骤抽取的研究主题,监测科技专长的演化规律;最后,基于地区专长特色和演化过程,提出相应的政策建议与策略(具体研究设计见图1)。
3.1 数据收集与预处理
本文的科技报告数据来源于国家科技报告服务系统,该系统提供针对社会公众、专业人员以及管理人员三种共享服务模式,收录了由国家科技计划项目研究产生的科技报告,并且设置可依据项目资助来源、学科、地域、类型等不同分类标准的检索途径。本文在系统提供的地域分类标准下,采集截至2016年10月16日系统中上海市、江苏省、浙江省、安徽省目录下的科技报告文本,主要包括科技报告题名、关键词、摘要、报告作者、编制时间等题录信息。通过对所采集的科技报告数据进行信息内容完整性检查,去除信息不完整的条目,最后共获取2007-2016的10年间科技报告题录信息17088条。
本文首先对科技报告的摘要信息进行数据预处理,因科技报告内容涉及多个学科主题,专业术语较多且词语表示较为专业,为确保分词结果的准确性,将科技报告文本中出现的关键词加载为自定义词典,结合中科院NLPIR汉语分词系统,对科技报告摘要信息进行分词后采用停用词将文中诸如虚词、形容词、副词、单节词以及摘要中出现的如“出现”“提出”“建立”等与主题描述关联较小的词语去除,最终得到较为规范的特征项。
3.2 地区科技专长识别与差异监测
在地区科技专长的特征抽取与表述中,本文以科技报告作为地区科技专长分析的基础语料,在语料处理中引入LDA 模型,将每篇文档中的词均以一定的概率选择某个主题,并且在该主题中以一定的概率选择某个词,即主题模型生成过程[11]。通过不断重复上述主题模型生成过程,迭代至出现较为稳定的“文档-主题-关键词”概率分布矩阵,最后根据概率分布对应的文档内容总结提炼主题内容,从而识别发现文档的研究主题[12]。为得到较为切合研究的最优LDA模型,需要对模型设置合适的主题抽取个数,即最优主题值K,本文采用困惑度[13]对最优主题数进行迭代计算。
在地区科技差异监测与检验中,本文主要采用配对T检验对不同地区的专长结构(专长主题向量)进行差异性分析。配对T检验多适用于对随机样本均值的两要素间作对比研究。已有学者采用该方法进行两两因素差异性分析,如孙建军等[14]采用配对T检验进行智慧城市政策理念强度与行政级别的差异性检验,验证了该方法的有效性。
3.3 地区科技专长的时间演化
在已有的主题与时间变化的关系研究中,普遍采用先离散时间再抽取主題、先抽取主题后离散时间以及将时间因素加载在主题分析模型中这三种处理方式。对于时间窗的划分目前尚未有统一的标准,不同的学者针对各自的研究需要,采取两年、三年、四年、五年、逐年等不同的时间片段划分标准。本文针对科技报告的特征需求,为减小因离散模块划分造成低频词较多、主题概括主观差异等所带来的误差,将研究语料进行整体分抽取典型研究主题,并以此为参考主题,跟踪上述主题随时间的波动变化。
在本文提出的研究模型中,专长的时间演化主要通过主题分布的结构变化来表征。为反映这种结构变化,可以从相似相异判断(如CV值)、突变主题变化、信息熵等不同视角判断,本文选取信息熵变来测度某一地区的整体专长结构随时间的变化趋势。一般而言,若地区内的主题分布差异较大,则对应的信息熵较大,反之亦然[15]。而熵变则是一种描述主题变化的尺度,反映了整体结构的变化。科技报告研究主题可以说是一种具备耗散结构特点的集合,其研究主题的变化可以用信息熵测度。
科技报告研究主题随时间以及相关外界因素变化会呈现不同的演化态势。依据信息熵值变化原理,本文通过观测科技报告研究主题的熵差值随时间变化的态势来监测地区科技专长的演化过程。具体计算公式为:△hi(t)=H(t)-H(t-1),其中,H(t)代表某一科技报告研究主题在时间t时的信息熵;H(t-1) 代表其在时间t时间前一时间段对应的信息熵。若△hi(t)>0表示主题演化呈现熵增过程,其研究主题内容无序度增大并且逐渐向无序度转化;△hi(t)=0表示主题演化没有发生变化;当△hi(t)<0 表示主题演化呈现熵减过程,其研究主题内容无序度减小,并且逐渐向有序化转变[16]。信息熵的变化可能会与国家政策、相关学科建设、科研人员自身等众多因素有关。
4 研究结果
4.1 地区科技专长模型的表征
地区科技专长通过科技报告语料识别,共获取52044个特征项,通过困惑度求解出科技报告研究主题最优K值为10,迭代次数设为1000次,LDA模型参数值预设为:alpha=0.0l,beta=0.05。通过迭代计算,最终抽取主题-词分布,从而得到科技专长领域-特征词的分布。由于文档数量较大,本文只表述词频在该主题下,特征较为显著的关键词。同时,依据计算得出的文档-主题概率分布中各研究主题的概率降序排列,找到各主题所对应关联度较高的科技报告文本信息。综合特征较为显著的关键词、科技报告文本信息以及相关科技报告学科分类,综合归纳提炼各研究主题(见表1)。提炼后发现,科技报告研究的主题主要有临床医学、环境科学与清洁技术、地质海洋与大气、生物医学、计算机与自动化、建筑工程、材料科学、化学科学、农业与生物技术、管理科学与工程十个研究方向。endprint
4.2 地区科技专长识别及其差异性分析
依据上文LDA模型迭代计算得出的文档-主题概率分布矩阵,计算出科技报告研究主题的概率平均占比[14],即科技报告研究主题出现在某一地区的文档-主题概率总值与该地区所有主题出现的文档-主题概率总值的比值,其表示出该研究主题在该地区所有主题中的重要性占比;同时,将各地区主题的重要性与该地最高比例主题的数值作比,得出各主题的相对重要性数值;最后,根据上述值计算得到各地区的主题分布差异(见表2)。
从表中可以看出,长江三角洲地区科技报告研究主题的总体发展情况。2007-2016年间,该地区科技报告研究主题主要集中在主题2、主题3、主题4、主题5、主题6、主题7。
其次,数据结果显示不同的省市科技专长方面具有一定的倾向性与差异性。在地区科技专长识别中,可以从三个角度考虑:第一,域内占优识别,即在指定区域内主题概率最集中反映的主题领域,以此标准,安徽相对而言,在材料科学、建筑科学和化学领域更占优势;江苏省是地质海洋与大气科学、农业与生物技术科学相对占优;上海是临床医学、材料科学相对占优;浙江省是农业与生物技术、计算机与自动化技术相对占优。第二,区域间绝对值占优,即在相同主题的跨区域显示中(绝对值行模型),具有绝对占优的地域即为该主题的占优区域,反之该主题亦为该区域的占优主题。而在区域绝对占优测试中,安徽和浙江均在十大主题领域中没有占优主题,江苏的绝对占优主题仍为地质海洋与大气科学、农业与生物技术科学,其余科技专长均为上海市。第三,区域间相对值占优,类似比较优势的区分方法,区分出:安徽省在建筑工程、材料科学、化学科学中相对占优,江苏省在地质海洋与大气科学相对占优,上海市在临床医学、生物医学、管理科学与工程相对占优,浙江省在环境科学与清洁技术、计算机与自动化、农业与生物技术科学相对占优(见表3)。
第三,通过表2中的CV值,可以判断安徽省的十个主题分布的差异最大,域内的相对优势更加突出,域内相对占优的提取越明显;浙江省十个主题分布的差异最小,最不容易识别域内相对专长领域。
特别地,采用配对T检验对长江三角洲地区三省一市四个省市科技报告研究主题之间的差异性进行分析,可以再次检验科技专长在不同省市间差异的显著性(见表4)。由表4中Sig.(2-tailed)结果可知,除Pair 4检验结果中,江苏省与上海市科技报告研究主题间无显著差异外(Sig.(2-tailed)=0.116)>0.005),其余五组配对T检验结果表明,各区域两两间均存在显著差异。同时,由表4中相关系数Sig.结果可知,四个区域间各研究主题除Pair 4江苏与上海之间存在显著相关关系外(Sig.=0.001<0.05),其余配对两两地区比较结果显示,Sig.值均大于0.05,说明安徽省与江苏省、浙江省、上海市的科技报告研究主题两两间均不存在显著相关关系,江苏省与浙江省、浙江省与上海市的科技报告研究主题间均不存在显著相关关系。即区域与科技报告研究主题的差异分析中,除江苏省与上海市两地区间科技报告研究主题无显著差异外,其他各省份间科技报告研究主题均存在一定的差异性。
4.3 地区科技专长的时间演化
通过信息熵公式H(X)= P(Xi)log p(Xi) ,计算得出科技报告10个研究主题历年的信息熵,具体计算结果(见表5),上述公式中,H(X)表示系统信息熵,如科技报告主题信息熵;P(Xi)表示某要素出现的次数与全部要素出现总数的比值,即科技报告某一主题在当年出现的概率总值与当年所有主题出现概率总值的比值,计算采用以10为底的对数[15]。由信息熵原理[16]可知,科技报告研究主题对应的信息熵值越大,表明科技报告研究主题的内容涉及面越广,研究内容相对较为离散,反之,若研究主题对应的信息熵值越小,表明其研究主题内所包含的内容较为单一集中(具体计算结果见表5、图3)。
根据图3可知,十年间熵值最高的研究主题是主题5计算机与自动化,结合上文LDA模型迭代计算得出的文档-主题概率矩阵所对应的科技报告文本信息可知,该主题多涉及网络平台研究、智能配电、无线网、通信仿真等围绕计算机与自动化方向的相关应用技术研究,具体应用方向和内容较为广泛,与其熵值最大对应的研究内容丰富、分散等特征较为符合。主题1临床医学、主题2环境科学与清洁技术、主题4生物医学、主题6建筑工程、主题7材料科学、主题8化学科学、主题9农业与生物技术的熵值相对中等,并且熵值间差异较小,所涉及的研究内容多是面向学科特定需求进行相关技术与基础应用研究,其研究对象相对来说较为集中。主题3地质海洋与大气、主题10管理科学与工程的熵值相对最小,从其研究主题各自对应的学科特点来看,这些研究主题的相关研究对象与研究内容更为集中。
依据表5计算历年信息熵的差值,即从科技报告研究主题的信息熵差的变化情况探讨地区科技专长随时间的演变情况(见图4)。
由图4可知,2007-2016年间,科技报告研究主题整体上呈现出熵减的演化趋势。其中, 2007-2008、2011-2012年这两个时间周期内,科技报告研究主题的熵差值均大于0,显示出在上述时间周期内研究主题呈现熵增的演化过程,相关研究主题内容有所扩展,该研究领域出现一定新的研究方向。除上述时间周期以外,2009-2011、2013-2016年这两个时间周期内(除2015年间有短暂且幅度较小的熵增变化外),科技报告研究主题的熵差值均小于0,显示出科技报告研究主题在上述时间周期内,呈现熵减的演化过程,各研究主题逐渐向有序化转变,即在该时间周期内,经过时间变化以及相关研究的日趋成熟稳定,区科技专长所涉及的研究方向逐渐有序化,形成相对较为稳定的研究热点或研究领域。
基于上述描述可知,2007-2016年间,科技报告研究主题整体上呈现出由无序向有序发展的演化过程,即地区科技專长逐渐向有序化转变,日渐形成相对较为稳定的研究领域。endprint
5 分析与讨论
5.1 地区科技专长监测的政策应用
地区科技专长监测提供了一种基于科技专长的资源动态配置可能。资源动态配置是指基于地区科技专长的比较优势,或者地区科技专长的涨落变化,对科技资源在横向配置(区域配置)和纵向配置(时间配置)进行动态调控的策略。相对已有的科技资源配置政策,资源动态配置能够更有效地提高科技资源的利用效率,提高投入产出比。
(1)基于科技专长的地区差异,能够识别某一地区的科技产出最大或潜力最大的细分领域或交叉领域,从而提供了一种依据专业特征重点投资的科技资源配置改进策略。以此次研究为例,通过对2007-2016年长江三角洲区域科技报告资源的LDA主题模型分析,在三种不同的统计口径中形成了不同的地区专长判断标准:以域内绝对值而言,可以識别出江苏在地质海洋与大气、农业与生物技术两个专长领域的聚焦优势,意味着这两个领域在江苏省内的投入产出效应会大于省内其它领域。以域间绝对值而言,在安徽省的主题监测中,并未发现在四省市中绝对占优的主题或科技方向,因而转向可以依据地区的潜力最大专长,即相对显著度最显著的专长领域,即本地区内最具有潜力的领域。
(2)基于地区科技专长时间差异的动态配置,可以统计历年间主题差异或年度占优主题,从而确定年度优先资助计划。在时间动态配置模型中,主要是通过主题在不同时间的差异分布,识别出局部短期的最优投入产出方案;而在实际应用中,因科技研究的成果具有一定的滞后性,适合进行分段的时间窗统计。
(3)在实际政策执行中,科技资源配置变更的执行成本与时滞效应也不能完全忽略。因科技资源管理过程中,在计划制定、资源配置、过程管理、产出结果统计过程中均具有一定的学习成本、沉没成本和行为惯性,科技管理人员习惯按已有的管理流程工作,因而在权变管理过程中会形成一定的操作性成本,最终影响实际的配置效果。
5.2 主要研究不足与改进
地区科技专长的表征具有多源属性,科技报告、科技论文、专利产出等不同的科技文献具有不同的表征方式,因而科技报告并不是地区科技专长的唯一载体;其次,科技报告相对于实际科技活动的开展,具有较长的滞后时间,影响了对科技专长或地区科技优势的研判准确性;第三,在数据分析过程中,虽揭示了地区科技研究主题分布与演化的内涵与差异性,却无法对各地区间主题差异性进行较为深入的归因研究,不能对科技专长的引导与培育提供科学的指导建议。同时,在研究方法上对专长界定、专长识别、差异性判断等领域还有大量的改进空间。
参考文献:
[1] 杨传喜.市场机制下地方政府科技资源配置方式研究[D].武汉:中国地质大学,2005.
[2] 魏守华,吴贵生.区域科技资源配置效率研究[J].科学学研究,2005,23(4):467-473.
[3] 曾硕勋,张龙,肖琬蓉.基于DEA的甘肃科研机构资源配备效率评价研究[J].科技进步与对策,2012,29(3):45-48.
[4] 科技创新区域集聚获高层力挺[EB/OL].[2016-05-31].http://finance.ifeng.com/a/20160531/14443313_0.shtml.
[5] 贺德方.中国科技报告制度的建设方略[J].情报学报,2013,32(5):452-458.
[6] 张奎勇.我国科技报告资源建设的关键问题研究[D].北京:中国科学技术信息研究所,2013.
[7] 张军亮.生物和医药技术领域知识生产分析——基于“863计划”科技报告[J].情报杂志,2015,34(1):67-71.
[8] 丁玉飞,王曰芬,刘卫江.基于主题模型的科技监测方法及应用研究[J].情报学报,2015, 34(8):854-865.
[9] 白如江,冷伏海,廖君华.一种基于多数据源主题对比的科学研究前沿识别方法[J].情报理论与实践,2017,40(8):43-48.
[10] 李伟,马永征,沈一.一种解决“中心主题湮没问题”的基于图模型的Labeled-LDA文本分类算法[J].计算机科学,2014,41(3):223-227.
[11] 王秋月,曹巍,史少晨.基于主题模型的深层网数据源选择算法[J].计算机应用,2015,35(9):2553-2559.
[12] 祝娜,王效岳,杨京,等.基于LDA 的科技创新主题语义识别研究[J].图书情报工作,2015,59(14):126-134.
[13] 刘小军.基于LDA模型和AP聚类算法的主题演化研究[D].合肥:合肥工业大学,2016.
[14] 孙建军,裴雷,周兆韬,等.中国智慧城市政策理念多元解读及质性分析[J].图书与情报,2016(6):25-28.
[15] 雷会珠,陈桂荣,琚彤军.信息熵在竞争情报计量分析中的应用[J].情报杂志,2008,27(5):73-75.
[16] 王莉亚,张志强.基于信息熵的信息整合主题演化研究[J].图书情报工作,2012,56(6):102-106.
作者简介:剧晓红(1989-),女,南京大学信息管理学院博士研究生;赵一方(1994-),女,南京大学信息管理学院硕士研究生;裴雷(1981-),男,南京大学信息管理学院副教授;孙建军(1962-),男,南京大学信息管理学院教授,博士生导师。endprint