梁继文 杨建林 王伟
摘 要:[目的/意义]提出自动化的政策文本量化方法,探索政策对科研选题的影响,为趋势预测、前沿识别以及未来的科研选题提供参考。[方法/过程]文章以战略性新兴产业中的新能源汽车领域为样板,综合使用了文献调研法、专家咨询法与政策工具,将政策文本表征为词向量后,通过特征扩展来识别关键性政策文本,并抽取政策关键短语来代表政策主题;选用LD
A模型提取论文主题来表征科研选题,通过对比分析政策文本主题与论文主题来探索政策对科研选题的影响。[结果/结論]通过实证研究表明,文章提出的方法可以实现政策文本的自动分解;证实了政策会对科研选题产生一定程度的影响,并为前沿识别与趋势预测研究提供建议。
关键词:政策文本量化;政策分解;主题分析;科研选题;LDA模型;情报服务;前沿识别;趋势预测;新能源汽车
DOI:10.3969/j.issn.1008-0821.2021.08.011
〔中图分类号〕G250.23 〔文献标识码〕A 〔文章编号〕1008-0821(2021)08-0109-10
Research on the Impact of Policy on Scientific Research Topics
——Based on the Quantitative Method of Political Texts
Liang Jiwen1,2 Yang Jianlin1,2 Wang Wei1,2
(1.School of Information Management,Nanjing University,Nanjing 210023,China;
2.Jiangsu Key Laboratory of Data Engineering & Knowledge Service,Nanjing 210023,China)
Abstract:[Purpose/Significance]This article attempted to propose an automated policy text quantification method,explored the impact of policies on scientific research topics,and provide references for trend forecasting,frontier identification,and future scientific research topics.[Method/Process]The paper took the new-energy vehicle field in the emerging sectors of strategic importance as an example,comprehensively used the literature research method,expert consultation method,and policy tools,characterized the policy text as a word vector,and then used feature expansion to identify key policy texts,extracted the policy keyphrases represent the theme of the policy.We used the thesis theme,choose the LDA model to extract the topic,through the comparative analysis of the public policy and thesis topic to explore the influence of policies on scientific research topics.[Results/Conclusions]The empirical research shows that the method proposed in the article can realize the automatic decomposition of the policy;it proves that the policy has a certain degree of influence on the selection of scientific research topics,and provides suggestions for frontier identification and trend prediction research.
Key words:quantitative analysis of policy;policy decomposition;topic analysis;scientific research topic;LDA model;intelligent service;frontier identification;trend prediction;new energy vehicle
科技進步是促进社会经济进步的主要推手,在当前形势下,科技实力是国家间竞争的实质。科技政策是政府为促进科技发展、通过科技来服务于国家目标而采取的措施,20世纪70年代之前,我国科技政策主要以国家安全为导向,之后则转向与产业政策的协同整合[1]。自20世纪80年代,我国先后出台了大量产业纲要性政策与行业结构调整政策,产业政策的主要任务之一便是“促进产业内部结构调整”[2],2005年颁布了首部《产业结构调整指导目录》并逐年调整、延续至今,该目录覆盖了国民经济中的大类行业,详尽列出了鼓励类、限制类、淘汰类的产品与项目,这意味着通过对产业结构进行调整也会影响领域内的技术创新与进步。
传统意义上,科技政策作用于企业研发,产业政策作用于产业组织与产业结构[3],但随着产业政策与科技政策协同发展,Rothwell R等将科技政策与产业政策合并为创新政策[4],指出政策的引导作用贯穿于“基础研究—技术创新—转移转化—技术商品化—商品产业化”(创新链)的整个流程。李建花将科技政策与产业政策的结合部分表述为产业技术政策,指出政府通过产业政策来明确特定时段内产业重点发展方向与技术的重点研发领域[1]。因此,可以认为政策产生的影响不仅作用于企业研发与产业结构方面,还会作用于技术发展等其他方面。
情报学始终以服务国家安全发展、引领科技创新进步为己任,热点识别、前沿识别、趋势预测等始终是情报学科的重点研究方向。现有研究多数基于领域论文与专利数据,通过挖掘内部的研究主题演化模式,来预测领域发展趋势与前沿。但除论文、专利外的科技政策与产业政策等其他指导性文件,也极有可能对领域内的研究趋势造成影响。本文以战略性新兴产业之一的新能源汽车为样板领域,使用词向量表征政策文本,实现了自动化的政策分解与政策关键短语抽取,通过论文主题来反应领域内的科研选题,进行了新能源汽车政策与论文主题的对比分析,从内容层面分析政策对领域内的科研选题、技术发展等方面的影响。一方面,通过自动化的政策文本量化方法,可以从政策中识别国家战略需求从而提供主动式情报服务,发挥情报学“耳目尖兵参谋”的作用;另一方面,通过探索政策内容与领域科研的关联,可以为趋势预测、前沿识别以及未来科研选题提供参考。
1 相关研究
1.1 政策文本量化研究
政策文本是政府行为的载体,客观记载了政策的意图与实施过程[5]。对政策文本的内容进行量化分析,可以明确政策主题、掌握政策演化方向、把握政策发展趋势。政策文本量化分析的方法包含以下3类:政策文献计量、内容分析法、文本表示法[6]。
政策文献计量融合了文献计量学、统计学、社会学等多种学科方法[7],将政策文本类比为学术文献,定义并识别政策文献的结构要素,辅以共词分析、网络分析、时序分析等方法来探索政策的分布特征、主题变迁、合作模式与体系结构等[8-9]。此外,部分研究探索了政策的计量指标,如政策扩散计量指标[10]、政策实体指标等[11]。但政策文本不同于科技文献,缺少关键词信息,若要分析文献主题变迁,需要人工标引政策关键词并进行解读。
内容分析法构建了从政策文本到语义的分析单元,主要使用人工编码的方式将文本内容转化为含有规定语义信息的数字编号。最常见的方法是基于政策工具理论制定分析框架,如Rothwell R等提出的经典的供给、环境与需求政策工具[4]。在产业政策研究中,国内学者基于国家战略需求对传统政策工具进行细化与完善[12-14];政策工具也与创新链等维度共同构建政策内容分析框架[15],用以分析政策工具的使用比例、政策的分布结构,旨在优化完善产业政策体系。但该方法依赖于人工解读与人工编码,人力成本与时间成本较高。
文本表示法融合了文本挖掘、机器学习等自然语言处理技术,通过文本表示的方法将政策文本解析成包含语义特征的文本单元[16]。相较于其他方法,该方法实现了政策文本的自动化处理。政策文本表征方法包含词袋模型表示法[17]与分布式表示法[18-19],词袋模型的方法存在特征离散、高维、稀疏的问题,无法计算相似度,分布式表示则可将文本表示成连续、低维、稠密的向量。政策文本表征后可使用主题模型与相似度计算等方法探索政策主题的演化[20-21]、生成政策框架以及进行区域政策对比分析[22]。但由于政策类文献结构与行文的特殊性,直接对政策全文本进行主题抽取会引入无关数据。
1.2 政策引导效用研究
科技政策与产业政策是社会技术进步、经济发展的主要推手,是政府优化产业结构、引导产业技术方向、促进国民经济可持续发展的重要手段,通过技术创新战略,提升创新绩效,是我国经济发展的重要选择。随着科技政策与产业政策的协同发展,现有研究聚焦于探索政策的效用——即政策引导的绩效评价,主要包含:政策对企业创新绩效的影响[23-25]、政策对经济绩效的影响[26]、政策对区域创新绩效的影响[27]、政策力度对区域创新资源与创新绩效关系的影响机制[28]、政策对技术的效力评估[29]这几方面,此外也有研究探索了政策与行业技术创新的关联[30-32]。
总体而言,现有研究主要通过政策结构分布分析不足之处,提出改进建议,为制定创新驱动政策提供理论参考,以及通过调整政策来激励产业发展与技术创新,优化产业资源配置。在政策文本量化方法方面,现有的政策分解与主题提取依赖人工编码与标引,需要较高的人力成本与时间成本。在政策选取方面,现有研究关注政府补贴、税收优惠、信用贷款以及行业准入等具有“激励作用”的政策,但忽视了大量蕴含技术元素的政策,同时将政策的作用点局限于企业与产业。在政策效用评估方面,现有研究使用了多种量化评估方法,但只关注企业与技术的数量特征、使用数值型指标(如技术专利数量),并未考虑技术的内容特征,忽视了政策对技术创新与研究内容的影响。
2 研究方法
2.1 研究流程与技术路线
首先,进行政策文本与论文的数据筛选与采集。在政策文本方面,进行数据清洗与预处理后,通过政策要素与核心技术关键词表来识别关键性政策文本,并抽取关键性政策文本中的政策关键短语;在论文方面,使用LDA模型提取论文的主题。最后,对比分析政策文本主题与论文主题。具体的研究流程如图1所示。
2.2 政策关键短语抽取
文章使用政策文本量化研究中文献计量学的方法,使用关键词来表征文献的主题。随着信息技术的飞速发展,以及我国科技政策与产业政策体系架构不断完善,中央与各地方政府出台的政策数量逐渐增多,因此,有必要探索一种政策关键词自动识别的方法来替代传统的人工标引。
政策文本具有特定的写作格式文法,结构复杂多样、信息密度大,与政策主题相关的关键词的分布呈现总体分散、局部集中的特点,尤其是在中长期规划中涵盖多种产业(如新能源汽车、新一代信息技术、高端装备制造等)的研发布局,与本文相关的政策内容通常存在某个“专栏”中,而其余政策文本则与本文无关,因此首先需要识别出与本文研究相关的“关键性政策文本”。具体步骤如下:①在政策文本规范、清洗后,进行分段与分词处理,段落作为关键性政策文本识别的处理单元;②结合文献调研、借鉴已有政策工具,提取政策要素,通过匹配政策要素识别出非技术类的关键性政策文本;③技术类的政策文本表述复杂、识别难度大,无法通过匹配政策要素识别,因此使用專家咨询法与文献调研法,基于新能源汽车产业链构建核心技术关键词表;④使用Word2vec对核心技术关键词进行词向量特征扩展,加入与其语义相近的词,计算其与政策文本中词汇的余弦相似度,将匹配的余弦相似度均值作为政策文本段得分,设定阈值实现技术类关键性政策文本识别。
在识别出的关键性政策文本的基础上提取政策关键短语。与关键词相比,由多个词汇组成的短语能更好地表征政策的主题。文章在预实验中使用基于TF-IDF计算词权重的方法提取关键词但效果欠佳,因此将LDA主题模型融入TF-IFD方法中来优化关键词的打分[10]。将政策文本分词后使用TF-IDF计算文本的关键词权重,提取出碎片化的关键词,将其与相邻关键词重组后重新计算权重,去除相似词汇后得到候选的关键短语。然后使用LDA模型计算政策文本的主题概率分布与候选关键短语的主题概率分布,通过调整关键短语的权重来优化打分,抽取政策关键短语。
2.3 论文主题提取
文章使用LDA(Latent Dirichlet Allocation)[33]主题模型来挖掘论文的研究主题。LDA模型如图2所示,包含主题、文档与主题词3层结构,认为一篇论文由多个主题构成,其中某个主题又由多个特征词来表示。M表示论文的数量,Nm表示文档的词,K为主题数量;α为主题分布的先验分布,θm表示第m篇论文的主题分布,zm,n为第m篇论文中的第n个词对应的主题;β为词分布的先验分布,φk表示第k个主题的词分布,wm,n为第m篇论文中的第n个词。θmφk均服从多项式分布(θm:Dirichlet(α), m=1,…,M;φk:Dirichlet(β), k=1,…,K)。通常使用困惑度Perplexity确定抽取的最优主题数量,困惑度是论文中包含句子相似性的几何平均值的倒数,因此,当该值最低时,LDA模型抽取相应的主题数量效果最好。
将主题模型抽取出对应文献数量最多的主题定义为核心主题。当核心主题中蕴含的主题词较为宏观且指向多个方面时,文章通过限定论文来使主题更加明确。主要利用论文—主题概率分布作为区分度对多主题论文进行限定:①若论文对应每个主题的概率值均低于0.1,说明该论文表达主题模糊、不属于抽取出的主题,将该类论文排除[34];②为排除多主题文献对核心主题造成的影响,计算每篇论文的主题概率分布,提取概率分布中核心主题概率值最大的论文,计算这些论文的核心主题概率与主题概率第二大的概率差值,若差值大于0.2,将其视为仅属于核心主题的单主题文献,并使用这些论文再次进行主题分析。将第二次获取的主题与原有核心主题的主题词进行对比并进行调整。此外,将包含过多功能词(如连词、副词等)与基础词(如项目、分析、持续等)的主题过滤。
3 实证分析
3.1 数据获取与预处理
研究的时间跨度为2001—2020年。为探索政策内容与科研选题的关联,在划分时间窗口时,以我国国民经济发展中具有规划性质的重要政策“五年计划”作为时间节点,划分4个时间片段T1:2000—2005(十五规划)、T2:2006—2010(十一五规划)、T3:2011—2015(十二五规划)、T4:2016—2020(十三五规划)。
在政策方面,文章中的政策特指国家层面的科技政策与产业政策。首先,在国务院、财政部、发改委、工信部、住建部、交通部与国管局等国家层次的政府门户网站中以“新能源汽车”“新能源公交车”“电动汽车”等词检索相关政策文件,随后在北大法宝专业政策数据库中再次检索并补全缺失文本,样本采集截止时间为2021年1月。其中不包含多批次的《享受车船税减免优惠的节约能源 使用新能源汽车车型目录》与《免征车辆购置税的新能源汽车车型目录》,不包含符合行业规范条件的企业名单。经整合与筛选后获得用于文本分析的政策文献共100篇。
在论文方面,以“新能源汽车”“纯电动汽车”“混合动力汽车”与“燃料电池汽车”作为主题词进行检索,时间限定为2000—2020年,文献类型选取学术质量较高的北大核心期刊论文与学位论文。观察获取到的文献可知,虽然新能源汽车这一主题属于技术研究范畴,但其对应的文献分属于“技术研究”与“社会研究”两类:“技术研究类”代表实用性的技术成果,涵盖技术研究、技术开发、工程研究等;“社会研究类”代表理论学习与社会实践总结,涵盖应用研究与实践研究,以及深入的行业/产业研究、业务研究与政策研究等;使用科技类的文献来挖掘新能源汽车主题下的关键技术发展与演化情况,使用社科类的文献来挖掘新能源汽车主题下的政府政策、产业结构、竞争情报与经济动态等社会焦点的发展与演化情况。文章参考CNKI根据《中国学术期刊检索与评价数据规范》中规定的文献标识码,部分辅以人工判定来划分文献类型。
获取到学位论文5 683篇,其中技术类4 340篇,社科类1 343篇;北大核心期刊论文3 803篇,其中技术类2 919篇,社科类884篇。论文数量分布如图3与图4所示,由图可知,在新能源汽车相关主题的论文中,技术类文献数量多于社科类;技术类的学位论文与期刊论文在后3个时间段内均呈现出先增长后下降的数量波动趋势;社科类学位论文数量呈指数增长趋势,而社科类期刊论文数量在2010年时增速明显,2010年后持续波动但变化值较小。
数据预处理包含字段抽取、分词与去除停用词。去除政策的标题、机构行政级别等信息,保留政策正文内容后分段,进行分词与去停用词处理,剔除词频小于2的词汇;论文数据保留论文题名、摘要与关键词,将3个字段合并作为论文的内容文本,进行分词与去停用词处理。
3.2 新能源汽车政策主题抽取
首先,获取新能源汽车的政策要素。文章基于现有新能源汽车的政策工具[14,35]进行调整,将政策工具划分为“技术支撑、标准约束、基础设施、财政补贴、税收减免、企业管理与商业运营”七类,分属于技术、设施、财税、企业和商业五大类,结合新能源汽车政策特定的提示词,列出相应的政策要素,如表1所示。
其次,自建新能源汽车核心技术词表。在结合政策内容、回顾相关文献、参考专家意见后,文章从新能源汽車产业链的角度出发,将其核心技术分为3个阶段——上游原材料提取与制备、中游核心部件制造、下游整车配套技术。上游原材料以电池原材料为主,涵盖锂、镍硅碳、石墨烯等资源开发及处理;中游核心部件以国家新能源汽车规划中的“三横”为基础,即电池、电机与电控三大系统;下游整车开发涵盖车辆设计生产以及充电桩等配套设施的研发。根据上述产业链获得新能源汽车核心技术关键词词表,并结合政策内容,降低“新能源汽车”“混合动力汽车”等区分能力较低的基础关键词的权重。
然后,识别新能源汽车关键性政策文本。通过政策要素匹配识别出非技术类的关键政策文本;在识别技术类的关键政策文本时,文章使用腾讯AI Lab开源800万中文预训练模型,将政策文本表征为词向量,基于核心技术关键词的词向量进行语义特征扩展。当关键词中存在未登陆词时类比Fast-Text算法中的N-Gram处理流程,将未登陆词N-Grams拆分后输入预训练模型,并将匹配到的词向量进行平均。设置扩展词向量个数为15,将政策文本词汇与扩展关键词向量进行匹配,词向量的余弦相似度作为关键词匹配得分,将得分均值作为政策文本的最终得分。结合政策文本得分结果,选择区分能力最强的分数阈值,设定为0.7,即0.7分以上的政策文本为技术类关键政策文本。
最后,使用2.2小节中的方法提取政策关键短语来表征政策主题,抽取出的政策主题详见3.4小节。
为掌握新能源汽车政策内容的演化变迁情况,将政策分布随时间的变化进行可视化处理。结合政策内容,将T1~T4 4个时间窗口与政策阶段对应——T1(关键技术研发布局阶段)、T2(产业化与推广阶段)、T3(推广与技术创新阶段)、T4(产业与技术调整升级的综合阶段)。统计上一步中识别出的关键政策文本在政策工具大类中的分布情况,绘制政策分布热图如图5所示,颜色越深表示该类政策数量在相应年份中占比越多。由图可知,T1阶段政策集中于政府的技术战略指导,从T1~T4阶段,涵盖技术要素的政策占比逐渐减小而企业商业含量增多,说明我国新能源汽车政策正逐渐由单方面的技术规划转向技术—产业—市场多方面推广,同样,新能源汽车领域的发展由政府战略主导转向政府—产业—市场多方主导;在T2~T4阶段,财税要素占比较高,显示出优惠政策是政府推广新能源汽车的主要手段,同时增加充电基础设施建设也是推广的重点内容;在T3与T4阶段内,企业管理类要素分布较为均匀,说明政府对企业管理的关注度较为稳定。
3.3 新能源汽车论文主题提取
分别计算4个时间段内新能源汽车的技术类论文与社科类论文的困惑度,设定主题数K最大值为20,迭代次数设置为200,抽取训练集为数据量的1/10。技术类论文与社科类论文的困惑度值的变化均先降低后增长,折线拐点为困惑度最小值。技术类论文在T1~T4时段内困惑度最小值对应的主题数分别为7、6、4、5;社科类T1时段的论文数过少所以进行人工主题提取,通过困惑度确定T2~T4对应的主题数为12、8、5。设置LDA模型的迭代次数为200,No_Below参数为2用以过滤掉文档频率少于2的词,其余参数保持默认值,并对词向量进行TF-IDF特征提取。结合pyLDAvis主题可视化工具,分析获取到的主题词集合,通过主题调整与主题过滤,最终获取论文的研究主题,具体主题见3.4小节。
3.4 政策与论文主题对比分析
文章综合使用了结构化分析方法中的大事记表与时间表方法,将抽取出的政策关键短语与论文主题进行可视化对比,如图6所示。图的纵轴是时间轴,自顶向下按照T1~T4 4个时间窗口划分;图左侧的矩形树图中列出了分属于技术、设施、财税、企业与商业五大类的政策文本中抽取出的、有代表性的政策关键短语,不同类别政策的面积代表其数量占比;图右侧分别为技术类论文与社科类论文中抽取出的主题名称。
图6 政策文本主题与论文主题对比
3.4.1 技术类相关政策
在宏观层面,关注规划类政策主题与论文主题的变化趋势与演化方向,对比分析如下:
1)技术类政策以中长期规划为主,起到技术发展布局与引领作用,具有延续性。政策在T1初始战略规划时期,提出了三纵三横的技术研发布局(三纵:混合动力汽车、纯电动汽车、燃料电池汽车;三横:蓄电池、电机与电控),在自科类论文中,4个时期的技术主题始终围绕“三纵三横”的具体内容展开。
2)在T2时期,政策《新能源汽车生产准入管理规则》首次对“新能源汽车”进行了定义与规范,因此在T1时期政策中倾向于使用“电动汽车”这一概念而较少使用“新能源汽车”的概念;与之相应的是,T1时期社科类论文中对应文献数量最多的主题为“电动汽车产业对比”“电动汽车发展战略”,直至T2时期才开始使用新能源汽车这一概念。
3)T2时期政策《新能源汽车生产企业及产品准入管理规则》提出将3种新能源汽车划分技术起步期、发展期以及成熟期,映射出3种车的技术成熟度与产业化程度为“混合动力汽车>纯电动汽车>燃料电池汽车”,因此,混合动力汽车成为T2时期政策推广新能源汽车的主打类型。与之对应的是,T2时期自科论文中的主题:“混合动力汽车关键核心技术”“混合动力系统仿真”“动力电池系统”,表明该时期技术方面也更加侧重混合动力汽车的研发。
4)T3时期国家专项规划提出实施“纯电驱动”技术转型战略,在推广“混合动力”应用的同时开始转向发展“纯电驱动”,将混合动力汽车理解为新能源汽车发展历程中的“过渡产品”,大力研发燃料电池。自科论文对应数量最多的主题由T2的“混合动力汽车关键核心技术”演化至T3的“纯电动汽车与混动汽车关键核心技术”,这与政策推广倾向的改变相吻合。
5)T4时期政策延续“纯电驱动”理念,将原有技术路线“三纵”中的混合动力汽车限定为插电式混合动力(含增程式)汽车,同时重点强调发展智能网联汽车与燃料电池汽车。自科类论文中的主题“燃料电池系统集成”“氢燃料电池汽车关键技术”与社科类论文中的主题“智能汽车与电池产业发展战略”“氢能产业展望”均与该时期政策技术规划相对应。此外,T4时期政府加强了新能源汽车安全问题的监管,尤其是电池安全标准建立与安全监测平台构建,相应的在T4时期的技术类论文中出现了新能源汽车整车与零部件安全的研究。
在微观层面,关注政策与论文中有关电池系统、电机与电控系统以及充电基础设施的主题,对比分析如下:
1)电池系统
T1~T4时期内的技术标准类政策对生产动力蓄电池的性能要求不断攀升;与之对应的是T1~T4时期自科类论文中关于动力电池的研究主题,整体上围绕动力电池系统展开,在电池容量、能量密度、功率密度与循环寿命等性能参数上不断改进,经历了由铅酸电池向镍氢电池、锂离子电池演化的过程,动力电池系统的发展已经趋于完善,这与政策导向相符。
在氢燃料电池方面,政策在T1时期提出开发氢能源与燃料电池的规划,在T2时期的《产业结构调整指导目录》中明确了氢燃料电池催化剂、电极、复合膜与双极板等关键材料的开发与制造,T3时期要求实现燃料电池关键技术与系统集成的技术突破,T4时期强调开发燃料电池汽车的必要性;自科类论文中有关燃料电池的研究主题贯穿始终、与政策相符,演化如下:制氢方法/质子交换膜制备—催化剂优化/质子交换膜优化—电堆优化—电堆优化/氢燃料电池系统总成/新型燃料电池。其中T1~T3时期为氢燃料电池的基础技术积累,T4经过前期的技术积累走向电池系统集成,T4时期的系统集成主题晚于T3时期的政策,这是由规划性政策的长效性与滞后性导致。此外,在T4时期政策中的“废旧动力蓄电池回收”主题在自科类论文中尚无与之对应的研究主题。
2)电机与电控
政策中更侧重于驱动电机的应用层面——电机系统的多种驱动方式,如混合动力汽车专用发动机、燃料电池发动机、混合动力发动机、耦合传动等。与之不同的是自科论文中,研究主题倾向于不同类型驱动电机的优化,如直流电机、永磁同步电机、开关磁阻电机、电机的振动与噪声优化等。在电控方面的政策主题与论文主题则是较为一致,随时间演化由基础电控系统逐渐走向智能控制系统。
3)供能技术
有关供能设施的政策分布在T2~T4时期,政策主题由充电站、加氢站等供能基础设施的建设转向快充与智能电网等供能技术;社科论文中与供能相关的主题分布在T3“基础充电设施发展与规划”,与T2时期提出的设施建设规划相符;自科论文中与供能设施相关的研究主题分布在T3~T4,与T3~T4时期的政策主题相符,围绕如加氢、微网、优化调度等供能技术展开。
总体上看,在领域技术研发方面,规划纲要类政策起主要影响作用(如三纵三横)。该类政策多数是中长期规划,具有持续性且作用时间较长;同时由于科技创新类政策受政策级别、政策过程与宏观因素的影响[36],会出现政策滞后的情况,导致相应的论文研究主题会在政策出台一段时间后出现(如燃料电池系统集成)。因此,某项近年来政策强调的技术(如废旧电池循环技术)却尚未出现在论文主题中也是由上述原因导致。
3.4.2 其他类政策
除含有技术导向的政策之外,与财税、企业、商业相关的政策主题与论文主题的对比分析如下:
1)在T1~T4时期中,社科类研究中以电动汽车/新能源汽车产业技术发展战略分析为主题的占比最多,在内容上具有连续性:技术与产业发展战略对比—产业化探索—宏观与地方产业发展—智能汽车产业发展战略,并逐渐引申出技术创新模式等主题的研究,这与政策导向演化、国家政策落地落实的趋势相符。上述研究均以战略规划类的科技政策与产业政策作为研究基石。
2)财税政策在新能源汽车政策中占据重要地位,在T2~T4时期不断调整与完善,在初始财税补贴推广的基础上逐渐提升企业与汽车性能的门槛,T4时期政府在发生“新能源汽车骗补门”后加强了对企业的监管力度,调整补贴模式,提出以奖代补,补贴对象由汽车制造生产方、消费者向供能設施运营商转移;大量的社科类论文基于系列财税政策,在T2~T3时期分析国家及地方的财税推广政策变化并基于此评估产业发展,T4时期的论文则基于骗补事件并结合现有政策提出量化模型,为政策优化与加强市场监管提供建议。
3)随着技术进步与产业发展,基于补贴政策衍生出相应的企业与商业政策。企业政策以产品准入、企业准入、投资准入与燃油经济性核算为核心内容。国家在T4时期提出积分并行管理(双积分)政策,该政策被视为补贴退坡后的重要承接政策,目的是促进新能源汽车企业绩效的提升;T4时期以“补贴退坡、积分政策与市场监管”“财税政策与企业绩效”为主题的论文基于积分管理与补贴退坡政策来探索政策变革是否对企业绩效有影响。
4)在商業模式方面,T2时期政策中提出的“电池租赁”等新型商业模式,首次出现在T3时期的社科论文主题中;T3时期出现的“互联网+”营销模式,首次出现在T4时期的社科论文主题中;而T4时期政策重点扶持的“车电分离”商业模式尚未出现在T4时期的社科论文研究主题中。因此,与商业模式相关的政策对论文研究内容起主导作用,但具有一定的滞后性。
总体上看,面向管理服务类的社科类研究受政策内容影响较大。由于政策研究自身便是社科类研究的重要方向,因此与新能源汽车相关的政策与政策中提到的产业结构、财政补贴、营销模式、商业模式、科研合作模式、以及由政策引发的社会事件(如骗补门)均成为了新能源汽车社科类研究选题的重要内容。
综上所述,新能源汽车政策中涵盖的技术研发、产业布局、企业投资、商业模式、融资信贷等多方面导向与论文主题一一对应;当某个时段中的某项政策出现后,相同时段或下一时段中会出现相应的论文主题;尤其是当政策的倾向发生变化时,随之变化的论文主题尤为明显。这说明出台的政策会对论文的研究内容产生影响,即政策在一定程度上影响了科研的选题,在技术类研究中的影响较为持续,在社科类研究中的影响更为直接。
4 结 语
文章以科技政策与产业政策对科研选题的影响为研究重点,选取新能源汽车领域为样板,提出了一种自动化的政策文本量化方法,实现了自动化的政策分解与政策主题提取;使用论文的主题来表征领域内的科研选题,通过对比技术、财税、企业等多个导向的政策的主题与技术类、社科类论文的主题,证实了政策会在一定程度上对领域内的科研选题产生影响。因此,在未来的领域前沿识别与趋势预测研究中,除了使用常见的论文与专利数据挖掘自身的变化规律外,应使用多源数据,考虑政策以及其他的外部因素对研究趋势的影响,增强前沿识别、趋势预测、颠覆性技术预测的准确度与可解释性,提升情报服务质量,为未来科研选题提供参考。研究尚有不足之处:在实验数据源方面,仅使用论文数据来代表研究选题进行初步探索,将在后续研究中加入专利数据、科技项目数据等其他多源数据,同时探索外部因素对前沿识别与趋势预测的具体影响。
参考文献
[1]李建花.科技政策与产业政策的协同整合[J].科技进步与对策,2010,27(15):25-27.
[2]江飞涛,李晓萍.直接干预市场与限制竞争:中国产业政策的取向与根本缺陷[J].中国工业经济,2010,(9):26-36.
[3]沈旺,张旭,李贺.科技政策与产业政策比较分析及配套对策研究[J].工业技术经济,2013,32(1):127-133.
[4]Rothwell R,Zegveld W.Industrial Innovation and Public Policy:Preparing for the 1980s and 1990s[M].London:France Pronter,1981.
[5]李钢,蓝石,等.公共政策内容分析方法:理论与应用[M].重庆:重庆大学出版社,2007.
[6]郑新曼,董瑜.政策文本量化研究的综述与展望[J].现代情报,2021,41(2):168-177.
[7]李江,刘源浩,黄萃,等.用文献计量研究重塑政策文本数据分析——政策文献计量的起源、迁移与方法创新[J].公共管理学报,2015,12(2):138-144,159.
[8]李燕萍,刘金璐,洪江鹏,等.我国改革开放40年来科技人才政策演变、趋势与展望——基于共词分析法[J].科技进步与对策,2019,36(10):108-117.
[9]王欣,杜宝贵.国际科技政策研究进展与趋势——基于文献计量分析[J].科技管理研究,2020,40(23):48-56.
[10]张剑,黄萃,叶选挺,等.中国公共政策扩散的文献量化研究——以科技成果转化政策为例[J].中国软科学,2016,(2):145-155.
[11]刘建华,张智雄,张琴.基于多维政策实体及其关系的科技政策演化路径揭示方法研究[J].数据分析与知识发现,2019,3(5):57-67.
[12]陈衍泰,张露嘉,汪沁,等.基于二阶段的新能源汽车产业支持政策评价[J].科研管理,2013,34(S1):167-174.
[13]张永安,周怡园.新能源汽车补贴政策工具挖掘及量化评价[J].中国人口·资源与环境,2017,27(10):188-197.
[14]李珒,战建华.中国新能源汽车产业的政策变迁与政策工具选择[J].中国人口·资源与环境,2017,27(10):198-208.
[15]胡峰,张巍巍,曹鹏飞,等.基于政策工具视角的长三角地区机器人产业政策研究[J].科技管理研究,2019,39(4):174-183.
[16]Webster J,Kit C.Tokenization as the initial phase in NLP[C]//COLING 1992 Volume 4:The 15th International Conference on Computational Linguistics,1992.
[17]Windsor L,Dowell N,Windsor A,et al.Leader Language and Political Survival Strategies[J].International Interactions,2018,44(2):321-336.
[18]Rodman E.A Timely Intervention:Tracking the Changing Meanings of Political Concepts with Word Vectors[J].Political Analysis,2020,28(1):87-111.
[19]Jentsch C,Lee E R,Mammen E.Time-dependent Poisson Reduced Rank Models for Political Text Data Analysis[J].Computational Statistics & Data Analysis,2020,142:106813.
[20]杨慧,杨建林.融合LDA模型的政策文本量化分析——基于国际气候领域的实证[J].现代情报,2016,36(5):71-81.
[21]Blaydes L,Grimmer J,McQueen A.Mirrors for Princes and Sultans:Advice on the Art of Governance in the Medieval Christian and Islamic Worlds[J].The Journal of Politics,2018,80(4):1150-1167.
[22]张涛,马海群,易扬.文本相似度视角下我国大数据政策比较研究[J].图书情报工作,2020,64(12):26-37.
[23]张永安,闫瑾.技术创新政策对企业创新绩效影响研究——基于政策文本分析[J].科技进步与对策,2016,33(1):108-113.
[24]孟维站,徐喆,刘宇佳,等.我国科技政策组合特征对高技术产业创新效率的分阶段影响[J].经济问题,2019,(6):49-54.
[25]郑烨,刘遥.政策引导对中小企业创新绩效的影响机理研究[J].科研管理,2021,42(4):73-81.
[26]颜晓畅,黄桂田.政府财政补贴、企业经济及创新绩效与产能过剩——基于战略性新兴产业的实证研究[J].南开经济研究,2020,(1):176-198.
[27]林周周,苏屹.知识源异质性视角下知识溢出与区域创新绩效关系——基于知识产权保护的门槛效應分析[J].系统管理学报,2021,30(2):227-237,252.
[28]何增华,陈升.科技创新政策对创新资源——绩效的跨层调节影响机制[J].科学学与科学技术管理,2020,41(4):19-33.
[29]郭本海,陆文茜,王涵,等.基于关键技术链的新能源汽车产业政策分解及政策效力测度[J].中国人口·资源与环境,2019,29(8):76-86.
[30]何凌云,黎姿,梁宵,等.政府补贴、税收优惠还是低利率贷款?——产业政策对环保产业绿色技术创新的作用比较[J].中国地质大学学报:社会科学版,2020,20(6):42-58.
[31]余长林,杨国歌,杜明月.产业政策与中国数字经济行业技术创新[J].统计研究,2021,38(1):51-64.
[32]Andriosopoulos K,Silvestre S.French Energy Policy:A Gradual Transition[J].Energy Policy,2017,106:376-381.
[33]Blei D M,Ng A Y,Jordan M I,et al.Latent Dirichlet Allocation[J].Journal of Machine Learning Research,2003,(3):993-1022.
[34]Mann G S,Mimno D,McCallum A.Bibliometric Impact Measures Leveraging Topic Analysis[C]//Proceedings of the 6th ACM/IEEE-CS Joint Conference on Digital libraries(JCDL06).IEEE,2006:65-74.
[35]王静,王海龙,丁堃,等.新能源汽车产业政策工具与产业创新需求要素关联分析[J].科学学与科学技术管理,2018,39(5):28-38.
[36]高峰,郭海轩.科技创新政策滞后概念模型研究[J].科技进步与对策,2014,31(10):101-105.
(责任编辑:马 卓)