张玲 恽诚涛 尹思力等
关键词: 科研诚信政策; 主题热点; LDA; TF-IDF; 主题演化
DOI:10.3969 / j.issn.1008-0821.2023.06.011
〔中图分类号〕G322 〔文献标识码〕A 〔文章编号〕1008-0821 (2023) 06-0108-13
我国的科研诚信事件时有发生, 表现较为突出的是2015 年BioMed Central、Springer、SAGE 3 个出版集团对中国学者论文的大规模撤稿, 这在国际上产生了恶劣的影响, 严重损害了我国在科研领域的形象和地位。同年, 科学技术部发布了《科学技术活动违规行为处理暂行規定》。随着科技发展, 又出现了“黄金大米” “换头术” “基因编辑婴儿” 等多起违背科技伦理的事件。2022 年, 中共中央办公厅、国务院办公厅印发了《关于加强科技伦理治理的意见》, 目前已有20 余个国家部门参与制定科研诚信的相关政策。
由于科研诚信的责任主体主要是从事科研活动的各类高校院所、企事业单位和社会组织等, 因此科研诚信问题也激起了学术界的广泛关注。1993—2000 年, 关注点主要集中在学术道德建设上, 但是针对性的治理制度和措施并未出台; 2001—2012年, 研究的关键词主要有“科研腐败” “学术规范”“科学研究” “学术造假” 等, 学者们以案例的形式从反面对问题进行剖析并从正面号召规范的发布与实施; 2013—2020 年, 国家发布一系列加强科研诚信建设的文件, 科研诚信的研究论文也大幅度增加, 特别是在2018 年中共中央办公厅、国务院办公厅印发了《关于进一步加强科研诚信建设的若干意见》之后, 有关科研诚信政策的特征、变迁、演化等综合性学术研究激增。
由此可见, 失信事件的发生推动了政策的发布,而相关政策的出台又进一步引发了以科研诚信为主题的文献发表, 科研诚信政策与科研诚信研究之间体现出相辅相成、互相促进的耦合关系, 因此, 探究二者的关联关系, 有助于厘清科研诚信政策与文献研究的趋势特点, 弥合政策发布与科研诚信问题解决之间的断层, 推进学术生态的良性发展。鉴于此, 本文旨在通过LDA 主题建模与TF-IDF 相似度计算相结合的方法, 从纵向上分阶段剖析政策的导向以及论文的研究热点和趋势, 从横向上发掘科研诚信政策与学术研究之间的演化关系; 理论上提供量化分析政策与文献互动关系的研究方法, 补充和完善不同类型文本间演化的理论框架; 实践上, 对比我国科研诚信的政策与研究现状之间的相关性和发展趋势, 为今后的科研诚信的研究方向以及政策的发布和实施提供建议。
1文献回顾
1.1科研诚信的相关研究
有关科研诚信的研究始于20 世纪80 年代, 主要分为学术层面和科研层面, 涵盖了学术道德、学术不端、学术诚信、学术腐败、科学道德、科研伦理、科技伦理、科研诚信、科研不端等相关研究领域。早在1982 年, 文献中就开始关注了“学术道德” 和“科学道德” 方面的问题[1] , 这两个领域的研究成熟度和关注度均较高; 2000 年开始则围绕“科研诚信” 和“科研不端” 主题展开了相应研究[2] ; 2002 年《伦理学研究》的创刊将科学的研究与应用进行了区分, 指出“科技伦理” 主要存在于科学应用层面, 这部分研究的关注度高但是成熟度欠缺, 将会成为近几年研究的热点和趋势。
对于科研诚信相关政策的研究主要集中在2017—2022 年, 王聪等[3] 系统梳理了政策文本中出现的科研诚信相关概念、特点与问题, 并提出了政策建议。靳彤等[4] 于2018 年运用政策文本计量法和内容分析法, 从时序发展、机构关系、文本依据、具体内容方面进行了量化分析, 指出我国科研诚信建设的问题以及未来的发展方向。2020 年关于科研政策的研究比较集中, 在横向上有关于中外科技伦理法规政策的比较研究[5] 、国内科研政策热点的分析[6] , 在纵向上有近20 年的科研政策量化分析[7] 、科研诚信政策的变迁[8] 及演化[9] 等研究。由以上科研诚信的相关研究可知, 在政策方面的研究逐渐由横切面转向纵向演化分析, 科研诚信领域的研究主题也随着政策的出台而不断发生变化, 但是政策与文献主题之间互动演化的研究较为欠缺。
1.2主题演化的相关研究
目前已有学者在其他领域开展了政策与文献的主题演化研究, 方俊智等[10] 运用共词分析和社会网络分析法构建了政策与文献互动的普适性计量研究框架, 分析了我国PPP 模式政策与文献的互动演化规律。刘璐等[11] 使用Word2Vec 和余弦相似度构建了政策与文献文本的语义匹配度模型, 分析了京津冀协同发展政策与文献的匹配度和热点主题。刘纪达等[12] 基于589 份政策文献的量化分析构建了国防科技工业政策的共词网络, 研究了国防科技工业政策的变迁路径和演进机制。王芳等[13] 使用Word2Vec 和人工扩展词典构建了政策态度自动识别模型和社会组织政策演化动因模型, 探讨了我国社会政策主题与政策态度的演化研究。总体而言,主题演化在政策与文献演化分析中的运用为本文研究奠定了基础, 但在科研诚信领域的研究中要么从政策角度分析政策演化与变迁, 要么从文献角度探讨学术热点, 为了弥补上述不足, 本文采用主题演化分析法构建了科研诚信政策与文献主题互动演化的研究框架。
根据国内外现有研究成果, 关于主题演化分析的方法主要可分为3 类: 基于主题模型的主题演化分析、基于社会网络的主题演化分析和基于词频统计的主题演化分析[14] , 其中最常用的方法是以主题模型为基础的潜在狄利克雷分布(Latent DirichletAllocation, LDA)模型[15] 和基于社会网络的共词分析法[16] 。基于社会网络的共词分析法在建立共词关联矩阵的基础上, 采用节点簇的方式形成主题识别[17] , 然而共词分析法在筛选共词时存在选择的主观性、高频词孤立以及共词“同量不同质” 等问题[10] 。LDA 模型作为一种“语言的统计模型”和非监督机器学习的文本挖掘方法则有效避免了上述问题, 采用贝叶斯概率模型来揭示文本中的潜在结构[18] , 能够识别人类无法识别的重要主题, 允许一词多义即主题可以重叠或聚焦且不必对数据强加解释[19] , 因此在大量文档中挖掘与识别相对集中的潜在主题时效果更佳。此外, 在主题演化研究中首要考虑的问题是时间维度, LDA 主题模型通过融入时间因素建立主题演化模型, 以此来分析主题时序的内容变化、强度变化和主题间的相互作用与影响[20] 。综上, 由于本研究并不是基于单一类型文本的演化研究, 而是针对政策、文献两种不同类型的文本之间的互动演化关系开展研究, 为了减少选择主观性、高频词孤立等问题, 本文基于LDA模型, 结合相似度计算等方法来构建不同时序间的主题关联, 并以桑基图来直观呈现科研诚信政策与文献主题间的互动演化关系。
2研究设计
首先, 本文基于中国政府网、工信部官网、CNKI 科研誠信管理系统以及CNKI 数据库分别对政策文件和研究文献进行文本搜集, 最大范围地选择符合要求的文本内容进行数据采集。然后进行分析的第一阶段, 即利用LDA 主题建模完成文本的主题提取。LDA 主题模型主要用于揭示文本数据中基于现象的结构和扎根的概念关系, 通过对输入的文献标题、摘要或者全文等时序文本进行语义层次的分析计算, 获取隐含的主题及其分布特征, 把握主题发展态势[21] 。最后进行分析的第二阶段,即热点演化与匹配度分析。TF-IDF 模型是常见的文本相似度计算模型, 通过计算文本中每个词项的TF-IDF 值获得每个文本的向量模型, 对于各文本向量利用余弦相似度来确定文本之间的相似性, 进而判断不同文本的关联度[22] 。因此, 本文基于LDA 模型的主题聚类和TF-IDF 模型的相似度计算, 对我国近年来科研诚信的政策文件和学术论文的主题热点及演进进行分析, 并进一步探究二者的互动演化过程。本研究整体框架如图1 所示。
第一阶段是对搜集到的文本进行阶段划分和主题提取。首先将收集到的科研诚信政策按照政策发布时间的先后和发布频率的高低综合性地进行划分,分为3 个特征鲜明的发展时期, 分别是发布时间较早、发布频率较低的萌芽期(1981—2011), 发布时间较近、发布频率适中的发展期(2012—2019), 发布时间最新、发布频率较高的快速发展期(2020—2022), 同时将文献也按照同样的时期进行划分。完成阶段划分后, 利用Python 中Gensim 库LdaModel函数进行主题建模, 提取热点主题, 即首先将政策与文献数据分时期进行分词, 然后使用LDA 主题模型对科研诚信政策的全文内容以及科研诚信论文的摘要内容进行主题挖掘, 再利用Log_Perplexity 方法计算不同主题对应的困惑度数值, 最终确定困惑度最小值, 即最优主题数[14] , 实现主题的提取, 同时得到各个主题对应的主题词, 最后依据主题词, 人工对不同的主题进行描述, 实现主题热点的提取。
第二阶段是对科研诚信的政策文件和学术论文进行相似度计算和主题分析。首先利用Python 中TF-IDF 模型对不同维度主题相似度进行计算, 即先计算政策文件和学术论文文本中各词项的TFIDF值获得文本向量, 然后对于各文本向量计算余弦相似度判断文本间的相似性。完成相似度计算后, 进而进行主题分析, 即首先基于相似度计算结果人工归纳政策文件和学术论文的各自演化路径,并通过相似度的高低判断同一时期政策文件和学术论文不同主题之间的匹配程度, 然后利用桑基图进行可视化表达, 从而对政策与文献主题的匹配程度和相关性进行直观观察, 最后对于科研诚信的政策文件与学术论文各时期主题的互动演化进行分析。
3科研诚信政策与学术文献主题分析
3.1科研诚信政策主题分析
本文采用俞立平等[23] 的政策搜集办法, 主要通过CNKI 科研诚信管理系统、中国政府网和工信部平台等官方网站查找相关政策, 并通过科学技术部科研诚信建设办公室组织编写的《科研诚信建设相关法律法规和文件汇编》来进行查漏补缺,力求做到1981—2022 年科研诚信政策的全覆盖。为了提高文章研究的可信度, 本文剔除了弱相关性政策, 最终筛选出如表1 所示具有研究价值的科研诚信政策文件83 篇。
根据政策发布的时间, 采用EXCEL 进行统计,得到图2, 并根据图中政策发布数量的多少对科研诚信政策的发展进行阶段性划分。1981—2011 年政策发布数量较为稀疏, 大部分年份政策发布数量为1 篇或2 篇, 国家对此认识程度不够, 此30 年间关于科研诚信的政策发布非常少。2012—2019年政策发布数量呈上升趋势, 相较于前一个阶段,政策发布数量逐渐增多, 国家开始意识到科研诚信治理的紧迫性。2020—2022 年政策发布数量呈现急速上升的趋势, 在2020 年达到顶峰。近几年科研不端事件频发, 引起相关部门的高度重视, 截至2022 年4 月13 日就已发布3 篇政策。因此, 对政策的发展阶段可划分为萌芽期(1981—2011), 发展期(2012—2019)和快速发展期(2020—2022)。
3.1.1萌芽期主题
萌芽期共有政策22篇, 根据困惑度确定最佳主题数为4, 如表2 所示。通过对相似主题整合后, 关注到主题热点: 不端行为处理机制、科技评估办法、科技责任、科技不端。此时期的政策主要是通过对科学研究进行评估, 明确科技责任, 进而处理科研中存在的不端行为。
3.1.2发展期主题
发展期共有相关政策34 篇, 根据困惑度确定主题数为10, 如表3 所示。通过对相似主题整合后, 关注到主题热点: 科技政策改革、部门监管、大学教育、信用监管、论文审查、科研项目管理、科研机构改革、学科指导与培训、部门调查和高校科研活动。在此阶段, 政策从多个方面入手, 通过教育、监管、调查和改革等多方面, 对科研失信行为进行防治与管控。
3.1.3快速发展期主题
快速发展期共有相关政策27 篇, 根据困惑度确定主题数为6, 如表4 所示。通过对相似主题整合后, 关注到主题热点: 科研人员规范、违规查处、高校教育改革、企业科技能力、科技成果考核和科技成果价值。除了科研人员的规范、高校改革和违规处理等方面, 政策制定关注到了“企业”这个科研主体, 通过对科技能力和科技成果进行考核, 规范科研主体的行为。
3.1.4政策主题演化分析
对不同阶段科研诚信政策主题进行相似度计算可以揭示其相似性, 相似度大于阈值则判定具有演化关系[24] 。为避免数据过于稀疏, 设定相似度阈值为0.3, 如两阶段主题相似度大于0.3, 则确定为主题间具有演化关系, 且属于同一主题演化路径。本文采用桑基图实现科研诚信政策主题演进的可视化呈现, 如图3所示。
通过对相似度进行计算, 将相似度大于0.3 的路径进行归纳总结, 得出5 条主要演化路径。
1) 论文审查违规处理政策的演化路径
“萌芽期主题1、2、3、4—发展期主题5—快速发展期主题2” 这条路径体现了对科研审查的持续关注。萌芽期时的4 个政策主题在发展期汇聚成了论文审查这个主题, 实现了关注点的聚焦, 并且在快速发展期持续关注违规查处问题。在快速发展期, 有关违规查处的政策有8 篇之多, 针对从事学术论文买卖、代写代投, 以及伪造、虚构、篡改研究数据问题, 对科学技术活动违规行为和学术论著署名问题中的负面行为等进行多方治理, 从各角度提供违规处理办法, 为违规行为的查处提供政策依据。
2) 科研人员行为规范政策的演化路径
“发展期主题1、8、10—快速发展期主题1”这条路径显示了对科研人员行为规范关注的延续性。在发展期, 政策的关注点体现在科技政策改革、学科指导与培训以及高校科研活动, 在快速发展期, 聚合为科研人员规范这个主题。快速发展,中共中央办公厅和国务院办公厅印发《关于加强科技伦理治理的意见》, 强调压实创新主体科技伦理管理主体责任, 发挥科技类社会团体的作用, 引导科技人员自觉遵守科技伦理要求, 在科研人员的行为规范上提出了更加明确的要求。
3) 高校科研诚信教育政策的演化路径
“发展期主题3、7、8—快速发展期主题3”这条路径展示出了对高校的科研诚信行为的重视。在发展期, 政策的主题体现为大学教育、科研机构改革和学科培训与指导。在此期间, 教育部等部门印发了《关于加强和改进新时代师德师风建设的意见》《关于加强新时代教育科学研究工作的意见》《关于全面落实研究生导师立德树人职责的意见》等指导意见, 从学校这个主要的科研主体出发, 提出了关于高校应达到的教育责任, 从源头上切断科研失信行为的产生, 提高学生的诚信意识。快速发展期, 政策主题实现了延续, 关注热点为高校教育改革。多部门联合印发《关于加快新时代研究生教育改革发展的意见》《关于深化新时代教育督导体制机制改革的意见》《普通高等学校本科教育教学审核评估实施方案》等政策, 通过教育改革的方式, 强化對大学生科研行为的监督管理。
4) 企业科研诚信管理政策的演化路径
“发展期主题1、4、9—快速发展期主题4” 体现了对企业这个科研主体的重点关注。发展期的3个主题为科技政策改革、信用监管和部门调查。到了快速发展期演化为企业科技能力这个主题, 实现了对于企业这个科技主体的关注。在《关于进一步压实国家科技计划(专项、基金等)任务承担单位科研作风学风和科研诚信主体责任的通知》中提到“从事科研活动的各类科研院所、高校、企业、社会组织等是科研作风学风和科研诚信建设第一责任主体”。这说明在政策角度上, 将企业作为一个重要的科研主体, 所以对企业的科研诚信行为进行监管是特别必要的, 要确保科研作风学风和科研诚信建设各项要求落实到位。
5) 科研诚信管理部门监管政策的演化路径
“发展期主题9—快速发展期主题2” 显现了对违规行为调查部门的重点关注。在发展期和快速发展期出现了许多的科研失信的大事件。2011 年2月10 日, 科技部通报因严重学术不端撤销李连生2005 年获得的国家科学技术进步奖二等奖, 这是我国第一例因科研不端而撤销国家科技奖励的案例。2013 年, 自然科学基金委对科研不端典型案例查处结果进行了首次公布, 次年颁布了《国家自然科学基金项目科研不端行为处理办法(试行)》。2018 年两办联合印发《关于进一步加强科研诚信建设的若干意见》, 完成了我国科研诚信治理体系的顶层设计。发展期的主题体现为部门调查, 快速发展期的主题体现为违规查处, 这体现了我国对科研违规行为处理的坚定决心。
通过对科研诚信相关政策进行分析可以发现,在萌芽期的视角还比较局限, 主要聚焦在对科技不端行为的处理以及学风建设的方面, 目的是应对日益严峻的学术不端问题。但是相关管理人员并未意识到对不同主体进行责任界定的重要性及通过科研活动监督加强科研诚信管理的必要性。发展期, 视角广泛发散, 相关政策更加精细化, 从政策改革、部门监管、论文审查和高校教育等多个方面入手,多角度全方位地对科研失信行为进行管控并进行制止, 并且注重科研项目管理和信用管理。到了快速发展期, 针对科技研究的主体和成果, 法律规制开始落地, 各项政策开始落实。科研诚信相关政策倾向于从源头及全方面加强科研诚信管理。针对科研人员的科研行为, 政策的关注重点从最开始的“事后处理” 逐渐走向了“事前预防”, 通过加强思想上的教育, 使得有科研失信倾向的科研人员从“不敢做” 到“不会做”, 提高思想上的自觉性, 实现自我规范。
3.2科研诚信学术文献主题分析
本文以CNKI 数据库为数据源, 选取哲学与人文科学、社会科学Ⅰ辑、社会科学Ⅱ辑以及经济与管理科学这4 部分与本研究相关的文献分类目录,检索时间设定为1981—2022 年。采用“主题” 或者“篇关摘” 的检索方式检索关键词, 基于陈雨等[25] 的做法和对文献研究的前期梳理, 选取如下19 个关键词: 科研诚信、学术诚信、科研不端、学术不端、科研失范、学术失范、科研失信、学术失信、科研腐败、学术腐败、科研造假、学术造假、学术抄袭、学术剽窃、科研道德、学术道德、科研伦理、科技伦理、学术伦理, 以期望尽可能全面、系统地了解到我国对科研诚信以及相关研究的现状。
截至2022 年4 月13 日, 经过剔除书评、会谈纪要和综述、征稿通知、讲话笔谈、新闻动态、通讯报道等文献, 并对专家学者的相关文献进行人工补充, 共获得3 611篇有效文献。
根据政策的发展阶段同样对文献的发展阶段进行划分, 划分为萌芽期(1981—2011), 发展期(2012—2019)和快速发展期(2020—2022)。
3.2.1萌芽期主题
萌芽期共有论文1 487篇, 根据困惑度确定最佳主题数为4, 如表5 所示。通过对相似主题整合后得到主题热点: 科研不端法律、高校学术腐败与规范、研究生诚信教育、科技发展问题。
3.2.2发展期主题
发展期共有文献1 604篇, 根据困惑度确定主题数为5, 如表6 所示。通过对相似主题整合后得到主题热点: 论文不端、学术腐败问题、高校大学生诚信建设、研究生教育、科研诚信体系建设。
3.2.4学术文献主题演化分析
采用与3.1. 4相同的相似度计算方法计算科研诚信文献相邻时期的主题相似度, 利用桑基图实现科研诚信文献主题演进的可视化呈现, 如图4 所示。
通过相邻时期的不同主题进行相似度计算, 将相似度大于0 3 的路径进行归纳总结, 得出4 条主要演化路径。
1) 科技伦理问题及治理研究的演化路径
“萌芽期主题2、4—发展期主题2—快速发展期主题1” 体现了对科技发展过程中的问题的重视。萌芽期的研究主题体现为高校学术腐败与学术道德和科技发展中的伦理问题, 发展期持续关注学术腐败, 探讨遏制学术腐败的措施与治理办法, 到了快速发展期则深化为科技发展评价。对于科技发展过程中的问题的关注, 由一开始对腐败问题的研究, 上升为对科技发展的评价, 通过对科技伦理问题进行反思, 深入分析各种科研失信行为的背后成因与逻辑, 为今后构建正确的科技伦理治理体系提供借鉴。
2) 高校诚信教育与建设研究的演化路径
“萌芽期主题2、3—发展期主题3、4—快速发展期主题3、4、5” 这条路径体现了对高校诚信的重点研究。萌芽期的研究主题体现为高校学术腐败与规范和研究生诚信教育, 发展期聚焦为高校大学生诚信建设, 而到了快速发展期, 则演化为高校研究生教育, 通过对研究生的诚信意识和学术能力进行培养和教育, 减少不端行为的发生。高校诚信教育与建设一直是研究的重点, 高校是科研诚信建设的第一责任主体, 也是宣传教育的重要主体, 对于高校的诚信教育与建设进行持续研究具有十分重要的现实意义。科研诚信治理不仅需要教育部门发力, 更应联合多方职能部门通力治理。
3) 科研诚信体系建设研究的演化路径
“萌芽期主题1—發展期主题5—快速发展期主题5” 体现了对科研诚信体系建设的持续研究。萌芽期的关注重点主题是科研不端的相关法律规制与道德要求, 发展期演变为科研诚信体系建设, 到了快速发展期, 将目光聚集在高校诚信体系建设, 对高校科研诚信与学风建设路径进行深入探讨, 研究失信行为的成因与防治机制。科研诚信问题是一个国家迈向科技强国所必须面对的问题, 良好的科研诚信体系可以营造良好的科研环境, 构建科研诚信治理的新局面。
4) 论文不端行为研究的演化路径
“发展期主题1—快速发展期主题2” 体现了对论文不端行为的持续思考与重点关注。发展期与快速发展期的主题均体现为论文不端, 这体现了论文不端问题的严重性。2016 年, “韩春雨撤稿事件” 使得科研诚信问题迎来了一个关注热潮;2017 年, 《肿瘤生物学》期刊集中撤销107 篇中国学者论文, 在学术界引起了不小的震动; 2019 年“翟天临学术门” 引发了社会各界的广泛讨论。论文不端问题一直是学术界的研究热点, 对于学术论文的政策规范也在不断出台。然而, 学术论文并不是科研成果的唯一体现, 科研成果包括论文和专著、自主研发的新产品原型、自主开发的新技术、发明专利、实用新型专利和外观设计专利等多种形式, 学术研究还可以对上述多种科研成果的科研诚信问题进行研究, 弥补研究上的空白, 而不仅仅局限在论文这一种形式上。
总体来看, 文献的研究主题主要聚焦在高校科研诚信教育、科研诚信体系建设和科技伦理治理等方面上, 对于科研诚信的主题主要聚焦在高校, 对于科研成果则聚焦在论文上, 视角相对单一, 研究具有一定的局限性。随着时代的发展, 在快速发展期出现了科技发展评价这一主题, 相比其他主题来说, 科技发展评价更加适应现实发展的需要, 应当加强对这方面的学术研究。
4政策与文献的互动演化分析
对同一阶段科研诚信政策主题与文献主题进行相似度计算, 揭示其相关性, 采用与3.1. 4 相同的方法, 沿用0.3 的相似度阈值, 如同一阶段的阶段主题相似度大于0.3, 则确定为主题间具有匹配关系, 采用桑基图实现科研诚信政策主题与文献主题的可视化呈现。
4.1萌芽期主题
萌芽期政策的4 个政策主题只有一个政策主题有对应的文献主题与之匹配, 即“政策主题3—文献主题4”。此对应关系体现为科技责任与社会科技发展。文献的研究主题对于政策的匹配度较低,具有很强的滞后性, 没有能够对政策所关注的科技不端行为、科技评估办法等主题进行深入探讨与研究, 而是更多将目光放在了高校科研诚信教育与建设的相关问题上。
4.2发展期主题
发展期的10 个政策主题中有4 个政策主题存在对应文献主题与之匹配。即“政策主题3—文献主题3” “政策主题5—文献主题1” “政策主题6—文献主题5” “政策主题9—文献主题1”。政策的大学教育、论文审查、科研项目管理、部门调查4 个主题能够被文献的论文不端、高校大学生诚信建设和科研诚信体系建设较好地对应。文献研究在此期间依然集中在高校科研诚信教育与建设和论文不端行为上, 对于科技监管和改革等缺乏深入研究, 相对于政策仍然具有一定的滞后性。相比于萌芽期, 文献主题在发展期出现了新的研究热点, 即科研诚信体系建设, 这将是未来的重点研究主题,更加适应现实的发展要求。
4.3快速发展期主题
快速发展期的6 个政策主题中有5 个有文献主题与之匹配, 即“政策主题1—文献主题4” “政策主题2—文献主题4” “政策主题3—文献主题3”“政策主题5—文献主题1” “政策主题6—文献主题1”。快速发展期政策主题中的科研人员调查、违规调查、高校教育改革、科技成果考核和科研成果价值能够被文献主题中的研究生不端行为、高校研究生教育和科技发展评价实现较好对应。在快速发展期, 文献研究能够更加适应政策的发展, 滞后性相比前两个时期在不断减小。
文献研究仍然具有一定的局限性, 快速发展期所分析的520 篇论文中, 仅有64 篇归类于科技发展评价主题, 其余456 篇文献均与高校或者论文等主题有关, 研究的重点仍旧集中在高校与论文上,然而文献研究主题中的论文不端和高校诚信体系建设并没有相关政策对应, 主要原因在于科研人员主要来自高校, 相关数据与资料易于获取, 同时高校也是科研失信的重灾区。文献中有关企业科技能力的相关研究处于缺失状态, 而此时期有关企业科技能力的政策有6 篇之多, 可见政策上已经认识到了对企业科技行为进行管控的重要性, 而相关研究却没有跟上政策的发展, 关于企业这个科技主体及其科技能力的研究应是未来的研究重点。
5结论与展望
科研诚信是科技创新的基石, 是科研工作者的基本准则和生命线, 是关系到科学事业存在与发展的根基。近年来的一系列严重违背科研诚信的行为已经引起了社会的广泛关注, 甚至已经引发严重的科研诚信危机。遏制科研不端行为并倡导科研诚信行为, 已经成为我国教育界与科学界的共识。本文通过收集1981—2022年的科研诚信相关政策与研究论文, 利用LDA 主题建模的方式, 对政策与相关论文的热点主题和主题演化进行分析, 通过相似度计算, 利用桑基图呈现不同时期论文研究与政策主题的匹配程度。
本研究发现, 科研诚信政策的制定处于从“事后处理” 走向“事前预防” 的过程, 通过加强思想上的教育, 提高科研人员思想上的自觉性, 实现自我规范。在目前的科研诚信文献研究中, 由于资料易于获取和科研不端事件频发等原因, 科研人员的主要研究對象为高校和论文, 有关企业的科研诚信研究处于贫乏状态。科研人员在未来应当加强对企业方面的研究, 适应政策要求的同时, 也为政策的发布奠定理论基础, 提高社会各界的科研诚信意识,为科技发展营造良好的环境。科研诚信相关论文的发展对于科研诚信政策的发展具有明显的滞后性,但随着时代的发展与研究的进步, 滞后性在不断减弱。
本研究通过LDA 主题建模的方法挖掘了科研诚信政策与文献主题的研究热点, 一方面为政策制定提供依据, 另一方面为论文研究方向提供参考。本文的“主题建模—相似度计算—桑基图呈现”研究方法还可以应用于其他领域, 为研究两类文本之间的主题匹配程度提供了思路与方法。本研究尚存在许多不足: 一是由于早期科研诚信政策发布数量较少, 收集也不尽完善, 对相关政策文本的检索存在疏漏, 在主题识别中会存在覆盖范围较窄、不能充分反映演化规律的问题。二是本研究所选取的文献来源为知网, 仅仅考虑到了中文期刊文献, 未考虑到外文文献, 存在文本来源单一的问题, 一定的局限性。在未来的研究中, 团队会广泛拓展文本来源, 在科研诚信领域进行更为细致的研究, 实现研究领域的充分覆盖, 并实现未来新主题的预测。