秦飞飞, 曹 娟, 钱智勇
(南通大学 图书馆, 江苏 南通 226019)
【学术评论】
近20年我国学术诚信研究社会网络分析
秦飞飞, 曹 娟, 钱智勇
(南通大学 图书馆, 江苏 南通 226019)
我国学术诚信研究起始于20世纪80年代初,21世纪以后越来越受到广大研究学者的关注。为了全面了解我国学术诚信、学术规范研究,为相关研究人员提供便利,本文基于CNKI文献检索,采用社会网络分析方法,对学术诚信研究文献题录中的多种指标关系数据进行计量分析,通过高频关键词共现网络、关键词中心节点网络、关键词相似共现矩阵、作者逐年统计频率矩阵网络分析,构建不同维度的知识图谱,发现研究热点倾向。数据统计分析表明,我国学术诚信研究将呈现内容多元化、机构多样化以及检测机制智能化发展趋势。
学术诚信;学术不端;学术规范;学术道德;社会网络分析;发展趋势
国内关于学术诚信的研究,始于20世纪80年代。于侃《科研机构的特色与拳头》[1]以及梁学章的《一个需要引起注意的问题——学术道德问题》[2]这两篇文章明确指出,盲目、非必要地复制别人的劳动成果必将导致学术界的研究成果失去价值。“学术规范”一词最早出现在1997年,“学术道德”一词最早在1998年出现3次,“学术诚信”一词最早出现在2002年, “学术不端”一词最早出现在2003年。祖明远通过研究2001年—2006年教育部发布的各类文章,得出2000—2002年关于“学术腐败”和“学术道德”论文数有较大幅度增长,而2004年前后关于“学术诚信”“学术规范”的论文数量明显上升,其他方面关注度下降,但在2006年,“学术腐败”和“学术道德”的论文数量又相应增长[3]。为了全面统计与分析近20年我国学术诚信研究文献的主要内容和发展脉络,本文基于CNKI全文数据库检索,以学术诚信、学术不端、学术道德、学术规范等为关键词进行检索,从11 619篇检索记录中选取4 887篇题录导出,并利用统计分析工具和可视化软件进行矩阵计算、聚类分析和多种关键词共现网络知识图谱呈现,分析得出我国学术诚信研究的热点和发展趋势。
在CNKI中国知识网络文献数据出版总库中,采用高级检索方式,以关键词为检索项,分别以“学术诚信”“学术不端”“学术规范”“学术道德”等为关键词,进行逻辑“或”组合检索,检索起讫时间为1997年1月1日至2017年4月17日,精确检索到相关文献共11 619篇,分别按照被引和下载排序,导出6 000篇。将这12 000篇题录以.net格式导入NoteExpress,先去除重复文献,再进行过滤器筛选处理,最终得到关于学术诚信研究文献4 887篇,其中有4 664篇期刊文章、192篇学位论文、28篇报纸文章以及3篇会议记录。笔者对上述文献发表的年代分布、期刊分布、主题、关键词等进行了基于社会网络分析的文献计量分析。
社会网络分析法最初是在人类学家拉德克里夫-布朗对结构的关注下产生的,20世纪30到70年代,越来越受到社会学家的关注,近期的关注度增长体现在人们逐渐关注和重视“网络化”的快速发展。[4]6社会网络分析指对合著网络的整体网络特性、中心性、核心—边缘结构、平均路径长度和直径、聚类系数、网络密度、度和度分布等网络特征参数进行计算和分析,以及小世界和无标度特性的判断(社会学家根据数学方法、图论等发展起来的定量分析方法)。技术性的研究方法使用到信息手段以及数学语言来刻画社会生活中的“织构”和“网络”。这种分析方法适于分析数据关系和属性,以定性测度直观显示能动者之间的关系,并通过收集和分析关系数据来探究结构[5]。
以社会网络分析法中的变量分析法分析学术诚信研究的大量文献关系数据,可以直观、形象、多角度地揭示近20年学者对学术诚信建设的关注度、研究热点、成果以及不足,并且利用可视化分析工具更好地理解和把握学术诚信的演化机制,从而为后续研究提出合理建议。目前社会网络分析软件种类繁多,适用的对象和研究方法也各异。本文采用常用的Ucinet软件进行分析。将选取到的4 887篇文章以引文格式导入NoteExpress软件,进行过滤筛选,再导出成文献信息统计分析工具SATI的专用格式xml。通过分析知识单元间的共现关系和频率分布情况,生成txt格式的全矩阵和Excel格式的数据共现矩阵。然后将矩阵文档以##h格式导入数据可视化分析软件Ucinet进行图形生成,得到共现知识网络图谱。
1.NoteExpress。这是一款多语言版的通用参考文献管理软件,具有较高的文献管理效率以及一些独特的辅助功效[6]。可以通过过滤器导入法实现参考文献的批量导入,筛选出所需要的题录。
2.文献计量分析软件SATI。本文主要用到的研究工具是浙江大学信息管理系刘启元以.net平台研究开发的文献题录信息统计工具SATI(Statistical Analysis Toolkit for lnformetrics)。该软件可以从Wos、知网、万方、维普等期刊全文数据库中导入EndNote、NoteExpress、Notefirst三种格式的题录数据,以专用数据文件xml格式进行预处理,得到关键词、主题词、作者、机构、引文、标题、摘要、发表年月等条目字段,然后通过字段抽取以及频次统计文档生成词条共现矩阵、频率分布矩阵以及文档词条矩阵三种矩阵。最后将这三种矩阵输入统计分析可视化软件Ucinet、SPSS等,得到以关键词为结点,以共现关系为连线的数据网络知识图谱[7]。
3. Ucinet。Ucinet是加州大学欧文分校的网络分析者研究开发的。这个软件包含基本的图论概念、位置分析和多维量表分析,可以从凝聚性、中心度和权力、子群、角色和位置等角度执行多维量表分析、聚类分析、因子分析、对应分析等,不仅可以实现数据的社会网络分析程序转换,而且可以提供独立的NetDraw程序,从而实现对社会网络关联测度的分析与评价。
将得到的4 887条题录以NoteExpress导出为text文件,在SATI中选择单文件,把文件导入SATI,将文件格式选为NoteExpress格式,然后转换形成SATI专用的xml格式文件,并且形成SATI中的一个大的数据表,选择选项中的关键词条目,点击字段抽取,就会形成关键词部分的一个大集合,继续点击频次统计,自动统计出每个关键词的出现频次,并且按照次数降序排列,一共得到8 787个关键词的频次,其中学术不端频次最高,为1 246次,其次为学术道德997次,第三是学术规范558次。截取前20个高频词如表1所示。
表1 关键词矩阵字段高频部分
词频与聚类分析的结果可以采用社会网络分析的方法加以验证。词条共现相似矩阵采用Equivalence系数[8],见式(1)。将统计共现频次的多值矩阵转化为元素值在[0,1]区间的相似矩阵,其中每个数字代表矩阵元素间的相似性,数值越大,关联性越强。
(1)
其中Eij为相似矩阵元素的值,对于词条Ti和Tj,Fij为Ti与Tj的共同出现次数,Fi为Ti出现的总频次,Fj为Tj出现的总频次。
在矩阵一栏中选择关键词频率共现矩阵,SATI便会通过式(1)的计算得到Excel格式的100行100列对称矩阵。该矩阵的一部分如表2所示。将共现频率大于等于0.01的数据用红色显示,例如“学术不端”“检测系统”两个关键词的共现频率为0.215 1, “美国”和“启示”的共现频率为0.041 9,“科技期刊”“检测系统”两个关键词的共现频率为0.385 7,为非1元中的最大值,表明学术诚信领域向科技检测的方向发展并逐渐深入。
表2 关键词共现矩阵(部分)
将这个100行100列的矩阵用Ucinet打开并转换成Netdraw需要的.##h格式,绘制成网络图谱,如图1。
图1 1997—2017年学术诚信研究高频关键词共现网络
从图1可以看出,关键词作为图中的方块点,也可称为结点,结点的位置显示该词的核心程度,结点位置越居中表明该关键词越“核心”。学术不端处于中国学术诚信研究高频关键词共现网络的中心位置,是网络中的核心结点。结点与结点之间的连线反映了关键词之间的共现关联,其中“科技期刊”与“检测系统”之间的连线最粗,说明两者的关联性最大。线的密集程度反映了关键词之间的联系密度,左边关键词之间的连线比右边更密集。一个图的密度定义为图中实际拥有的连线数于最多可能拥有的线数之比[9],如式(2)所示:
(2)
其中D表示整个图的密度,l表示图中实际拥有的线数,n表示整个图的结点个数,该数值结果在区间[0,1]之内。在NetDraw中,选择子群菜单,通过派系生成,最大的完全子图默认值为2,speed的结果为498,quality的结果为-0.411,说明该图的密度为0.578。
图2 关键词K-核分析网络图
在NetDraw的analysis一栏中进行K-核分析[10],将所有关键词按照颜色分为不同词群,“研究生教育”“学术”“学风建设”“学位论文”等词成为学术诚信研究的核心词群,以这几个词为中心,学者分别从“大学”“高校教师”“失范问题”等角度研究,与共词分析结果相似,K-核分析主要集中于学风建设、高校管理、学术研究等领域。
2014年是发文量最多的一年,因此对这一年的关键词分布研究可以洞察研究的核心领域以及趋势变化。由式(1)的公式计算可以得到2014年关键词共现频率矩阵,如表3所示。
表3 2014年关键词共现矩阵(部分)
从表3可以看出,“科技期刊”与“检测系统”仍然是2014年关键词共现矩阵中共现频率最高的两个关键词,频率大小为0.361 8。“学术不端”与“检测系统”的共现频率为0.242,“学术不端”与“科技期刊”的共现频率为0.134 5。
将这个矩阵导入Ucinet中,先转化为##h.格式,然后经过可视化生成图3所示的网络图。
从图3可以看出,“检测系统”处于2014年学术诚信研究的中心位置,是图3中最重要的结点,“科技期刊”与“检测系统”的连线最粗,说明两者关联性最大,也表明了检测系统与科技期刊研究的核心地位,这也与表3矩阵中的概率数量相符。
通过k-核分析,关键词中出现的新兴核心词有“稿件质量”“审稿检测”“检测系统”“AMLC”等审核文献重合度的数据库软件,以便对抄袭剽窃的文献进行排查。说明2014年学术诚信研究以学术不端检测为核心,学术诚信的研究内容趋于技术层面。AMLC是CNKI科研诚信管理系统研究中心开发的科技期刊学术不端文献检测系统,在学术出版编辑领域应用广泛。
图3 2014年关键词共现网络图
图4 2014年关键词K-核分析网络图
文献的数量反映了该学科领域的研究水平和发展程度。对4 887篇文章进行统计后,将1997年至2017年学术诚信研究论文发表的数绘制成折线图5,该图形象地显示了研究的发展变化趋势。本研究将这20年的学术诚信研究分为起步期(1997—2000)、增长期(2001—2011)、蓬勃发展期(2012—2017)三个阶段。2000年以前,每年的数量均小于30篇。2000年开始突破30篇,特别是2002年教育部发布《关于加强学术道德建设的若干意见》及中国科学院党组委会议审核通过《中国社会科学院关于加强学风建设的决定》以后,论文数量开始有大幅度的增长。2012年《教育部关于进一步规范高校科研行为意见》、新闻出版总署《关于进一步加强学术著作出版规范的通知》出台之后,论文数量大幅度增长。2014年是该类研究论文数量最多的一年,达到高潮。2014年之后虽有一定程度的下降,但仍然保持在600篇左右,可见近几年诚信建设仍受到重视。
图5 研究文章篇数年变化图
将选取的4 887篇文献利用SATI软件的词频统计功能统计期刊与机构信息,发现一共来源于1 574种期刊,涉及3 337个发文机构。筛掉低频次来源以及地址后,得到表4,即载文量20篇及以上期刊和发文量5篇及以上机构。
表4 高频期刊以及机构表
从中可以发现,学术诚信研究主要受到教育科学、图书情报及图文编辑等领域的关注。学术诚信研究领地的多样化以及研究团队的不断壮大,使得学术诚信研究的水平不断提高。对载文数最多的《编辑学报》进行逐年统计,可得到表5。从表5可以看出,《编辑学报》在2013年关于学术诚信的发文最多,并且主要集中在2014年左右,这与近20年研究文章篇数变化图基本吻合。
表5 《编辑学报》逐年发文量
在学术诚信研究的蓬勃发展时期,《中外医学研究》编辑部发表了102篇关于使用科技期刊学术不端文献系统的检测通知[11]。刘丽于2014年在《哈尔滨职业技术学院学报》发表的《学术期刊利用先进技术防范学术不端行为的思考》指出,学术不端文献检测系统(AMLC)开辟了采用技术手段防范学术不端的新方法[12]。中国石油大学的刘阳在《浅谈国内外大学生诚信教育机制的比较》一文中表示,大学生的诚信教育现在已经成为国家的热点问题,中国对于现阶段大学生出现的诚信缺失现象的思考,要以借鉴国外成功经验为基础,提高大学生的整体素质[13]。这三个研究热点机构都是抓住学术诚信发展蓬勃时期的技术资源,对学术诚信研究提出新的认识的。
对于统计学术诚信研究者的分析,有利于了解研究群体的分布特点。通过数据统计软件SATI进行统计,在形成的数据表中抽取作者字段,得到3 656个作者发文量的统计数据,如表6所示。
表6 作者发文量(部分)
在SATI矩阵一栏中选择逐年频次统计矩阵,点击矩阵生成,产生一个100行100列、元素取值范围在[0,1]的作者逐年频率分布矩阵,频率分布矩阵中元素的值为该作者在某年出现的频次,频率计算服从如下式(3),为作者在某年的出现频次与当年所有作者出现频次总和的比值:
(3)
其中,Rij为频率分布矩阵元素的值,Fij为第i个词条在第j年的频次,Fkj为第k个词条在第j年的频次,共有n个词条。
表7 作者逐年频次统计矩阵(部分)
从作者逐年分布矩阵中可以看出,江新华在2002、2003、2004连续三年发表了关于学术诚信的论文,对学术道德失范的研究以及美国学术剽窃行为的研究发表近30篇文献,其中2002年所发表的文章占比最大,为0.0 24 4。许家林、蔡际洲、李春梅、赵沁平、常思敏、顾海兵6人均出现过连续两年发文。在逐年频次矩阵中,刘芳和蔡际洲在2001年发文所占比重均为最大,是0.0 34 5。从对作者的考察看,杨玉圣发文的高频年份数最多,于1998、2002、2004和2006四年均发表了高频数论文。
再把该作者逐年频率分布矩阵在Ucinet中打开,转换成##h格式,用Ucinet自带的NetDraw软件打开,得到图6所示的作者逐年统计频次网络图。
图6 作者逐年统计频次网络图
图6是一张有向图,图中所有的方格结点表示年份,圆形结点表示作者,有连线的结点表示两者具有关联性。线的箭头指向表示某个作者在某一年发表过论文,每条线上显示的数字表示线的权重,体现了线两端结点的关联程度,与矩阵中的概率大小相对应。右半部分的连线更密集,反映了蓬勃发展期的年份以及核心作者之间的对应。指向该点的点数总和表示该点的点入度,该点直接指向其他点的总数表示点出度。由该图可以着重研究每个作者结点的点出度以及年份结点的点入度。图中的三个孤立点年份并不表示没有作者提供文献来源,只是不在所选取的范围之内。
近20年国内学术诚信的研究的核心词汇是“学术不端”“学术规范”“学术道德”等,这体现了研究内容的集中性。在起步期,主要集中于对学风建设的研究,对抄袭等学术不端现象的分析,强调学术规范要求。在增长期,研究热点主要是对研究生学术诚信的研究,并且出现对于学术出版编辑的技术研究,只是这个阶段对于论文的鉴别水平处于初步阶段。随着学术腐败以及不良行为的增多,研究热点趋向于学术不端成因以及治理路径的研究,研究如何做到规范学术行为。在蓬勃发展期,不仅出现了从哲学角度审视学术研究的文章,还把规避学术失范行为的方法技术化,三大文献检测系统的建立,以文字复制率检测为学术不端领域的主要指标,并且还将不断扩大。这期间,学术诚信法律制度进一步加强,但是研究领域仍主要集中于编辑、高校研究、图书馆情报领域等。学术诚信研究的作者比较分散,论文合作者人次较少。发表论文超过10篇的作者有2人次,5篇以上的作者有17人次,3篇以上的82人次,其中合作者有30篇76人次。起步时期基本上都是独立作者,作者单位都是大学或者研究所。增长期,逐渐出现合作发文现象,作者单位也逐步出现教育部门、编辑部、图书馆、新闻等,但是主要研究人员来自大学和研究所。蓬勃期,教育部门以及编辑部出现大量研究者,对于学术诚信的法律规范以及文献检测系统的应用的探讨进一步深入。域外研究以介绍为主,比较单向,中外学术诚信分析比较的研究内容有待深入。
研究期刊在起步阶段以研究性的学报为主,内容大多是对学术抄袭的批评以及对学术界违反诚信失范行为的初步警惕。增长期的阶段性标志是:教育部于2001年印发《全国普通高等学校人文社会科学研究“十五”规划纲要》,2002年发布《关于加强学术道德建设的若干意见》,以及中国社会科学院发布《关于加强学风建设的决定》,2003年科技部发布《关于改进科学技术评价工作的决定》,2004年清华大学发布 《教师学术道德守则(试行)》,同年教育部出台《高等学校哲学社会科学研究学术规范(试行)》。这一系列政策制度的出台,体现了学者对于学术诚信政策的细致研究以及行政部门与单位对学术腐败行为的整饬力度。
总体来说,近20年,对学术诚信的研究有以下几个特点:(1)研究内容呈现多元化趋势,研究的范围不断深入,涉及社会各方面的学科领域,不仅仅在高校有研究团队,也有政府以及社会多种机构参加。(2)合作者今后将会增多,有可能出现更多作者合作、机构合作以及域外合作和跨学科研究。(3)政府的法律政策会更完善,也将投入更多基金支持。(4)研究水平将会向技术层面发展,人工智能技术、语义分析技术以及文本数据挖掘技术将会被研究者普遍应用到学术诚信研究领域。检测系统不能仅仅基于查重要求,要逐步注重文本化、语义内容化,并且涉及实验数据检测、专利检测、教学在线检测等多方面检测。同时需要借助数字化智能化技术与手段,深入探索学术不端行为的有效制约机制。
[1] 于侃.科研机构的特色与拳头[J].科技管理研究,1982(1):8-9.
[2] 梁学章,本刊编辑部.一个需要引起注意的问题——学术道德问题[J].数学研究与评论,1982(2):68.
[3] 祖明远.2000年以来学术规范研究综述[J].新闻世界,2010(5):142-143.
[4] 约翰·斯科特(John Scott).社会网络分析法[M].重庆:重庆大学出版社,2016.
[5] 刘军.QAP:测量“关系”之间关系的一种方法[J].社会,2007(4):164-174.
[6] 罗红燕,陈绍兰.利用NoteExpress建立专题文献数据库的方法与技巧[J].西南师范大学学报(自然科学版),2009(6).
[7] 陈瑜林.我国教育技术学者合著网络知识图谱构建研究[J].远程教育杂志,2012(6):11-17.
[8] Ferraro,M,Foster,DH.Almost Equivalence of Combinatorial and Distance Porcesses for Discrimination in Multelement Images 2[J].Scientometrics,1991,64(4):315-319.
[9] 禹文豪,艾廷华.核密度估计法支持下的网络空间POI点可视化与分析[J].测绘学报,2015(1):82-90.
[10] 宗刚,赵晓东.基于K-核分析的中国啤酒品牌二分网络结构研究[J].北京工业大学学报,2013(6):936-940.
[11] 关于使用科技期刊学术不端文献检测系统的通知[J].中外医学研究,2014(24):2.
[12] 刘丽.学术期刊利用先进技术防范学术不端行为的思考[J].哈尔滨职业技术学院学报,2014(2):147-149.
[13] 刘阳.浅谈国内外大学生诚信教育机制的比较[J].经济研究导刊,2012(33):315-316.
G252
A
1007-8444(2017)06-0627-09
2017-08-22
2014年度江苏高校哲学社会科学基金资助项目“高校图书馆学术诚信教育职能及实现研究”(2014SJB622) 。
秦飞飞,副研究馆员,主要从事信息组织研究。
张超