社交媒体环境下公众对科研诚信的认知与评价
——以知乎问答社区为例

2022-08-10 01:47王琳江雨薇
图书情报知识 2022年3期
关键词:词频不端诚信

王琳 江雨薇

(1.杭州电子科技大学中国科教评价研究院,杭州,310018;2.中国农业大学文献情报中心,北京,100083)

1 引言

当前,在科学繁荣发展和科研环境不断改善的良好势头背后,作为科技创新基石的科研诚信却时有问题发生,引发各界关注。美国伯尔曼的数据伪造事件[1]、日本理化研究所小保方晴子的论文撤稿事件[2]、韩国首尔大学的黄禹锡事件[3]、中国工程院院士李连达团队的科研论文造假事件[4]等学术丑闻将科研诚信的治理推到幕前,防治科研不端成为学界、政界和公众共同关注的焦点。科研活动的进行是一个动态的过程,科研诚信问题可能出现在这个过程中的任何一个环节中,因此,我们需要全方位、多角度、全过程地对科研诚信问题进行治理。

目前,政界和学界通常采用“违背科研道德”“违背学术道德”等负面词语定义科研诚信[5-8]。2019年10月,科技部等发布的《科研诚信案件调查处理规则(试行)》中将科研不端行为定义为个人学术信息造假、剽窃科研成果、伪造实验数据、人体研究中侵犯隐私权或知情同意权、违反实验动物保护规范等违反科学共同体公认的科研行为准则的行为。中共中央办公厅、国务院办公厅印发的《关于进一步加强科研诚信建设的若干意见》和《关于进一步弘扬科学家精神加强作风和学风建设的意见》更是从顶层对科研诚信治理提出了制度设计。当前,学术界、政界对于科研诚信定义及治理政策等学术视角下的研究已经较为成熟,但从公众视角下运用量化方法和实证方法探究其对科研诚信态度和看法的相关研究却十分缺乏。国家发展改革委、科技部等41个部门和单位于2018年11月联合颁布的《关于对科研领域相关失信责任主体实施联合惩戒的合作备忘录》中强调,将科研诚信建设纳入“社会信用体系”,把防治科研不端与社会及公众紧密相连,凸显了公众参与科研诚信治理的重要性。鉴于此,本文以知乎平台为例,运用共词分析和文本情感分类等方法,探究社交媒体环境下公众对科研诚信的认知和评价,为科学知识的有效传播,加强公众对科研的信任,充分发挥公共媒体、社会舆论对科研的宣传和监督作用提供一定参考,并基于研究结果提出公众视角下我国科研诚信治理和建设的路径。

2 文献综述

当前,已有学者对科研人员和学生等群体的科研诚信认知进行了研究。王爽等人运用问卷调查法探究了医学科研人员的科研伦理认知,研究结果表明科研人员对科技伦理的主动性及规范化的实施性有待进一步加强[9];基于以上研究,何光喜等人进一步分析了我国医学科研人员对科研伦理的态度。他们发现医学科研人员的客观知识水平不容乐观,而且正规化培训渠道不足,此外,大多数人对遵从科研伦理规范持积极态度,但也有部分人持消极态度,认为违反科研诚信的现象时常发生[10]。与赵延东等人在2012年的研究相比[11],科研人员对科研道德和学术规范的认知程度显著提高,对遵从科研诚信规范的态度也有了积极转变。除了科研人员之外,李睿婕等人以博士生为研究对象,探讨了他们对学术不端行为的态度、评价及变化趋势,研究发现,相比于2007年和2016年,我国博士生对学术不端行为的容忍度明显降低[12]。此外,有学者提出了“公众评议”的概念,它主要是指公众对科研工作者的职业道德、科学研究带来的社会影响,科学研究本身的一些方法和结论及科研体制、权力干预等科学研究的外部因素等进行评议[13]。它和“专家评议”“同行评议”的区别在于其评议主体是公众,且是一种借助公众舆论力量的非制度化参与方式。公众参与科研评议有利于监督科研的“价值”,厘清科研的“事实”,改变科研的“治理机制”[14]。Smolak等人的研究发现亚洲公众对科研伦理的关注度较低且与教育程度呈正相关,该研究强调了从社会视角探究伦理在科学研究中的重要性[15]。

随着移动互联网技术的迅猛发展和智能手机的大力普及,舆论对于科研诚信问题的敏感性逐步上升,舆论中呈现出明显的公众集群现象和负面情感倾向。因此,大量学者利用情感分析和自然语言处理等方法对网络舆情进行了较为深入的研究。例如针对“雪乡事件”“石首事件”等,研究人员基于不同社交媒体平台,对公众评论中的情感态势进行了探究[16-17]。还有学者构建了公众群体的负面情绪模型,为网络舆情演变过程中不同政府响应措施下公众群体行为决策规范的探究和预测提供了参考[18]。

综上所述,政界、学界对于科研诚信的认知与评价研究都已经相对成熟。随着网络平台的不断发展,公众也对科研诚信这一话题越来越敏感,政策关注度和舆论关注度也在逐渐上升。目前,已有研究对学生、科研人员等群体的科研诚信认知和网络舆情中公众的情感态势进行分析,但鲜有研究基于公众视角对科研诚信的认知和评价进行探究。许多研究表明,公众参与科学研究的意愿越来越强烈[19-21],而科研诚信是科学研究的基础。因此,探究公众对科研诚信的认知与评价对科学知识的传播和科研诚信的治理具有重要意义。

3 研究设计

本文首先以“学风建设”“科研诚信”等为主题检索的关键词在知乎平台上获取实验数据,然后通过使用Python软件编写代码爬取知乎问答社区中主题和科研诚信一致的所有问题和回答,再基于停用词表,使用pkuseg分词对爬取到的回答进行中文文本分词,最后将分词后的结果存入文件中进行共词分析和文本情感分类。本研究的研究框架如图1所示。

图1 研究框架Fig.1 Research Framework

在文本预处理阶段,结合哈工大停用词、百度停用词等词库过滤掉停用的词语,使用pkuseg预设的网络用语词典对过滤后的数据进行分词处理,pkuseg提供了不同领域的训练模型,它的简单易用和领域细分的特性有效提高了分词的准确度。剔除掉形容词、介词等无意义的词语,以减少无关词语的影响。最终,基于词义对词汇进行规范化处理得到分词结果。

在使用SVM进行文本情感分类的过程中,由于计算机无法直接识别字符串,需要将其转换为数字表示的向量形式。本文用TF-TDF(词频-逆向文件频率)来提取关键词和计算关键词的权重,它可以通过筛选掉经常使用的词语从而留下有价值的词语。为了更好地解决传统文本情感分类中只有正向、负向及中性的三分类问题,本文根据肖乐等人提出的基于情感词典的七分类文本情感分析,将文本情感分为乐、好、怒、哀、惧、厌恶、惊及中性等八类[22]。

共词分析是一种成熟的科学计量方法,它能够改善传统文本挖掘方法中无法显示词语之间关联的缺点,建立词与词之间的共现关系,客观清晰地映射出词与词之间的紧密程度及它们所表示的文本主题之间的关系[23]。词之间的频数是基于共词矩阵体现的,而它们之间的紧密程度则是基于共词网络图中不同距离的节点来体现的[24]。在形成共词矩阵之后,采用ucinet软件生成共词网络图并进行可视化呈现。

4 研究结果与讨论

4.1 分词结果

以知乎学术平台为例,在对文献进行仔细研读后确定了“学风建设”“科研诚信”“学术不端”“抄袭”“造假”“科研不端”“学术道德”“篡改”“剽窃”“一稿多发”10个关键词作为科研诚信检索的主题词,对每个关键词下的主题内容进行人工判断和筛选,剔除掉与“科研诚信”主题无关的问题。截至2021年2月21日,笔者一共爬取了知乎平台问答社区中140个相关主题下的20,518条回答,使用pkuseg对过滤清洗后的知乎文本进行分词并统计词频。结果显示,“论文”在知乎文本中出现5,631次,词频达到1.05%,位于首位;“造假”“实验”“重复”“院士”等词也出现较多,词频均超过0.5%;“饶毅”“举报”“调查”“裴钢”等也是公众评论中较常出现的词语,出现频率均在1,000次左右;相比于“造假”“重复”等常见的科研不端行为,“抄袭”出现的频率则较低,共出现653次,词频为0.12%;“翟天临事件”虽然已经过去了一年左右,但是随着其他科研不端事件的爆出,“翟天临”“毕业论文”等相关词语又重新活跃在公众认知与评价中。

4.2 共词分析

基于词频统计表,剔除掉无实际意义且与本研究相关的主题词,如“简单”“估计”“不用”“科研”“学术”“科研诚信”等。根据普赖斯定律,本研究取前66个高频词进行共词分析,设定阈值为6并进行聚类分析,得到共词网络图(见图2)。分析发现,公众主要关注科研不端行为、科研不端举报调查、科研不端预防监督及科研诚信教育四个方面的科研诚信问题。

图2 共词网络图Fig.2 Co-word Network Diagram

(1)科研不端行为:该类团中的词语包括“论文”“院士”“造假”“实验”“教授”等,它们出现在共词网络图的中心位置且节点较大。“实验”与“造假”、“数据”与“重复”这四个词语两两之间的关联性很强,结合爬取出来的评论可以发现,“实验不可重复”和“数据造假”是公众认知中科研不端行为的两种常见表述。从中央和各部委颁布的文件来看,“抄袭”“剽窃”“造假”等是科研不端行为的表现形式。公众在知乎平台上的评论中反复地使用“实验”“造假”“数据”和“重复”这四个词语来进行表达,表明公众对科研不端行为的表现形式虽然有一定的认知,但是了解得不够深入。

(2)科研不端举报调查:该类团中的词语包括“饶毅”“院士”“教授”“举报”“调查”“委员会”等。“饶毅举报院士学术造假”等话题掀起了舆论的高度关注,图中显示上述词语出现频率较高且有着紧密联系。结合公众评论,可以发现大部分公众对教授和院士等科研人员抱有较高的期望,认为他们可能更注重学术诚信相关规范的遵守以及更倾向于对不端案例进行举报。信任是公众理解科学的基础,也是科学研究和科学知识传播的基础,当科研不端行为的案例被公开时,大部分公众仍然会选择相信科研工作者并肯定他们对科学研究的贡献和对社会的积极影响[25]。同时,公众对学术委员会、学术道德委员会等相关机构的调查处理过程和结果也十分关注。

(3)科研不端预防监督:该类团中的词语包括“学校”“学生”“毕业”“老师”“成果”等。2019年2月“翟天临事件”之后,教育部进一步规范了对全国高校毕业生学位论文质量的控制,对学术不端行为给予了高度重视。随着其他科研不端事件的出现,本科、硕士、博士学位论文的规范又一次引起公众讨论。“学校”“老师”“学生”出现频次较高且存在一定程度的联系,学校和教师在科研诚信的预防和监督过程中起着较大作用,学校一系列科研诚信政策的出台对科研不端行为起着警示作用。还有研究表明,当教师缺乏监督导致其学生的不当行为时,教师将承担连带责任并受到惩罚[26]。

(4)科研诚信教育:该类团中的词语包括“教育”“陈铭”“北大”“孩子”等。近些年我国科研诚信建设取得了一定成效,但主要侧重事后管理,忽略了事前对科研诚信的教育和防治管理[27]。科研诚信教育是预防和治理科研不端行为的重要途径,然而该主题下关键词的词频较低,从一定程度上说明公众视角下科研诚信教育也没有得到足够的重视。因此,无论是对政界、学界还是公众,科研诚信教育宣传及工作均有待加强完善。

4.3 文本情感分析

本文首先抽取了10%的文本,即2,002条回答,进行了人工标注作为训练集。参加标注的人员一共有三位,除了本文的两位作者之外,还邀请了一位具有图书情报背景的专业人员。三人分别对训练集进行情感倾向标注,然后从三组标注中选取最多的情感倾向赋予每条评论,文本情感分类结果如下图3所示,标注依据及示例如表1所示。将所有的知乎文本输入到分类器中得到每条回答的文本情感分类,分类后的结果如表2所示。为了对文本情感进行进一步探究,笔者对每一类情感下的文本做了词频分析,将不同情感文本下的词与共词分析中的高频词进行匹配,从而对共词分析中的高频词赋予不同的情感,形成如图4所示的共词网络图。若高频词同时出现在两个或两个以上情感文本中,则累积情感。

表1 人工标注依据示例Table 1 Examples of the Basis for Manual Annotation

图3 人工标注结果Fig.3 Artificial Marker Sample

观察表2可以发现:情绪“哀”的占比高达63.67%,其次是“厌恶”(占33.10%),再次是“怒”(占1.66%),后面依次是中性、“好”“惊”“惧”“乐”等情绪,这五类情绪的占比都较少。“哀”“厌恶”“怒”等负面情绪的占比高达98.43%,表明大部分公众对科研不端行为持反对态度。白新文等人的研究结果显示我国科研工作人员不管在何种归因下对科研不端行为均持反对态度,这表明无论是科研工作者还是普通公众,都是极力反对科研不端行为的[28]。

表2 文本情感分类Table 2 Text Sentiment Classification

由图4和每类情感下的词频分析可以看出,“论文”是出现频率最高的词汇,它在情绪“哀”“惧”“怒”中的词频较高,表明公众对现阶段论文中科研诚信的问题主要呈现出悲哀和畏惧的情绪,一方面是对我国科研诚信的建设成果表示失望,另一方面是对我国未来科研诚信的发展表示不确定;“造假”和“实验”两个词在各种情绪中的词频由高到低依次是“怒”“厌恶”“哀”,与此同时,“数据”“重复”和“抄袭”在“怒”情绪中的词频也是最高的,表明公众对实验不可重复、数据造假和抄袭等科研不端行为感到十分愤怒。“怒”还体现在“图片”“误用”等表述上,结合爬取的数据,可以看出公众对中科院科研道德委员会公布的图片误用调查结果非常不满意。此外,有相当一部分公众对科研失信案例调查的公开程度表示失望,强烈要求科技部等政府相关部门公开科研不端案例的详细调查过程及惩罚措施,这也是图4中“调查”和“公开”两个词语表现出“怒”和“哀”情绪的原因;与“翟天临”一词不同,公众对“曹雪涛”这一词语表现出更多“惊”的情绪且“院士”“教授”这两个词语在“怒”中的词频最高,说明公众对非科研人员学术不端行为更多地表现出厌恶的情绪,而认为“院士”“教授”等高层次科研人员不应该出现学术不端行为,因此呈现出惊讶和愤怒的情绪。国内外的研究表明,公众通常对科学家给予了高度的信任[27],赵延东等人在对新冠肺炎疫情期间公众对科学家的信任及其影响因素研究中发现,疫情期间我国公众对科学家给予了高度信任,而且个人的价值观、信息获得等因素都会对科学家的信任产生影响[29]。

图4 基于文本情感分类的共词网络图Fig.4 Co-word Network Diagram Based on Text Sentiment Classification

中性情绪的占比为0.80%,也占了剩下情绪中的一小部分比重,如“SCI 不能一概而论定价”“不猜测,静等结果”“不捧杀,不站队,客观看待”等言论,图4 中的“群众”“团队”“陈铭”“饶毅”等词语中也体现出中性的情感,这些公众在回答问题时更偏向于陈述客观事实,并没有表现出明显的情感倾向,他们更倾向于站在中立的角度去评价科研不端案件,陈述他们对科研诚信的相关认知和评价,而不是带有主观情绪地去批评或褒扬某次舆论事件。这也从一定程度上反映了知乎上存在较高学历和对科研诚信认知较为完整的一群人,他们在评论一些事情时会保持清醒和冷静。

从文本情感分类结果来看,有极少数人对科研诚信持“乐”或“好”的正面情绪,如“我们国家近几年在科研诚信治理方面已经取得了一些成就”“支持饶毅,真正的国士!”等,我们可以发现,图4中“支持”和“举报”两个词语呈现的都是“好”的情绪,“饶毅”一词体现出的情感有“乐”“好”“哀”及中性,其中“乐”与“好”的占比最大,说明大多数公众对饶毅学术不端举报一事持支持态度,同时也有人对饶毅举报后的事业和生活表示担心。他们并不是学术不端的纵容者,这样的回答在很多时候并不是针对问题本身,而是以一种积极的态度去看待科研诚信的建设与发展,对科研人员和科学研究给予更多信任。

4.4 社交媒体环境下公众对科研诚信的认知与评价特点

总体上看,公众对科研诚信的认知与评价呈现出以下三个特点。

(1)评论内容单一,对科研诚信认知不足

由上述分析可知,公众对科研诚信概念、科研失信行为表现形式的认知十分缺乏,反复使用“数据”“实验”“造假”和“重复”来表达科研不端行为。公众对科研诚信的认知只停留在表面,对科研诚信政策、科研诚信相关研究了解较浅,对科研诚信等相关概念的实质性内容关注不够。此外,公众对政府及相关科研机构部门存在着一种整体性认知的现象,他们将政府机构与非政府机构均视作一体,这种混同一谈导致出现负面消息时,公众会产生“院士大都是互相提名上去的”等相关言论和认识,从而大大降低政府回应及处理的可信度。

(2)价值基调正向,对科研人员给予肯定和信任

结合以上数据分析结果表明,公众对科研诚信的认知虽然存在一定的不足,但是整体价值基调是正向的,能够给予科研人员高度的信任和肯定。从公众科研诚信认知来看,大部分公众比较信任教授、研究员、院士等科学家或科研工作者,他们认为科研人员是学术不端行为的有效监督群体之一;从公众科研诚信情感来看,许多公众对教授或院士出现科研不端行为表现出“惊”的情绪,他们对此表示惊讶和怀疑,但是在“饶毅举报事件”中他们又呈现出支持和赞同的情绪,这表明公众对科学和科研人员的信任度较高。

(3)社会对科研不端高度关注,并持负面批评态度

由于本文数据采集策略及知乎上多是对科研失信行为的话题讨论,因此绝大多数回答表达的都是对事件相关主体的讽刺、批判和嘲笑,同时也体现出社会舆论氛围对科研不端行为的高度关注。从上述分析可以看出,“科研不端”这个话题往往不仅受到公众的高度关注,还可能隐含各种敏感的社会问题。例如,在“翟天临事件”中,许多公众认为当前学位论文查重和学位授予严格性与翟天临密切相关;在“曹雪涛院士事件”和饶毅举报3位科学家学术造假中,公众对“院士”“科学家”“女博士”“师妹”等身份尤其关注,反映出背后隐含的舆论对学术环境的关切。舆论的关注度可能会随着科研不端与已有社会问题的结合而不断上升,公众的情绪也可能会更加激烈。

5 启示与建议

(1)加强对公众科研诚信宣传教育,保障科学知识有效传播

近些年来,政府出台了许多关于科研不端惩处的政策,对科研不端治理起到了重要作用。但从本文的共词分析结果可以发现,公众视角下科研诚信教育却没有得到足够的重视。公众的认知与评价是间接参与和监督科研诚信的一种方式,公众作为主要监督群体之一,应对科研诚信相关知识有全面深刻的认识,避免产生片面或不正确的言论。中央和各部委应该加快出台对公众科研诚信宣传教育的有关政策,各地方部门应该持续关注中央政策并尽快落实落地。2021年7月14日,由爱思唯尔和中国科学技术信息研究所举办的“科研诚信”高端研讨会中强调,要帮助公众进一步认识和理解科研诚信[30]。加强对公众的科研诚信宣传教育,不仅可以减少不正当言论的产生,降低不良舆论的影响,还可以保障科学知识在社会公众间的有效传播。

(2)完善学术不端案例公开制度,提升公众对科研的信任

由文本情感分析结果可知,“调查”和“公开”二词均呈现出“怒”和“哀”的情感,其中有相当一部分公众强烈要求科技部等政府相关部门公开科研不端案例的详细调查过程及惩罚措施。得当的案例公开信息便于我国更好地积累经验,也是良好的教育和预防途径。此外,公众还可以通过完整的公开案例信息更全面地了解到学术不端事件详细的来龙去脉,更好地建立起对科学研究和科学家的信任。目前我国对于案件的公布内容仅包括案件概要和处罚措施,可以借鉴日本经验,在“小保方晴子事件”发生后,文部科学省会增强了对科研诚信治理的透明度,对案件的发生原因进行探究与陈述,并针对发生原因进一步指明今后针对此类问题可以采取的预防措施,从而促进了日本科研诚信的治理与建设[31]。完善案例公开制度,可以避免在社会各界之间产生信息不对等的问题,加强公众对科研的信任程度,提高科研诚信治理的有效性。

(3)形成官方与相关部门的联合调查和回应力量,充分发挥公共媒体、社会舆论对科研的宣传和监督作用

本研究数据分析结果显示,“科研诚信”话题在很多时候并不是单独受到关注,而是和某些社会敏感问题一起出现且涉及多个部门。正是因为学术不端事件和敏感的社会问题相结合,又涉及高校和科研院所等部门,才导致舆论对此关注度很高,公众的情绪也愈发高涨。因此,官方在回应和处理此类问题时应与相关部门形成联合力量,避免由于回应不及时、处理不到位引发其他次生问题。国家科技主管部门在进行科研诚信治理的过程中,既要得到科研人员的支持和响应,同时也需要获得社会公众的理解与监督。在著名的“伯尔曼事件”中,美国科研诚信办公室(ORI)在联邦检察长办公室的协助下对民众看法进行了调查,结果发现了伯尔曼更加严重的学术不端行为[32]。在政府和科研机构的带头领导下,公众与其形成了通畅严密的“学术监督网”,共同推动科研诚信的治理与发展。

6 结论与展望

公众的认知与评价是一种间接参与和监督科研诚信的方式,他们对于科学知识的传播和科研工作的有效进行起着重要作用。而社交媒体作为公众和公众之间信息交流的工具和平台,它的快速成长逐渐扩大了公众的知情权和监督权。本研究以知乎平台为例,运用共词分析、文本情感分类等技术方法对社交媒体环境下公众对科研诚信的认知与评价进行了探究,为科研诚信治理和建设提供了参考。总体上看,虽然公众对科研诚信的认知程度不同,但是他们对科学研究和科学家给予了高度信任且对科研不端行为持“零容忍”的态度。科研诚信是一项涉及生态系统中每个人的集体责任,因此,当前需要进一步加强社会各界对科研诚信的认知和理解,推动科研对话和交流,进而促进行动,一方面为建设更加强大的科研群体提供有力支撑,另一方面为增加公众信任奠定理论基础。未来的研究可从以下两个方面展开:一是将微博、微信、博客等社交媒体平台纳入研究中,进一步深化对社交媒体环境下公众对科研诚信认知与评价特征的认识,增强研究结果的普适性;二是考虑比较不同时期、不同群体对科研诚信问题的认知与评价,考察不同群体对学术不端行为态度的发展趋势,揭示其变化过程和演变特征。

作者贡献说明

王琳:提出研究思路,拟定论文框架,修改和审定论文;

江雨薇:设计研究方案,采集与分析数据,论文撰写。

支撑数据

支撑数据由作者自存储,E-mail:jiangyw@cau.edu.cn。

1、江雨薇.Originaldata.xlsx.知乎爬取数据.

2、江雨薇.Word frequency.xlsx.分词词频.

3、江雨薇.Sample.xlsx.人工标注训练集.

4、江雨薇.1.0.xlsx-8.0.xlsx.SVM 文本情感分类结果.

猜你喜欢
词频不端诚信
端杯
企业不诚信怎么办?
高校学术不端行为可撤销学位
词频,一部隐秘的历史
汉语音节累积词频对同音字听觉词汇表征的激活作用*
照片之争,诚信之殇