徐玲玲 朱小惠
(1浙江师范大学学术期刊社 金华 321004 2浙江工业大学学术期刊社 杭州 310014)
随着互联网、云计算技术的迅猛发展,各个领域产生了海量数据且呈几何级数增长,“大数据”作为新的专业术语和生产要素引起各界重视[1],数据挖掘利用与数据分析手段已迅速扩散和渗透到各个领域。面对互联网中信息如潮涌的大数据,尤其是数量庞大的科技论文,科技期刊的组稿策划如何在大数据时代脱颖而出,获得创新发展,绝非编辑重复以往的工作模式即可达成的[2]。长久以来,从组稿环节入手彰显刊物特色被科技期刊奉为圭臬,期刊界同仁从不同角度出发,对组稿策划的目的与效果、作用与意义、方法与途径进行了相当多积极有益的深入研究[3]。但科技期刊的报道范围广泛,已有文献介绍的传统组稿形式主要包括文献查新、追踪课题、问卷调查、编委约稿、同行借鉴等,组稿途径总体偏简单,且过于依赖编辑的隐性知识[4],导致选题前瞻性不强、时效性较差、精准性不足,传统组稿模式在数字化时代对信息深度挖掘和优势重组方面已存在诸多不适应性亟需优化,利用“数据分析”辅助“经验判断”,精准把握学科发展动态和读者关注热点,将成为今后大数据辅助出版工作的新途径之一。
近年来,CiteSpace作为一种文本数据挖掘与分析工具,已成为信息分析中最具特色与影响力的科学知识可视化软件,它通过探寻某一研究领域演变的关键路径及其知识拐点,分析出学科演变发展趋势及研究热点,在化学、医药、农业、图书情报等数十个学科领域被广泛应用[5]。但CiteSpace在期刊编辑出版领域介绍或被应用于编辑与出版工作实践的研究却仍停留在表层[6],而在编辑实践中的优势应用一直未能得到充分展现,如作者与机构共现功能,尤其是新版本推出的勾画学科领域演变的时间线聚类功能等。因此,笔者借助CiteSpace从组稿这一科技期刊的基础和突破环节入手,在学科研究热点和趋势的可视化方面展开探索,以期为更多的编辑同人开拓选题策划的研究途径提供有益的思索。
本研究选取CNKI作为数据源,利用CNKI的“高级检索”功能,文献分类目录选定“生物学”,时间设为2011—2020年,以“肺癌”(发病率和死亡率双高的一种恶性肿瘤)为主题,搜索出89051篇文献,其中频次最高的关键词为“非小细胞肺癌”。因此,本文于2021年03月21日以发文量最高的“非小细胞肺癌”为主题词进行检索,来源类别设置为SCI、核心和CSCD,在剔除非论文文献(新闻报道、征稿启示等)后,得到6 479篇文章。CiteSpace 5.3.R8软件设置参数时间切片=1,即数据抽取10个时间分段排名靠前的数据生成最终网络。
从文献计量学的角度根据研究机构与学者间的联络频次及互引关联度,构建合作网络,以挖掘该领域研究的重点团队及核心学者,出现频次高的成员是推动研究发展的中坚力量。本研究利用CiteSpace中的Institution与Author模块,阈值设置为20,对论文中的机构与学者同时作为检索源进行可视化分析,快速定位核心学者所在机构及成员间的合作关系(见图1)。图谱呈现有662个节点,1 712条连线,网络密度为0.0078,结果显示,该领域形成了以国家肿瘤临床医学研究中心(频次156次)、天津市肿瘤防治重点实验室(138次)、广东省医学科学院(122次)等多团簇、众星云集的代表性发文机构,同时形成了以程颖、张力、王长利等为代表的核心作者群。由图1以作者、机构联合建立的共现图谱可知,可视化分析能够帮助编辑迅速寻找到国内核心科研团队及学者,为组稿约稿建立核心作者库、挖掘优秀作者资源等提供极为便利的条件。
图1 :非小细胞肺癌研究领域机构与学者共现图
CiteSpace 3.0版本新推出了勾画学科领域演变的时间线聚类功能,它创新性地将时间引入到聚类网络中,重点勾画每个聚类(即子领域)发展演变关键路径的历史轨迹和时间跨度,以此分析研究领域演变发展趋势,展现研究领域的最新研究方向。本研究将力图展现该软件在编辑工作实践中的新功能,选择Timeline视图后,生成拱桥型时间线聚类图谱(见图2),X轴为引文发表年份,Y轴为知识子群,图谱呈现177个节点,1189条连线,密度0.076 3且模块值Q=0.341 9(Q>0.3表明划分出来的社团结构是显著的),平均轮廓值S=0.627 2(S>0.5代表聚类合理)。
图2显示,非小细胞肺癌研究领域的知识子群包括化学治疗、免疫治疗、分子靶向治疗、生物学特性、基因表达、放射治疗等六个,但细究其各自发展历程却略有不同,因此编辑的组稿策划也应作出不同的调整。如化学治疗的研究在早期保持了很高的热度,随后逐渐减少,表明该方向虽然发文量较大,但传统化学药物治疗已不再是研究的热点,因此,需适量控制此方向的刊载量;免疫治疗等研究主题一直贯穿至今,表明这些研究内容持续被关注,发文量大,关注度高,符合目标读者需求,是期刊编辑的重点组稿策划方向。特别是免疫治疗知识子群研究走向持续增强,表明该方向是热点论文易于涌现的新方向,期刊编辑应把握机遇,积极组织相应专题吸引阅读量和提高转引,增加潜在作者数量,以进一步提升期刊影响力;放射治疗虽然作为知识子群之一,但只在早期有少量研究,表明此方向关注人数较少,较少的受众可能会拉长文章的被引周期,因此应谨慎控制相关方向的刊载量,以免影响期刊的关注度。
图2 :非小细胞肺癌研究领域关键词时间线聚类图谱
通过CiteSpace时间线分析图还可发现,主要前沿领域已由化疗等转变为分子靶向治疗、PD-L1、长链非编码RNA、微小RNA等。面对不断涌现的新兴研究热点,编辑需时刻保持高度的信息敏锐性,适时调整组稿策划方向的突破口,在处理稿件时做到有的放矢,抓住重点,从最大程度去吸引读者,并引导学者对研究热点进行更深入的研究和探讨,以发挥期刊学术媒介在学科发展中的导向功能,推动科研创新。
稿件质量是期刊提升影响力的前提和基础,而组稿策划是提升稿件质量的关键环节和重要抓手,面对复杂、多层面的稿源,编辑需要精准、高效地判断学术发展动态和读者关注热点。本研究的亮点在于依托CiteSpace软件,注重通过大数据有效捕捉研究热点、焦点,以客观、理性的佐证手段,提升办刊人对学术前沿的把握能力和选题判断能力,为期刊选题策划在大数据时代获得创新发展提供参考和建议。
当前,大多数科技期刊编辑并非直接从事科研一线研究工作,因此从客观上导致其缺乏对前沿学术信息的了解,缺乏学术敏感性[7]。面对海量论文,期刊编辑应在组稿策划环节避免“盲人摸象”,积极主动地通过各种方式获取学术前沿信息。CiteSpace作为一款实用的可视化分析软件,安装简便,入门简单,操作便捷。以本研究为例,目标文本文件下载保存后,软件每次分析结果生成图像仅需2分钟左右,因此,CiteSpace有望成为编辑做好选题策划的制胜法宝之一。它通过数据库中丰富文本信息的获取,将文本数据的挖掘融入到科技期刊的组稿策划环节之中,可深层次地挖掘数据背后潜在的发展趋势,帮助期刊编辑精准把握学科研究发展需要、动态变化和学科特色,提升编辑出版工作的效率与质量。在大数据共享思维下,编辑作为科技共同体中的重要一环,应打破固有思维模式,构建与时代相匹配的专业素质,如数据处理能力、网络数据分析能力,对获取的海量数据进行学术趋势和知识脉络分析,从而得到更多的基于数据分析结果的组稿策划思路,为期刊选题组稿呈现更多的精品和亮点。
高质量的稿件是科技期刊发展之根本,高素质的作者群则是高质量稿件充满生机与活力的源泉。传统的组稿方式主要依赖编委的人脉和编辑的主观意识,而CiteSpace通过大数据检索分析相关领域论文的发文量和关键词,通过频次和中介中心性直接生成作者与机构的可视化分析图谱,据此快速构建发文质量高、科研能力强、引领研究发展方向的重点机构及核心学者画像,较为精准地挖掘学者的科研能力、学术动态、擅长领域等,再根据其合作和互引图谱,进一步挖掘与其密切关联的其他优质作者群体。立足核心机构的优质作者群,针对领域内细分的知识子群聚类,让办刊人在组稿策划阶段做到及时响应,快速选择期刊主题,提升组稿策划方向的精准性、前瞻性和科学性。通过准确预测读者需求及对研究主题的深度挖掘和梳理,使选题方向更为准确,选题过程更为科学,办刊资源配置更为合理。期刊编辑有意识地将工作重心转移到影响力强的期刊主题上,有助于凝炼出期刊的特色专栏,对促进期刊品牌发展产生广泛而深远的学术影响。
本文基于CNKI数据库,在前人工作基础上,完善性地提出一种组稿策划新思路——利用CiteSpace软件对研究领域发表论文的文本大数据进行挖掘和分析。当前,大数据技术发展方兴未艾,期刊编辑利用大数据的思维和技术,以出版流程的组稿策划环节为抓手,一方面可以大幅增加研究样本量,对学科信息进行深度挖掘,如核心机构、优质作者群、研究前沿、发展趋势等潜在信息,另一方面可以极大改善编辑出版工作的质量与效率。本文提出将CiteSpace软件应用于编辑与出版学领域,对拓宽组稿策划的研究途径进行了客观分析,并进行了较为全面的展示。鉴于此,本文希望通过此研究,为期刊编辑从事编辑出版学研究提供新技术、新方法和新思路,以此引发同行共鸣,为拓展完善该领域研究,起到抛砖引玉的作用。■