周亚新
(贵州财经大学 信息学院,贵州 贵阳 550025)
可视化分析方法是研究者在电子储存技术、数据传输和信息图像处理技术的支持下,将各种数据或数据间的关系抽象后,运用软件的图像处理技术使数据间隐藏的信息和规律具体化,能够更加有效、形象地展现出来,学者也能够更加直观地理解和过滤获取所需要的有效信息,这种方法的直观性强、传达性强,在部分学术研究中已得到普遍应用,也有越来越多的学者通过对某领域的论文从载文量、作者、引文和热点主题等方面进行可视化分析。姜桐桐等[1]对《解放军护理杂志》5年的载文信息进行分析,为护理科研工作者提供了理论参考;张艳玲[2]运用文献计量学统计分析了《图书馆理论与实践》的作者群,体现了图书馆建设的优秀作者队伍和其学术影响力;武瑞和程金莲[3]对2018~2019年护理核心期刊进行引文分析,以推动我国护理管理事业发展;周凡力和廖静[4]利用Citespace软件文献计量分析中国园林,发现其研究方向正在转向“乡村”“工业废气地”“绿色空间”“生态智慧”等热点主题。这些对期刊数据进行的可视化分析,不仅可以使各个编辑部能够迅速有效地获取近几年的热点信息,也能够提供一些新鲜的办刊思路,做到在提高期刊质量方面有所突破,起到积极、有效的促进作用。
《电子知识产权》是由中华人民共和国工业和信息化部主管、中国国家工业信息安全发展研究中心主办的月刊,主要介绍知识产权法律信息、提供企业知识产权管理工作指导,探讨现实中新的知识产权问题,交流国内外知识产权理论及司法实践经验。多年来,不断本着集理论性和实践性为一体的理念,探讨解决理论界和实务界中新的知识产权问题,也曾获信息产业年度报道选题奖、中华人民共和国信息产业部年度学术技术水平优秀奖。虽然《电子知识产权》已经获得了不错的成绩,但在国际上影响力较小,并且在全部统计源期刊中排名也较低。因此本研究将以中国知网上的数据为基础,对其载文量、核心作者、机构及其地区分布和热点研究等方面进行分析,以期为《电子知识产权》栏目建设的改善和期刊质量的提高提供帮助。
从中国知网(CNKI)上选择本研究需要的数据来源,通过“高级检索”的方式,同时设定检索条件的期限为2003~2020年,数据来源设置为“期刊”,检索内容为“电子知识产权”,检索日期是2021年1月8日,通过以上的检索条件,共得到相关数据信息3904条,并导出参考文献保存Reworks格式,用于分析数据的期刊载文量、作者、机构来源及地区、关键词特征。
主要采用可视化分析方法,与知识图谱相结合定量分析某领域的学术产生与发展。研究工具主要有Bicomb2、gCLUTO和Ucinet可视化软件。
载文量是用来评估期刊质量的标准之一,它是从信息输出角度评价期刊的质量,载文量越多,在一定程度上表示该刊信息越丰富。通过Bicomb2软件对3904篇文献数据进行统计分析得到期刊载文量统计信息[5],具体如图1所示,《电子知识产权》刊载论文数量呈现较大波动趋势,可以看出,2014年是统计数据期间发文量最多的年份,共计337篇;最少的年份是2019年和2020年,各自发表107篇论文。从2014年起《电子知识产权》的载文量就开始呈现下降趋势。
图1 《电子知识产权》刊载论文量趋势
高影响力的学术群体,一定程度上是一个学科领域的代表和引导者,是该领域发展的趋势体现。对作者群研究,可以探究该领域研究主题的广度和深度,对于往后科研学术活动的规划和引领具有积极作用。用可视化软件对3904篇论文题录信息做作者统计和分析,把数据导入软件处理后,共得到3930个作者,表1中列出了发文量≥10次的作者,共计32位作者。
表1 发文量前32名的作者统计(≥10次)
由表1中可以看出,周春慧是发文量最多的作者,共占95篇;其次是卢宝峰和左玉茹,分别是53篇和53篇。接着是作者于凯旋(38篇)、巫晓倩(33篇)、杜声宇(23篇)、赵天武(22篇)、钮京晖(20篇)、刘晓春(16篇)等。图2 是统计上述作者中有合作关系的作者,可以看出有合作关系的仅有夏芸、杨晓丽、巫晓倩、李秀娟和赵天武,其余作者间均未出现合作,表明该电子知识产权期刊合作作者群极少。
对《电子知识产权》刊载论文的发文机构进行分析,共有机构3074个,表2中统计出出现次数在15次及其以上的发文机构,共计22个。发文量最高的机构是中南财经政法大学知识产权研究中心,共发文80篇,占前22名的10.90%。
图2 作者合作统计(表1中的高频作者)
表2 发文机构出现频次≥15统计(共计22个)
对于表2中发文机构的地域进行分析,主要集中在北京、上海两个地区;对上述机构所在地分析,基本集中在东南方和东北方;相较于西南方或西北方,《电子知识产权》所发期刊较少。但是近年来发文机构呈现地区多样化。
通过软件对得到的关键词数据进行统计分析,用可视化方式直观展示,并且可以显示出隐含的关系和趋势,产生一定的指导意义,可用于前沿热点研究。
3.4.1 关键词词频统计
关键词词频是用于统计情报检索与文本挖掘的常用技术,其统计为某一领域的学术研究提供了不同的方法和视野。高频关键词则表示某一学术领域或学科的大密度知识聚集地,也就是核心关键词是检索重点所在。这里用可视化软件对期刊论文信息做关键词统计和聚类分析,把论文数据导入软件处理后,共得到17192个关键词。关键词出现频次分布如表3所示,列出了90个关键词,均出现了20次及其以上。
从表3中可以看出,知识产权、专利权人、专利、著作权、反垄断法、商标侵权等出现次数排名靠前,但出现次数最多的是知识产权,频次为174次。
如图3是对出现频次≥30次的51个关键词进行的社会网络分析。利用社会网络分析软件Uninet将构建的共现矩阵数据转换为一个网络图。专利技术、专利复审委员会、国家知识产权局、商标局、中级人民法院、专利权人、专利法、不正当竞争、最高人民法院、一审判决、版权法、知识产权制度、专利保护、专利态势、国家版权局等关键词处于网络中心,且中心性最大,与其他主要关键词共同出现在同一篇文献中的频次最多,是图中最重要的节点,而处于图边缘的节点联系相对较稀疏。
图3 高频关键词网络分析
3.4.2 高频关键词聚类分析
关键词聚类分析是根据关键词在文中的出现次数,生成共现矩阵,将紧密的关键词聚集在一起,形成聚类;规律是关键词越是相似越容易聚成团,反之越分散。通过算法分类之后可以在视图中揭示不同类团的特点和他们之间的关系。在我国电子知识产权文献研究领域有较少论文运用此方法。本研究对51个高频关键词构建51×51的矩阵,通过gCLUTO软件进行聚类分析[6]。依据高频关键词形成共现矩阵进行聚类分析,根据效果聚6类为佳,形成了如图4中6个峰的山峰图和图5的6个主题的聚类图,具体如下。
图4是与图5中的6个主题相呼应的山峰统计图。山峰图从整体上体现各个聚类的特征,其高度、体积和颜色都与高频关键词具有一定的相关性,具体表示为:第一,山峰的高度与类内相似性呈正比例关系;相似性越大,山峰则越陡峭,反之则越平缓。第二,山峰的体积越大,表示每个聚类山峰内关键词的数量越多,反之就越少;第三,山峰的颜色与聚类中关键词之间的差异呈反向关系,颜色所表示的类内相似度标准差由低到高的排列依次是:红、黄、绿、浅蓝和深蓝(所有颜色均由软件自动生成,下同),当类内的颜色数量越少,就表明其内部关键词元素相似性越大。
图4 高频关键词的山峰图
上述图4表示的高频关键词的山峰图,图中有6个峰对应的是6个不同的主题,从图中可以看出,0号峰的高度在6个山峰中最突出,海拔最高且陡峭,其封顶呈现黄色,山峰整体颜色分布较多,表明0号峰类内元素相似性较大,关键词数量较少,类内相似度标准差较低。其次是1号和2号山峰,海拔较低,呈现平缓状态,体积较大,峰顶颜色均为绿色,表明类内相似度不高,但类内关键词数量相对较多。最后的3号、4号、5号山峰,海拔低且平缓,体积大,颜色单一均为浅蓝,表明这3个山峰类内关键词相似性都比较大,包含的关键词数量也较多。
图5 高频关键词的聚类分析
根据图5并结合图4分析如下,《电子知识产权》期刊的发文领域主要涉及6个主题(主题编号、顺序均匀软件自动生成,下同)。主题1中的商标评审委员会、商标局、中级人民法院、一审判决、商标法、最高级人民法院都是对商标权、驰名商标、商标侵权、注册商标专用权和不正当竞争等的处理途径。主题2中是对专利的研究,包括专利权人、专利法、专利侵权、专利诉讼、申请人、申请人、外观设计、专利权和专利评审委员会。主题3中国家版权局、版权保护、著作权、合理使用和版权法是对版权的研究。主题4中专利态势、发明专利申请、专利申请、专利布局、专利技术、专利保护是集中对专利前期的研究,其中也涉及了国家知识产权局和知识产权战略的研究。主题5中元素研究相似性较低,关键词联系不紧密,例如知识产权法、知识权制度、专利、商业秘密、反不正当竞争法、反垄断法、反垄断等。主题0中关键词相似性较大,是电子知识产权期刊中的主要研究内容,如知识产权保护、知识产权问题等。
本研究通过对《电子知识产权》期刊的年发文量、作者、机构和热点等情况的分析,得出该期刊载文量前期呈现上升趋势,近几年发文量有所下降,总体有下滑趋势;核心作者数量较多,发文超过10次以上的有32个;发文机构主要集中在北京和上海,这两个地区对电子知识产权的重视高于其他地区,其中中南财经政法大学知识产权研究中心是发文最高的机构;期刊的主要研究方向是关注电子知识产权的保护问题。但不足的是热点研究中所运用的软件缺乏时间敏感性,不能从动态角度研究《电子知识产权》刊载论文的热点演化。需要选择更加合适的、科学的研究方法来进一步探测该期刊的研究方向,可以继续推动电子知识产权甚至知识产权领域的学术研究和发展,也可以为《电子知识产权》期刊走向更高的阶梯提供参考。