基于Gephi的R&D投入与公司成长性的可视化研究

2019-09-10 16:53黄思佳何翀徐惠珍
电子商务 2019年11期
关键词:成长性词条发文

黄思佳 何翀 徐惠珍

摘要:本文选取2016-2018年CNKI相关文献,运用文献题录信息统计分析工具SATI、可视化网络分析软件Gephi对“R&D投入与公司成长性”的研究情况从发文年度、发文机构单位分布、作者合著网络、关键词共现网络、行业研究情况等方面进行分析,从而指出研究热点与最新研究趋势。

关键词:R&D投入;公司成长性;Gephi;可视化

引言

在倡导实现“中国制造”到“中国智造”转型的当下,我国大批企业着力更新科技水平,打造核心竞争优势,以此创造新的利润增长点。R&D投入作为影响创新能力的重要因素,因其极大的风险性质,一直是备受学者们关注的课题。因此,该投入对企业成长性的研究一直备受关注。

不同于形势单一、呈现信息抽象的传统数据可视化,可视化知识图谱Gephi是一款交互式的复杂网络分析软件,能生动地展现出各要素之间的联系和研究热点。

本文采用文献题录分析工具SATI,借助Gephi的可视化网络技术辅以excel汇总,描绘出2016-2018年R&D投入与公司成长性研究的图谱,分析得出该课题的最新热点、研究机构分布及行业研究情况。

1、数据收集与研究方法

1.1 数据收集

本文数据来源于中国知网(CNKI)论文数据库中的文献。在中国知网上以“R&D投入OR公司成长性”为搜索范围,检索日期截至2018年10月4日,最终得到316篇期刊和论文。

1.2 研究方法

首先对文献题录信息剔除同义词,其次将文件导入SATI生成共现矩阵。对于发文年度、发文机构单位、行业研究情况等在excel中统计;对于关键词共现矩阵与作者和主网络,则选择用Gephi将被研究频数较高的词条凸显出来。同时,对边进行过滤,将较热门的研究方向显现出来。最后,通过软件统计的平均度、平均路径长度、平均聚类系数等数值进行分析。

2、数据分析

2.1 发表年度分布

剔除年度相关文章中重复或不相关的记录后,汇总发现可以将此课题研究划分为:起步阶段(1997-2004年)、发展阶段(2005-2012年)、高潮阶段(2013-2015年)和渐趋成熟阶段(2016-至今)。在2012年度发文量大幅上升后,2013年相关发文数量达到最高峰169篇。2016年开始逐渐回落,另一方面也向我们传递着研究渐趋成熟的信号。

2.2 发文单位机构分布

发文机构可以分为五类:高校单独发文、社会机构单位单独发文、高校间联合发文、机构单位联合发文以及高校与机构联合发文。汇总发现,316篇文献中,290篇来自高校单独发文,占比高达91.7%。高校联合发文15篇,占比4.75%。总体而言,各大高校是最主要的贡献力量。

截取SATI频数统计前16位的高校,综合类大学占16所总量的29.11%,6所财经类高校发文总量占比37.97%,理工类大学发文量占16所总量的45.57% 。由此得出结論,该课题更受理工类大学学生的欢迎。

2.3 作者合著网络

用SATI截取文献作者信息矩阵导入Gephi,共得到100节点、115边。采用Fruchterman Reingold布局。其次,对节点进行排序并进行模块化分割,统计发现88个社区,同时得到模块化度量值0.753,表明合作团体间联系较密切。

研究图谱发现,发文作者分布较零散,多为硕博论文或单独发表的期刊文章,仅存在6个合作较为密切的社区(社区之间不存在合作关系):唐玮(唐玮、曹蕾、崔也光)团队、吴祖光团队(吴祖光、康华、扈文秀)、张金锁(张金锁、吕靖烨、王婷、李明、李玲)团队、龚诗婕团队(龚诗婕、吕庆华)、任敏团队(任敏、谷文林、林宁)、郭浩团队(徐艳、郭浩)。其中,合著最为密切的是唐玮-曹蕾-崔也光团队,吴祖光团队中吴祖光与扈文秀合著次数较多,而两人与康华的合作较少。所有节点中度和加权度最大的是吴祖光和扈文秀,节点度为4,加权度为5.33,表明他们分别与四个作者有过5次的合作[1]。

2.4 关键词共现网络

将共现矩阵导入Gephi,共计导入100节点、962条边。为防止节点存在重叠,最终采用ForceAtlas2的算法[2]。其次,设置节点波动范围和标记颜色。统计频数越大,节点也就越大,颜色也随之加深。为区分大部分词条的热度,采用节点的模块化分割形成11个社区。

节点加权度是指该节点与其他节点连接边的权值的总和[3],即该词条与相关联的词条共同出现的次数。经计算,关键词共现网络的平均度为10.62,平均加权度为1.305。因此,“R&D投入与公司成长性”的词条关联范围较大,但关联程度不够密切。图谱的平均路径长度为1.996,网络直径为3,呈现小世界性[4]。图谱平均聚类系数为0.745,该数值较接近1,表明节点之间的关联较紧密。

由于图谱中的边交错复杂,难以进行深入研究,因此进行边的过滤,保留322条边。(见图2)经观察计数发现,研究R&D投入与公司成长性关系的文章仅有7篇,而单独研究R&D投入或者公司成长性的较多。其中涉及“R&D投入-企业绩效”的高达50篇,涉及“R&D投入-融资约束”的有18篇,有关“R&D投入-股权结构-股权激励”的有19篇。公司治理、创新绩效、税收优惠、政府补贴等词条与R&D投入关联也较紧密。除此之外,“公司成长性-创业板”(23篇)、“公司成长性-影响因素”(11篇)、“公司成长性-因子分析”(9篇)、“公司成长性-资本结构”(5篇)也是最近三年研究中的热点问题。

2.5 行业研究情况

在图谱显示的节点中有部分“高新技术上市公司”、“环保类上市公司”、“农业上市公司”等行业词条。为了进一步研究行业实例研究的情况,筛选出关键词频数统计中行业词条的记录,统计发现共有70篇行业实例研究文献,占文献总数的22.15%。这表明“R&D与公司成长性”课题的相关实例研究较少,偏向理论研究的较多。70篇实例研究中有关高新技术产业的实例研究有13篇,占行业研究总数的18.75%。设备制造业、生物医药、农业紧跟其后,分别占有14.29%、11.43%、8.57%。

3、结论与不足

3.1 研究结论

一是,在2013-2015年的研究热潮过后,最近三年的年度发文数量逐渐减少,研究趋向于成熟。2016-2018年R&D与公司成长性研究中,社会机构单位的发文数量占极小部分,各类高校则是探究主力军。其中,理工类大学的相关贡献较多,财经类高校次之。

二是,作者合著网络较为分散,少有关联紧密的合著团队。而在关键词共现网络中,单独研究R&D投入、公司成长性的文献居多。其中,R&D研究延伸范围较广,涉及企业绩效、融资、股权结构、高管激励、税收优惠等方面的文献数较多。而公司成长性涉及的研究课题较少,影响因素、资本结构等为热点方向。

三是,该课题下的理论研究较多,实例研究仅占70篇,其中高新技术产业、设备制造业、生物医药、农业等领域的相关研究居多。而创业板上市公司因其高成长性,成为研究成长性的典型。综合以上论述,建议增加对创業板上市公司R&D投入与公司成长性的实例研究。

3.2 研究不足

首先,在对题录关键词进行同义词清洗前需要人工识别,可能存在个别同义词被忽略的情况,形成一定误差。其次,在使用文献题录信息统计工具SATI生成关键词共现矩阵时,由于软件出于实际意义的限制,只能导出前100条记录,遗漏了少部分信息。

参考文献

[1] 彭琰,严莉.基于Gephi的云南民族医药研究可视化分析[J].医学信息学杂志,2015,36(02):65-68+89.

[2] 王扬,田野,李铁山,陈俊龙,彭东成,周义华.基于Gephi的航运招聘信息可视化分析[J].大数据,2018,4(03):81-91.

[3] 曹霞,崔雷.合著网络评价指标与文献计量学评价指标相关性研究[J].中华医学图书情报杂志,2016,25(2):20-26,74.

[4] 张梅,翁志辉,杨振,林海清,黄爱萍,刘健宏.我国水土保持学科领域作者合著网络分析[J].中国水土保持, 2017(12):47-49.

[5] 刘勇,杜一.网络数据可视化与分析利器: Gephi中文教程[M].北京:电子工业出版社,2017:163-164.

[6] 王龙.合作网络模型结构研究与应用[D].济南:山东师范大学,2015:19-21.

作者单位:江苏大学财经学院。

猜你喜欢
成长性词条发文
四部门联合发文加强外来入侵物种管理
利用简单的公式快速分隔中英文词条
2018上海成长性企业50强
校园拾趣
爷孙趣事
以牙还牙
分析师一致预期最具成长性个股
分析师一致预期最具成长性个股
分析师一致预期最具成长性个股