基于共词聚类的科技查新项目热点可视化分析

2018-12-28 03:34邹中华安徽省科学技术情报研究所
安徽科技 2018年12期

◎文/邹中华(安徽省科学技术情报研究所)

我国科技查新起源于20世纪80年代末期,至今已有近30年的历史[1]。科技查新规范了我国的科技活动,保证了科学资源的合理配置,成为我国科技管理体系中的重要环节[2]。安徽省科学技术情报研究所是安徽省唯一国家一级查新机构。十几年来,科技查新项目不断增加,这些查新项目从侧面反映了安徽省创新主体的研发热点。本文运用共词分析法与可视化技术对查新项目中的高频词分布、高频词间的内在关联进行分析,从微观上揭示安徽省科技创新主体的研发热点以及研发热点之间的关联。

一、提取高频名词

查新项目的名称是查新项目内容的浓缩与体现,因此本文通过对查新项目名称的分析实现对查新项目内容的分析。针对安徽省2015—2017年间的科技查新项目,先采用Python编程环境下的Jieba软件对项目的名称进行分词,再从分词的结果中提取所有名词短语和对应的词频,合并意思相似的名词短语,如“电池”和“蓄电池”统一合并为“电池”,“电机”和“马达”统一合并为“电机”,然后按词频由高到低排序,选择词频数大于50的名词45个(见表1)。这些出现频次较高的名词及其组合,在一定程度上可以体现最近3年安徽省科技查新项目的研发热点。

表1 2015—2017年安徽省科技查新项目的高频名词

二、构建共词矩阵

20世纪70年代中后期,共词分析法逐渐兴起,其思想依据是文献计量学中的引文耦合与共被引分析[3],利用文献中的“名词短语”或“共现词汇对”出现的情况来判断它们所代表的各主题间的关联。针对表1中的45个高频名词短语,两两统计其在同一个查新项目名称中共现的次数,形成45×45的共词矩阵。考虑到关联名词短语间的关联程度及共现频次对可视化结果有一定影响,本文采用关联强度Ochiia系数[4]来减少这一影响。Ochiia系数的计算公式如下:

表2 高频名词的45×45相关矩阵(部分)

采用上式将共词矩阵转换成Ochiia系数相关矩阵,如表2所示。

三、可视化分析

在相关矩阵的基础上,利用SPSS软件进行聚类分析和多维尺度分析[5],得到可视化的查新高频关键词聚类分析树形图(见图1)与多维尺度图(见图2)。

图1 高频名词的聚类分析树形图

1.科技查新项目的研发热点

在图1所示的聚类分析树形图中,上端0~25的标度代表各类名词之间的距离,越早被聚为一类的名词之间的距离越近、关联越紧密[6]。观察高频名词的聚类过程,同时参考因子分析结果,科技查新项目的热点可分为如下 9 类:(1) 钢结构、混凝土的施工工法(10、24、4、12);(2)工程线路、装备的制造工艺和技术(1、5、31、35、21);(3)玻璃的生产装置和方法(7、8、22);(4)电动汽车的电机、空调电机(6、19、23、28,新能源电动汽车是安徽省重点扶持的战略新兴产业,而直流电机是电动汽车的核心部件之一);(5)用于电池和叉车的高性能环保材料(13、14、15、20、42);(6)铝合金电力电缆及变压器(11、30、43、44);(7)信息系统、网络平台、智能数据处理(2、3、9、27、18、25、40);(8)机器人及其生产线(16、27、41);(9)冰箱制造涉及的压缩机和模具(34、37、38、39)。

图2 高频名词的多维尺度图

2.科技查新项目热点的发展趋势

图2展现了科技查新项目高频名词在二维空间的分布,图中有高度相似性的点聚集到一起形成一类,并且越居中的关键词与其他关键词的关联越多,在该领域中的地位越核心[7]。由图2可知,安徽省科技创新主体的研发热点可概括分为9个部分,分别用椭圆标出,9个部分的关联如下:“电机、叉车、液压、玻璃、变压器”区域和“生产线、装备、工艺、方法”区域距离很近,并且这两个区域所占的空间较大,说明安徽省的工业目前仍然以传统产业为主;“电动汽车”区域和“网络平台”区域关联密切,并存在“软件”区域交集。这表明电动汽车作为新的高科技热点,在设计和生产过程中充分利用了网络和软件技术;“电力信息系统”区域和“网络平台”区域关联较为密切,说明在电力系统中越来越多地引入了信息化生产和管理方式;“冰箱压缩机”“混凝土工法”“钢结构”3个区域,在空间上和别的部分关联不大,具有相对独立性。

四、结语

本文针对科技查新项目的热点进行可视化分析,统计出反映研发热点的45个高频热点名词,并结合共词分析法与可视化技术,进行主题分析,较为直观地展示了安徽省创新主体的研发热点,以及研发热点之间的关联。本研究尚有一定的不足之处,如高频名词的确定阈值、同义词归类标准等仍是有待讨论的问题。