学科发展状态的知识图谱构建

2020-06-16 00:24陆菁宇张绍阳黄文旎
计算机技术与发展 2020年6期
关键词:图谱热点神经网络

陆菁宇,张绍阳,黄文旎

(长安大学 信息工程学院,陕西 西安 710064)

0 引 言

学科是高等院校教学和科学研究的基本构成单元,凝聚了一批高水平、高层次的科技人才,是大学进行人才培养、科学研究的重要依托。学科的科研水准反映的是一所高校的核心竞争能力[1]。对学科状态进行分析,不仅可以让科研机构明确认识到当前学科的长处和短板,帮助提升硕博士生的培养质量;同时也为外界了解高等院校以及科研机构学科内涵建设提供渠道。

教育部学位与研究生教育发展中心自2002年起对全国有授予博士或硕士学位资格的一级学科开展整体水平评估[2]。到2017年为止已经进行了四次,第四轮学科评估以“公共数据和单位填报相结合”的方式获取数据,并且设置了“师资队伍与资源”“人才培养质量”“科学研究水平”“社会服务与学科声誉”四个一级指标及对应的二级指标。学科评估全面反映了学科的总体状况,但由于学科评估是针对所有学科的,不会针对每个学科的内涵进行分析。

知识图谱可以直观清晰地展现科学知识的发展进程和知识结构关系[3],因此很多研究者将它应用在各自的研究领域。一方面可以利用知识图谱挖掘学科领域的基础知识,展现学科知识架构。例如,傅居正、喻国明使用知识图谱对数据新闻学科进行研究[4]。廉同辉、余菜花、宗乾进使用知识图谱对旅游学科研究领域、主要研究机构、学术代表人物进行探究[5]。吴远仁研究2001-2017年间人口、资源与环境学科的核心研究领域[6]。另一方面可以通过知识图谱找到科学知识的内在连接,并利用“图谱”特征直观呈现学科的发展规律和演化路径[7]。例如,孙艳、田丽梅使用中国知网收录的“中文核心期刊”和“CSSCI”相关研究文献对舆情的研究现状进行分析,总结文献内在的联系和科学结构[8]。张学召使用共词知识图谱探究材料学和工程学两门学科的研究热点、趋势[9]。饶武元、刘浩使用共现知识图谱对一流学科的科研热点以及科研前沿进行分析[10]。当前采用知识图谱对学科展开的研究主要使用的数据源是Web of Science和CNKI中收录的期刊文献,并且研究内容大多是对研究领域、发文量、领域经典文献、研究热点进行分析,而对于学科的研究技术、技术热点和发展有所忽略[11]。科研过程中使用的技术直接反映了研究人员的科研水平和学科发展状况,因此文中从研究技术的角度对学科的发展状态进行探析。

交通信息工程及控制学科是“交通运输工程”一级学科下的二级学科,也是现代交通运输工程发展的核心学科,为国家输送交通科技人才,对社会和国民经济建设有重要的意义。当前尚没有对交通信息工程及控制学科发展状态进行分析的文献。硕博士是高校科研的主力军,其研究水平能够从一个层面反映一个学科的水平,硕博士的主要产出即学位论文。学位论文能够体现作者的基础理论知识、研究领域、手段和成果,综合起来就是一个学科的整体状态。为此,文中以硕博士论文为分析对象,对交通信息工程及控制学科的发展状态进行分析。探究该学科的科研技术热点和科研现状,探索该学科不同领域的科研技术热点共性、科研趋势等,为科研机构了解自身的科研水平以及确定该学科未来科研方向提供参考和借鉴。

1 数据来源与处理

学科评估是对一个学科的整体水平进行评估,对于评价学科建设的成效是一个重要的评价依据。在本研究中,选择在《全国第四轮学科评估》中评估等级“B+”及以上的高校作为代表对该学科进行分析[12]。分别有:东南大学、西南交通大学、北京交通大学、北京航空航天大学、同济大学、大连海事大学、哈尔滨工业大学、武汉理工大学、中南大学和长安大学。这几所高校在该学科科研研究基础深、具有较高影响力,可以反映出该学科真实的科研现状。

文中以CNKI中该学科的硕博士学位论文文献为数据。在高级检索中的硕博士论文中设置检索条件:学科专业名称=交通信息工程及控制;学位年度=2009-2018;学位单位=上述高校其中之一。在检索过程中,没有检索到同济大学和北京航空航天大学相关的学位论文,因此经过筛选采用剩下八所高校检索出的2 393篇学位论文作为研究样本。具体发表数量分布如图1所示。

图1 2009-2018学位论文年度分布

如图1所示,该学科的硕博士论文的发文量平均波动程度较小,并且整体呈缓慢下降的趋势。总的来说,交通信息工程及控制学科硕博士论文一直维持着一定程度的发文量,反映出该学科的研究已经迈入一个比较成熟的研究领域。

将数据进行导出并完成数据格式转换,如图2和图3所示。

图2 数据格式转换

图3 数据处理前与处理后(部分)

2 学科发展状态图谱构建

知识图谱区别于传统的文字、表格,而是以网状结构描述世界上的实体、概念以及实体与概念之间的关系,并且采用图形化的方式使人们更加直观地发现、理解这些信息[13-14]。知识图谱可以针对某一学科专业领域的科学技术发展态势及其相关知识结构进行深入研究,进而发现科技活动中潜在的一般和特殊规律,也使得管理人员可以有效监测学科发展动态,从而推动学科整体的发展。因为交通信息工程及控制学科相关高校的主要研究领域可分为公路交通、水路交通和铁路交通三个领域。为了对学科有更加全面、深入的了解,按照相关研究领域构建图谱。

知识图谱的构建主要包括确定研究领域、数据检索与清洗、图谱构建与图谱分析等步骤。具体如图4所示。

2.1 参数设定

(1)时间切片划分。

将时间分区设定为1,则为每一年为一个时间分区,利用熵作为各时间段的宏观指标来衡量网络的有序性。

图4 图谱构建流程

(2)关联强度计算。

图谱中的节点显示的是分析的对象,连线表示着两个词之间的共现联系,连线的粗细则是表示着这种共现联系的强度。知识连接强度的计算主要有三种方法:

(1)夹角余弦距离计算。

(1)

(2)Jaccard距离计算。

(2)

(3)Dice距离计算。

(3)

x,y:任意的两个节点;

Cx:与x相连的节点构成的向量;

Cy:与y相连的节点构成的向量;

Cxi:x与i节点共现次数;

Cyi:y与i节点共现次数;

Cxy:x与y节点共现次数。

文中主要使用夹角余弦距离算法计算知识的连接强度。

(3)节点阈值。

数据量过多会造成图谱过于庞大和杂乱,因此需要对节点设定阈值,对数据进行筛选,去除冗余信息使图谱更加清晰。文中将阈值设定为TOP30,即将每个时间切片中频次最高的30个节点数据作为绘制数据。

(4)网络裁剪。

在数据量庞大的情况下,图谱杂乱不宜解读,需要进行网络的裁剪使图谱更加清晰简洁。文中采用最小生成树算法来对网络进行简化,即在网络中,构建一个能够包含所有顶点,无圈且权值最小的子网络。

2.2 图谱绘制

点的中心性是一个用以量化点在网络中地位重要性的图论概念。节点中介中心性的大小代表着这个节点与图谱中其他节点的联系密切程度,中心性高的点往往位于连接两个不同聚类的路径上[15]。中心性超过0.1的节点称为关键节点。在citespace中对图谱进行构建。

(1)公路交通领域研究技术热点。

该学科的公路交通领域研究技术热点知识图谱如图5所示。图5中高中心性词见表1。

表1 公路交通领域研究技术热点高中心性词

图5 公路交通领域技术研究热点知识图谱

由图5和表1可知,在该学科研究公路交通领域中常用的技术热点有神经网络、嵌入式系统、仿真、DSP、图像处理、模糊控制、支持向量机。

(2)水路交通领域研究技术热点。

该学科的水路交通领域研究技术热点知识图谱如图6所示。图6中高中心性词见表2。

由图6和表2可知,在该学科水路交通领域研究的技术热点主要为航海模拟器、仿真、建模、模糊综合评价、神经网络、层次分析法。

(3)铁路交通领域研究技术热点。

该学科的铁路交通领域研究技术热点知识图谱如图7所示。图7中高中心性词见表3。

图7 铁路交通领域技术研究热点知识图谱

表3 铁路交通领域研究技术热点高中心性词

自表3和图7可知,该学科在铁路交通领域主要的研究技术热点有仿真、建模、遗传算法、神经网络、自适应控制、时间自动机、贝叶斯网络、模糊控制、uppaal。

(4)知识演化路径。

为了更好地总结交通信息工程及控制学科的研究演化路径,文中对相关文献进行时区分析。通过时间的演变来展示知识的变化的图谱[16]。如图8所示,以一年为间隔,根据各个阶段内的连线,可以看出知识之间的演化关系。

图8 交通信息工程及控制学科研究技术时区图

3 图谱分析

图谱中节点表示当前学科热点研究知识。点击节点可以显示与之相连的节点,展现知识之间的关系互联,帮助研究者对知识进行分析。

(1)研究技术热点分析。

由图5和表1可知,在该学科研究公路交通领域中常用的技术热点。通过图谱可以发现,神经网络技术主要包括BP神经网络和卷积神经网络。主要被用于交通流量预测、路面裂缝检测、安全目标检测等。嵌入式系统技术主要包括嵌入式系统和嵌入式Linux。主要被用于智能家居、车辆定位、移动目标智能检测等。

仿真技术主要包括交通仿真和其他仿真。被用于隧道交通诱导仿真、语音识别仿真平台等。DSP技术主要被用于车速检测、智能车载抓拍系统等。图像处理技术主要包括图像处理、数字图像处理等,主要被用于疲劳驾驶检测、车牌定位、路面裂缝识别、干涉条纹检测等。模糊控制技术主要被用于高速公路智能控制、监控系统控制等。支持向量机技术主要被用于交通流预测、交通事件检测等。

由图6和表2可知,在该学科水路交通领域研究的技术热点。其中航海模拟器技术主要包括航海模拟器、拖轮模拟器、船舶操纵模拟器和海上搜救模拟器等主要被用于模拟真实场景以及模拟器性能的优化。仿真技术主要包括运动仿真、船舶交通仿真、三维仿真等。主要被用于船间效应仿真、雷达图像仿真、船舶交通流演化、船只避碰仿真、海上立体搜寻态势仿真。

建模技术主要包括建模、交通流模型、船舶运动数学模型等。主要被用于构建大规模地形场景模型、海图要素建模、航向保持、动态路径规划等。模糊综合评价主要包括模糊综合评价、模糊综合评判、粗糙集等。主要被用于智能避碰、溢油风险评价、安全评估、船员适任性评估等。神经网络主要被用于船舶自动靠泊、船舶直线航迹控制等。层次分析法主要被应用于通航安全评价、船舶碰撞责任划分辅助决策、船舶定线制优化等。

由图7和表3可知,交通信息工程及控制学科在铁路交通领域主要的研究技术热点。其中仿真技术主要包括仿真测试、仿真平台 视景仿真等。主要被用于CBTC系统测试、列车调度、列车自动驾驶、三维视景、等。建模技术主要包括uml、交通流模型、统一建模语言、模型转换等。主要被用于车-地通信、车-车通信、车载设等。遗传算法主要被用于节能运行、自动驾驶系统优化、交通流预测控制、故障诊断、交通事件检测、交叉口信号控制、交通流预测等。

神经网络主要包括BP神经网络、小波神经网络,主要被用于故障诊断、列车定位、信号智能控制等。自适应控制技术主要包括无模型自适应控制、鲁棒自适应控制。主要被用于多列车协同控制、防滑牵引与制动数据驱动控制等。时间自动机技术主要被用于RBC控车、异常诊断等。模糊控制主要被用于车路协同、列车自动驾驶优化、交通信号协调控制、交通诱导、电机传动控制系统的节能运行控制等。

(2)热点共性分析。

对交通信息工程及控制学科不同领域的技术热点进行研究分析,可以发现在不同的研究领域中,使用的研究技术是有一定的共性的。

仿真技术、神经网络是三个领域的共性技术。BP神经网络则是最高频使用的神经网络技术,其次是卷积神经网络。建模技术为水路交通和铁路交通领域的共性技术,建模经常与仿真技术一起使用,用来对列车或者船舶的设备、运行、通信等进行研究。模糊控制为公路交通和铁路交通领域的热点共性技术。模糊控制技术被用于信号协调控制等。

(3)发展演进分析。

图8显示了该学科研究技术发展的历程。可以看出,该学科的博硕士生在科研过程中使用的技术种类多样化。

图8整体呈三角形,随时间的变化,技术由浅入深。如使用频次最高的仿真技术,从最开始的仿真到三维仿真、视景仿真。神经网络技术,从一开始的神经网络到BP神经网络、小波神经网络和卷积神经网络。神经网络有能力学习和构建非线性的复杂关系模型、高速寻找最优解。通常被应用在流量预测、目标识别、信号控制等方面。

嵌入式系统从嵌入式、Linux到嵌入式Linux,并且出现了专业的嵌入式软件scade。各类机器学习算法,如蚁群算法、支持向量机、贝叶斯网络等也随着机器学习的发展在研究中使用。控制技术也在不断发展,随着研究的深入以及技术的发展,也不断出现在相关研究中。

随着智能交通越来越热门,智能交通有关的技术也一直在深入,出现了车联网技术以及相关的车-地通信技术和车-车通信技术等实现车路协同、人车交互。

整体来说,该学科的研究技术类别多样化,并且出现的新技术呈逐年深入的状态,说明该学科的研究已经步入一个较为成熟的阶段。

4 结束语

以CNKI数据库中2009-2018年间交通信息工程及控制学科评估等级B+以上的高校硕博士论文文献为数据样本,构建该学科知识图谱,并对图谱进行探析,结论如下:

(1)当前学科科研过程中使用的研究技术种类比较多样化,主要是计算机技术、控制技术、通信技术。并且三个领域在科研过程中使用的技术有一定的共性,都使用了仿真技术和神经网络。

(2)因为学科的发展以及科研的深入,相关技术也在不断的发展。由时区图可知,各类机器学习算法不断改进,深度神经网络的不断深入,机器学习成为该学科的科研趋势。在发展“智能交通”的大背景下,各类通信技术在进步,云计算技术也在升级,使得车联网技术也成为未来的研究趋势。

猜你喜欢
图谱热点神经网络
基于图对比注意力网络的知识图谱补全
基于神经网络的船舶电力系统故障诊断方法
MIV-PSO-BP神经网络用户热负荷预测
基于改进Hopfield神经网络的对地攻击型无人机自主能力评价
图表
三次样条和二次删除相辅助的WASD神经网络与日本人口预测
4月高考热点关注
主动对接你思维的知识图谱
中国知名官方智库图谱