付婷婷 苗蕴慧
摘 要: 现阶段工业互联网发展提速,其安全问题也饱受重视。通过选取12篇政府出台的工业互联网相关政策并提取汇总政策文本,运用Python统计文本高频词汇,通过SPSS对其进行因子分析和聚类分析,从而得到工业互联网安全相关政策的关键内容。结果表明工业互联网安全政策主要包括以下四类:工业互联网安全建设及防护、建立与工业互联网发展相匹配的保障能力及工业互联网试点应用安全机制、建立工业互联网安全管理体系、工业互联网安全的服务水平。
关键词: 工业互联网 安全 文本分析 ]
一、引言
随着经济和技术的不断发展,工业互联网受到了更多的关注,与此同时,工业互联网安全也面临着在传统网络安全的复杂环境下捉襟见肘的问题。自2016年来,我国有关政府部门纷纷出台了工业互联网的相关政策,研究学者对我国工业互联网安全的分析也逐渐增多。
何洪流、尚朝锋(2019)分析工业互联网安全面临威胁来源广、工业系统设备自身脆弱等问题,对《国务院关于深化“互联网+先进制造业”发展工业互联网的指导意见》《工业互联网发展行动计划(2018—2020年)》等政策的探讨,提出了要出台政策指引,强化安全保障;健全管理体系,完善管理机制等建议。王新霞、李璇等(2020)通过分析工业互联网在网络通信协议、开放、设备生产商、有关工作人员管理等诸多方面面临的问题,提出了相关建议。孙念、傅为政(2020)基于大数据时代的背景下,分析了工业互联网所面临的挑战,并提出了相应的应对措施。
上述学者,大多对工业互联网的安全问题进行了纯定性分析,还有一些学者则使用Python、SPSS等软件对文本进行分析。袁野、于敏敏等(2018)选取了2017年6月—2018年6月,16个省级层面的人工智能产业规划作为研究样本,运用Python、Gephi等文本挖掘与可视化方法,从高频关键词和内容关联度着手,对政策主体,研究热点,重点领域和相关举措进行分析。马晓玲、杨思琦等(2019)以120篇北美公共图书馆推广阅读的相关政策为样本,利用Python进行分词、合并同义词、统计高频词汇,构建高频词汇的共词矩阵、相异矩阵、相关矩阵,并利用SPSS进行因子分析和聚类分析最终得出政策文本内容主要包括四大类。
基于上述分析,本文通过选取有关工业互联网安全的政策文本,利用Python进行分词,统计高频词汇,并通过SPSS软件进行因子分析和聚类分析,最终得出工业互联网安全相关政策主要包括的内容。
二、研究设计
(一)样本来源
工业互联网安全政策,是指由国家工业和信息部等有关部门出台的关于工业互联网方面的指导意见、发展规划、工作计划、评价方法等政策性文件。样本主要通过人工搜索“工业互联网”“互联网+制造业”“互联网安全”等关键词,在中国政府网等官方网站中搜索,得到政策文件12个。
(二)研究工具和方法
本文的研究工具主要借助于Pycharm软件和SPSS.25.0版本的软件。首先在Pycharm中利用Python的第三方库jieba对工业互联网安全的政策文本进行分词、统计词频等操作;再将统计好的高频词汇导入到excel中构建共词矩阵,然后将共词矩阵导入到spss25.0版本软件中,计算相关矩阵,对数据样本进行因子分析,并根据因子分析的结果确定分类数目,进而对样本进行聚类分析,再根据聚类结果进行进一步的分析和研究。
三、分析过程
(一)高频词汇共词分析
由于工业互联网相关的指导意见、发展规划等政策性文件大多为综合性文件,只有《加强工业互联网安全指导意见》是对工业互联网安全的全面说明,其他的文件中只包括部分与工业互联网安全相关的意见说明等政策。因此,本文通过人工预处理,将所选取的工业互联网政策性文件中与安全相关的部分内容提炼出来,作为后续处理的政策文本。
首先,将提炼出来的工业互联网安全政策文本使用Python的第三方库jieba包进行分词。分词是为了在自然语言处理过程中,更好地处理句子,把句子拆分成一个一个的词语,从而更好地分析句子的特性。其次,自定义用户词典。因为往往分词后可能将原本属于一个词汇的两个字或词拆分成两个或多个,例如,分词结果将“大数据”拆分成“大”和“数据”两个词。此时,为了更好地分析和理解文本,需要重新定义词典。同时,还需要将与语义无关的停用词和标点符号删除,例如:“和”“关于”“通过”等用于连接句子,且与语义表达无关的词语。在统计高频关键词时,需要建立同义词语料库。将一些文字不同但表达含义相同或相似的词语合并为一个词语,例如:本文将“加强”“强化”等语义相同的词汇合并为“加强”一词;将“建设”“建立”等词合并为“建设”一词;将“推动”“促进”等词合并为“推动”一词。进行上述步骤后,再统计高频关键词,经过分词后统计工业互联网安全相关政策的高频关键词,选择词频为10以上的词语作为高频关键词,一共得到了40个高频关键词,如表1所示。
在得到工业互联网安全相关政策的高频关键词后,为了更好地研究高频关键词之间的内在联系,本文将高频关键词词汇表导入到excel中,建立了40〖*〗40的高频关键词共词矩阵,如表2所示。
(二)因子分析
在构建工业互联网安全相关政策高频关键词共词矩阵的基础上,将共词矩阵导入到SPSS25.0软件中,计算生成高频关键词的相关矩阵。数值越大,说明两个词汇之间的相关程度越高;数值越小,说明两个词汇之间的相关程度越小。部分高频关键词相关矩阵如表3所示。并利用工业互联网安全相关政策高频关键词相关矩阵进行因子分析,通过碎石图显著陡峭、特征根大于1和累计贡献率大于85%,这三个特征可知,将高频关键词设置成4個类别,可以覆盖政策文本97.926%的信息。部分因子分析结果如表4所示,碎石图如图1所示。
(三)高频词汇聚类分
所谓的聚类分析,是指根据一批样品的多个指标值,具体找出一些能够度量样本或指标之间相似程度的统计量,将相似程度高的样本或指标划分为一类,把不同的类型一一划分出来,形成由小到大的分类系统。在进行因子分析后,判别可以将高频关键词分为4类,本文采用系统聚类,聚类方法选择组间联结法,计算距离选择欧式平方距离,输出聚类结果——谱系图,如图2所示。高频关键词分类结果如表6所示。
四、结论
由上述聚类分析结果可知,工业互联网安全相关政策文本主要分为以下四大类:
第一类是工业互联网安全的建设与防护。主要包括词汇:工业互联网安全、安全、建设、加强、企业、工业互联网、平台、行业、工业、能力、防护、技术。由以上词汇可知,政府发布的指导意见和政策建议,主体上围绕着建设工业互联网安全平台,加强工业行业的信息安全防护能力,建立工业互联网安全的技術手段。提升工业企业的自身互联网安全技术防护,明确了工业互联网安全要围绕着平台安全、技术安全建立。
第二类是建立与工业互联网发展相匹配的保障能力及工业互联网试点应用的安全机制。主要包括词汇:标准、保障、开展、发展、试点,推动、评估、要求、指导、应用、支持、机制、创新、数据。“开展”“发展”“推动”“支持”表述了我国政府对建设工业互联网安全平台的大力支持,鼓励推动工业互联网在设备、网络、平台、数据等重点领域安全标准的制定,同时也希望企业能够建立与工业互联网发展相匹配的技术保障能力。“应用”、“试点”、“机制”,说明要建立健 全工业应用程序应用前的安全机制,培育创新性的工业互联网安全企业,并在汽车、电子信息、能源等重点领 域展开试点示范,推广应用。
第三类是建立工业互联网安全管理体系。主要词汇包括:产品、系统、应急、管理、国家、监测、责任、检测、工作、风险、处置、体系、设备。其中,“管理”“监测”“监测”“风险”“体系”,要求建立工业互联网安全管理体系,强化平台、网络及数据等重点领域的安全监督检查及风险评估,升级企业的安全监测系统,重点检测网络安全的技术产品要求。以提升工业互联网安全监测、评估、检测和应急处置等能力为重点,建设国家工业信息安全保障中心,为制造业与互联网融合发展提供安全支撑。
第四类是工业互联网安全的服务水平。主要词汇包括:服务。是指通过以上三类:建立工业互联网安全管理体系,搭建工业互联网安全平台假设,开展工业互联网安全的检测评估,从而提高工业互联网安全的服务水平,加强工业互联网安全的公共服务能力,为我国先进制造业、工业互联网的发展营造出一个良好的安全环境。
在今后的研究工作中,希望能够扩大样本容量,将政策样本划分到隶属于哪个部门,以便更深入地了解工业互联网安全的发展情况。