韦冬妮,齐彩娟,张泽龙,唐梦媛
(国网宁夏电力有限公司经济技术研究院,宁夏银川 750002)
智库作为国家软实力的重要组成部分,各行业需积极探索中国特色新型智库的组织形式和管理方式[1]。随着大数据、人工智能、云计算、5G 等新技术的不断成熟,将其应用于智库领域,能够提升数据管控效率并促进智库长足发展[2-3]。目前,国外一流智库数据管理模式及其特点,对我国智库数据管理、决策咨询服务和可持续发展具有重大意义[4]。
智库主要分为以自用为主和以整合外部资源为主的两种数据管控模式[5-6],在国家电网“1+1+N”的特色专业智库体系建设思路下,省级电力公司企业因地制宜推进了本单位智库建设,积极完善智库运营管控机制并发挥决策支持作用。但当下部分省级供电公司尚未专业、系统地开展省级智库建设,在智库团队组建、平台搭建、成果转化等方面仍不成熟,亟需通过建立数字化、智能化的智库管控系统支撑智库体系建设[7]。
该文提出了一种智库数据管控方法,通过深度数据挖掘算法获得数据层信息的特征及相关联系,以供业务层使用。整个数据管控过程在区块链中进行,确保智库数据的安全可靠。
智库管控系统是基于企业智库的运营机制与各核心要素的管理需求,采用B/S 体系架构开发设计的。其主要分为数据层、支撑层、业务层和表现层4个层次,整体架构如图1 所示。
图1 智库管控系统的整体架构
其中,数据层采用Oracle、SQL 等数据库获取外部资源信息、内部台账信息、管理过程信息等,依托电力物联网采集内外部数据打通能源电力发展与区域经济发展链接的渠道[8]。收集和储存智库服务对象的需求信息、区域经济及行业产业发展最新动向、内部管理台账以及在研究与管理过程中产生的各类相关信息,实现省级电力公司智库业务层面和管理层面信息的全面集约。
支撑层明确智库管控的具体操作包括:需求的发掘、接收、确认;人力资源、研发资金、知识产权的台账化管控;资源需求匹配与交流活动策划等信息交流管控;平台硬件和制度建设等基础设施管理;项目立项、项目研究、成果转化等课题研究价值活动管控;智库阶段性发展目标、智库组织机构管理等[9]。
业务层是全面支撑省级电力公司企业智库业务的功能模块,通过搭建信息交互、研究推进、内部管理三大业务平台,实现内外部业务交互促进。
表现层是将系统架构部署于各类终端,以方便服务对象、社会大众、研究员、智库管理人员等不同角色进行平台操作。如:服务对象通过手机移动终端、电脑桌面开展信息交互;智库管理人员通过电脑桌面或平板查看研究推进情况等。
在所提的智库数据管控方法中,通过深度数据挖掘算法获得数据层信息的特征及相关联系,供业务层使用。整个数据管控过程在区块链中进行,确保智库数据的安全可靠。
区块链可称为分布式账本,其中数据和交易不受任何第三方的控制。区块链是由Satoshi Nakamoto作为比特币的核心部分首次引入,随着技术的发展,出现了适用于不同目标的区块链。但所有区块链均存在一部分共同元素,总结如下:
1)复制账本:区块链网络中的所有节点安全地存储在交易历史数据中,最新的事务被打包到一个区块,其中所有事务均可参与网络所有节点之间的分布和复制[10]。
2)点对点网络:所有节点共享一个公共账本,集中控制参与者不通过互联网接入。换而言之,所有节点均通过对等网络连接,事务与区块通过该网络同步。
3)共识:在区块插入链之前,网络中所有节点需要就区块内交易的有效性和顺序达成共识。最具代表性的共识算法有工作证明(Proof of Work,PoW)、权益证明(Proof of Stake,PoS)和实用拜占庭容错算法(Practical Byzantine Fault Tolerance,PBFT)等。
4)密码学:区块链网络的安全性是基于密码学知识实现的。在区块链网络中,交易的完整性应包括数字签名和专有数据结构(如Merkle 树、Merkle Patricia 树)。此外,数字签名保证交易的真实性,非对称密码体制保证交易的隐私性[11]。
区块链是按照时间顺序将数据区块进行连接,从而组成链式结构。每个区块由区块头和区块体组成[12],如图2 所示。
图2 区块链结构
其中,区块头主要是由数据区块内大多数的验证信息组成,如版本号、时间戳、区块的Merkle 根;区块体主要为电力物联网采集的内外部数据[13]。基于区块链进行数据管控,密钥自身与别的节点均间接交互,这样能够防止交互环节中遭遇网络攻击而造成密钥外泻,确保了数据的安全性[14]。此外,数据只包括数字签名,根本上缩减了区块链的数据传输量。因此可减少构建区块链的耗时,保证数据的时效性。
数据挖掘主要由采集、存储、剖析、挖掘、可视化及数据融合等环节组成。在数据深度挖掘过程中,首先是利用各种传感器获取海量多源的数据,且经过去噪等方式选取符合要求的数据构成数据集进行存储。然后对数据集进行处理和剖析,按照相应的规则将数据集分类,同时剖析数据之间与数据类型之间所存在的关联等[15]。紧接着,将完成分类的数据进行深层次挖掘,采用各种学习算法获得数据之间的内部关联、隐藏的信息结构等。最终将关联、结构等进行可视化,直接的呈现方式便于用户理解,且将相联系的类型予以融合,以进行充分的数据利用[16]。
2.2.1 K-means聚类算法
K-means 算法一般用于数据分类,以欧氏距离作为相似度的评价指标。以任意k个点作为初始聚类核心,再计算其他节点到k个聚类核心的距离,并将其划分至距离最小的类型中。随后统计各个类型中的均值,以完成类核心的迭代。重复此过程,直至平方误差准则函数趋于极小值。
设对象集合M={x1,x2,…,xn},xi={xi1,xi2,…,xit},样本xi与样本xj的欧式距离计算公式如下:
平方准则误差函数如下:
在第i类数据中心,ti为样本个数,ni为均值。
2.2.2 深度学习算法
采用K-means 算法对智库数据特征进行聚类处理,从而完成智库数据特征的筛选,为智库数据的深度挖掘提供依据。在智库数据深度挖掘的过程中,利用深度置信网络(Deep Belief Network,DBN)学习算法分析数据间关系,以便将有关联的类别进行融合。
DBN 作为一种非监督深度学习神经网络,主动学习输入数据并自动挖掘隐藏在已知数据中的信息,可被视为玻尔兹曼机(Restricted Boltzmann Machines,RBM)的堆栈,RBM 是一个基于能量的生成型模型。每个RBM 由可视层和隐藏层构成,可视层负责数据输入,而隐藏层负责特征提取。层与层之间全连接,同一层各单元彼此互不连接,DBN 是由多个RBM 堆叠而成的模型。
设RBM 状态为(v,h),其能量定义为:
新近一些研究证明,慢阻肺不只是一种肺部疾病,还是一种全身性炎症反应性疾病[10]。炎症反应影响患者的呼吸功能,并受血清炎症因子的影响,这说明血清炎症因子可能参与慢阻肺的发生与发展过程[11]。
式中,vi、hj分别为可视层与隐藏层的状态向量;θ为RBM 的参数;Wij为可视层和隐藏层的连接权值;ai、bj分别为可视层与隐藏层的偏置向量。
一旦明确参数,根据能量函数能够获得(v,h)的联合概率分布:
式中,∂(θ)为归一化因子。
实验中智库系统采用B/S 协议设计,数据挖掘算法采用Matlab 编程实现,仿真实验环境配置为:Win10 操作系统,48 GB 内存,AMD A10-5750 M2.50 GHz CPU,并采用分类时间和准确率、安全性作为性能指标评估所提方法。
在所提的智库数据管控系统中,所有数据均是通过区块链技术进行动态更新,以提高数据的安全性。为了验证所提方法在挖掘时间与准确率两个方面的性能,将其与文献[3]、文献[6]、文献[10]进行对比分析,对比结果如图3 所示。
图3 不同智库数据管控方法的挖掘时间和准确率的对比结果
从图3 中可看出,挖掘时间随着数据量的增加而增加,但所提方法的挖掘时间明显低于其他对比方法。由于其采用区块链技术,可分布式进行挖掘且数据挖掘中采用DBN 算法进一步节约了挖掘时间。当数据量为8 MB时,所提方法耗用的时间仅为1.6 s。
此外,所有方法的分析准确率随着数据量的增加均有所提升。相比于其他方法,所提方法在区块链的基础上,利用DBN 算法进行深度挖掘,能够更准确地获得数据特征并将其进行应用。因此当数据达到8 MB时,分析准确率达到93%。从综合挖掘时间与准确率两方面来看,所提方法的数据管控能力是最佳的,能有效应用于智库系统。
安全性是智库数据管控的一个重要指标,将所提方法与文献[3]、文献[6]、文献[10]进行对比分析。在不同数据量下,各方法的安全性能如表1 所示。
表1 不同数据管控安全性对比结果
从表1 中可看出,所提方法的安全性能明显高于其他对比方法,当文件大小为512 kB时,仍不低于80%。随着文件大小的增加,安全性在不断降低,这是因为文件越大,需要管控的数据越多,也就面临更高的安全风险,因此智库系统对管控方法的安全性提出了更高的要求。文献[6]中采用知识管理进行数据管控,但缺乏相应的数据安全防护。文献[10]基于大数据规则挖掘和区块链通信技术进行交互,但应用场合缺乏智库研究,不适用于智库中海量的数据。而所提方法采用区块链技术保证智库数据管控的全程安全,并结合深度挖掘技术应对系统海量的数据,因此所提方法的安全性能最为理想。
智库作为经济高质量发展引擎、行业高质量发展支撑,对决策者与社会产生着重要影响,是新型智库体系的重要组成部分。该文在构建的智库管控系统中,利用K-means 聚类算法分类数据特征,并采用DBN 进行智库数据的深度挖掘。同时整个智库管控过程在区块链网络中进行,保证数据的安全性。实验结果表明,该文所提方法的挖掘时间、准确率和安全性均优于对比方法,因此建立智库推动国家能源电力及经济高质量发展具有重要意义。
虽然区块链技术能保证智库数据管控过程安全、高效,但该技术也存在一定的弊端,例如区块链是不可变的,只能进行追加操作。因此区块链的存储空间会不断增长,其分布式存储的特点造成了资源浪费。此外,网络拥塞、块大小、同步机制等问题也是接下来研究的热点。