韩义森
(江苏省扬州市政府信息资源管理中心,江苏 扬州 225000)
智慧城市是城市发展的新兴模式,其本质是信息化与城市化的高度融合,实现城市智慧式管理和运行,从而提高城市居民生活幸福感、企业经济竞争力、城市可持续发展及城镇化质量水平等。近年来,各级地方政府都在积极探索智慧城市建设,取得了一定成效。但仍存在着特色不明、共享不足、体验不佳等问题。究其原因,在于未能实现政务大数据与城市功能的良好融合。具体而言,主要存在三个方面挑战:一是信息系统烟囱林立,阻碍数据共享;数据治理普遍薄弱,数据价值挖掘不足;数据管理水平不一,缺乏整体联动。
“十三五”期间,在扬州市委、市政府的统筹领导下,扬州按照国家新型智慧城市、数字中国、智慧社会建设要求,启动了“云上扬州”建设。五年来,“云上扬州”以“民众好用、政府好管”为目标,以“大平台协同、大数据应用、大安全保障”为主线,从体制机制、创新应用、模式探索等方面入手,突出基础设施、数据资源、平台应用、安全保障等关键环节,大力推进“政务、健康、交通、生态、平安、产业、旅游”等七类云应用,取得了阶段性成效。国家发改委、中央网信办牵头开展的 2020 年“新型智慧城市”评测结果表明,扬州市得分率为84.54%,在江苏省保持领先位次,在全国位列第一方阵。但是,随着政府数据程度逐步深入,发现由于当前大数据平台的发展时间尚浅,无法保证政府信息大数据的安全性,使得个人隐私数据和国家重点数据存在重大安全威胁。因此,政府数据共享的最大难题就是如何保证大数据安全,而现有的加密算法显然无法适用于复杂数据的处理。文献[3]以循环移位技术为基础,结合多混沌映射算法设计一种加密算法。根据分段线性混沌映射将待加密数据转化为混沌序列,以此为基础生成数据索引矩阵,置换明文大数据。然后,针对循环移位处理后的数据进行扩散,采用Logistic混沌序列生成自动加密处理后的结果。但是,该方法的加密过程冗余数据较多。文献[4]对数据包进行深入处理,按照隐私权重将数据包划分为两个重要分类。分别研究每一个类别数据包的加密时间,获取权重计算结果,按照降序方式进行权重计算结果排序。由于每一类数据包都存在相对应的传输路径,将排序最先的数据包进行加密传输,在传输完成后计算通道剩余时间,将其余数据包分配至不同传输通路,实现数据的整体加密处理。然而,该数据处理方法加密效果较差。文献[5]以数据消冗技术为基础,构建Bloom filter消冗算法,以此完成数据加密。通过Hamming 距离计算结果,获取待处理数据之间的相似度,采用椭圆加密算法处理去除冗余数据后的数据,将对称和非对称加密算法相结合,设计大数据自动加密模型,以此完成数据加密。通过验证可知,该方法在实际应用中展现出加密安全性较差的缺陷。由于上述算法的加密数据结构的差异性,导致密文信息熵较低,因此考虑到传统加密算法的不足之处,设计新的自动加密算法。对政府大数据进行冗余数据删除处理,利用区块链技术对敏感大数据进行自动加密。通过实验可知,该方法有效提升了密文信息熵,提升了政府共享大数据的安全性。
在大数据加密处理过程中采用冗余数据删除技术,可以有效降低加密算法的计算复杂度[6]。通过对政府共享大数据进行深入分析,获取数据自身的冗余度,以此为基础设计冗余数据删除技术。通过对大数据中存在的冗余数据进行删除处理,使得数据对象具有唯一性,并利用唯一数据对象替换掉其余相似度较高的数据样本。通过预处理技术剔除文件内的冗余数据,使得数据维度得以降低,也使得数据存储空间有效缩减[7]。通过冗余数据删除技术优化数据存储空间,有效压缩了加密处理的工作量,提升了大数据自动加密执行效率。
在冗余数据删除处理后,所展现出的数据缩减率DER计算公式为:
公式中,B表示冗余数据删除前字节数,B0表示冗余数据删除后字节数。通过对数据缩减率进行深入分析可知,政府共享大数据类型划分策略以及划分的数据分块大小都会对计算结果产生影响。
在数据缩减率计算过程中,包含了数据块之间的冗余数据,但是忽略了数据开销所带来的影响。所以,在冗余数据删除技术设计过程中,需要依托于元数据开销,对数据缩减率计算公式进行修正,得出公式(2)的计算过程:
公式中,f表示元数据大小的开销,其计算公式如下:
图1 完全文件检测框架
根据图1所示的完全文件检测框架,将每一个文件进行分块处理,依据单个数据块的粒度从数据集中查找冗余数据。在实际数据检测过程中,主要依靠的是政府共享大数据的整体hash值计算结果与预先存储的hash值比较结果。当两个hash值保持一致,对该文件进行直接存储,否则需要进行冗余数据删除操作。政府共享大数据预处理完成后,为加密处理提供数据支撑。
在政府共享大数据冗余处理后,需要提取出大数据中包含的敏感数据,而后并对该部分数据进行自动加密处理[8],文中采用文本内容作为敏感大数据识别的依据。针对政府大数据中包含的文本数据,以语法分析系统ICTCLAS为主要工具,将数据中所包含的单个词组进行划分,便于后续大数据特征提取操作。在对数据文件分词处理后,按照名词、动词、词长、词性等方式进行分词标记。
对分词处理后的大数据进行特征向量计算,通过计算权值衡量数据特征值[9],该值主要采用TF-IDF公式计算得出。通过分析大量该公式的相关应用可知,利用该公式计算特征值具有可行性。TF-IDF公式的设计是以某一个文本分词在政府共享大数据中出现的次数为基础,当该文本分词出现的次数越多,表明该词语所包含的信息越多,可以更加清晰地描述大数据内容。但需要注意的是,一旦该文本分词在其他大数据信息中出现次数过多,则该分析的代表性有所降低,将TF-IDF计算公式结果定义为d,得到如下计算公式:
公式中,t表示词组i在政府共享大数据中出现的次数,N表示文档总数,n表示数据库中包含词组的文档数量。以政府共享大数据中将会对国家和个人带来安全风险的数据作为典型敏感数据,生成敏感数据特征向量V,将其表示为:
公式中,d表示敏感数据,m表示文本词性,n表示词频统计结果。以敏感数据的特征向量计算结果为依据,明确对应关键词在开放大数据文档中的权值,获取在开放大数据中该关键词的特征向量。文中针对两个特征向量计算结果,应用余弦公式计算出二者之间的相似度,余弦相似度θ计算公式表示为:
公式中,V1、V2表示两个文档的特征向量,表示文档标准向量点积,则存在以下关系式:
根据公式(6)的计算结果,将其与预先设定阈值进行比较,当计算结果高于设定阈值,将该文档识别为敏感数据。针对敏感数据识别阈值,文中采用自动学习的方式进行获取。通过采集典型安全数据与敏感数据的关键词,构成敏感数据库,通过自适应迭代计算获取敏感数据判断阈值。
根据上述敏感数据识别技术得到的结果存在较高的误判率,为了提升识别准确率,文中以误判率计算结果为基础,修正判断阈值。误判率rata计算公式为:
公式中,A表示正确识别到的安全文档数量,B表示正确识别到的敏感文档数量,C表示错误识别为安全文档数量,D表示错误识别为敏感文档的数量。根据误判率计算结果,对上述敏感数据识别技术进行修正,保证敏感数据识别结果准确率可以进一步提升。
针对上述计算提取出来的敏感大数据,文中采用区块链技术结合同态加密算法,生成加密区块数据结构,以此完成政府开发大数据自动加密处理。本文在常规的区块链基础上,采用同态加密技术与其结合可以更好地保护敏感数据安全[10]。在实际应用中,根据加密区块数据结构形成的隐私区块链,将政府共享大数据中的敏感数据进行加密处理,形成密文信息,并将其存储于数据区块内。文中按照上述敏感大数据识别技术,将开放大数据划分为敏感数据、安全数据两类,以此这一部分仅需要对敏感数据展开同态加密处理。
文中选定具有同态性质的Paillie算法进行加密处理,处理步骤如下所示。首先,随机选定两个大质数,并计算二者之间的最小公倍数N,再选定一个整数g,使得,则N、g分别表示大数据加密处理生成的公钥和私钥。之后,随机选定一个整数,使得上述识别的敏感数据属于该整数,通过公钥对敏感数据进行加密,得到相应密文。
将敏感数据进行汇总,形成数据集msg,采用区块链技术对每个msg签名分配一个对应的私钥,对于有对应签名的数据,采用散列方式计算数据散列值,并将计算结果放置于区块链的区块头内。考虑到Paillie加密算法的加法同态特点,文中选取某一条敏感数据进行分析,发现该大数据包含两次访问记录,针对每一条访问记录展开加密处理,得出以下综合加密公式:
公式中,v1、v2表示两次访问时间,r1、r2表示访问记录密文,g表示公钥,N表示私钥,E表示任意运算,c1表示第一次访问加密结果,c2表示第二次访问加密结果。通过上述加密处理,可以在不公布两次访问记录的基础上,获取开放大数据的加密密文。
而对密文的解密处理需要以明文为基础,密文解密公式为:依据同态加密技术处理后,获取新的区块链数据结果,生成的结构如图2所示。
图2 基于同态加密的块数据结构
在图2所示的块数据结构中,针对开放大数据进行划分处理,选定敏感数据进行同态加密,形成散列数据DT。通过上述操作形成的加密区块数据结构,实现政府大数据自动加密处理。
针对以区块链技术为基础的,政府共享大数据自动加密算法进行实验验证,已验证本文所设计算法的有效性。在实验过程中,通过编程的方式进行数据加解密测试,在数据加密后对其抗攻击能力进行测试,明确文中设计方法的实际应用效果。为了使得实验贴近实际应用环境,文中设计的实验利用visual studio 2020开发环境,并应用C语言编程作为主要实验工具。
对大数据加密算法进行实验选定的平台为实验室Hadoop,主要包括6台计算机。根据Hadoop平台的基本组成要求,选取其中一台计算机作为服务器,负责记录Name Node,实时调整实验数据。除此之外,将其余几台计算机作为主要实验工具,发挥节点计算与存储的作用。考虑到实际应用环境,为了加强实验环境的真实性,再添加5台计算机,这几台计算机的配置具有较大差异性。在实验平台的构建中,计算机配置参数如表1所示。
表1 实验所需计算机配置参数
分析表1显示的计算机配置参数可知,实验平台中包含3台计算和存储水平较强的计算机,而另外3台计算机的存储与计算能力较弱。根据大数据自动加密算法的实际应用环境,选择性能较强的计算机充当计算和存储节点,使得实验环境符合密算法实验能力的需求。实验平台的设计除了上述硬件要求外,对实验所需软件也有较高要求。按照上述要求构建的实验平台,可以保证实验过程的稳定性,更加直观地展现出政府共享大数据自动加密算法的应用性能。
以区块链为基础构建的大数据自动加密算法,在实验过程中,采用一个大小为159874KB的数据文件作为实验样本。考虑到政府共享大数据的数据量较大,在进行数据共享时往往会将多个大型数据文件放置于开放数据平台内。所以,大数据自动加密算法的应用过程中,需要满足大型文件加密要求。所以对本文所设计算法进行加密功能测试时,选取较大的文件作为实验数据,获取更加准确的应用结果。在数据加解密处理过程中,为了将数据处理结果更直观地呈现出来,按照固定的样本分块长度,获取待处理的敏感数据幅值变化情况,具体如图3所示。
图3 待加密的敏感数据幅值变化图
图3所示的敏感数据幅值变化情况,是将样本分块长度设置为120bit时得到的,以此为基础展开数据加密功能测试。
在政府共享大数据遭遇风险时,入侵者会根据密文数据统计结果,将其与明文之间统计结果进行对比,破译者可以为依据,得到明文与密文之间的变换规律。为了提升数据加密效果,需要保证密文特性统计结果的随机性更高。除了文中设计的加密算法外,实验过程中采用文献[3]、文献[4]提出的加密算法对同样的实验数据进行加密处理,并将三种算法的处理结果用直方图描述出来,大数据加密效果对比结果如图4所示。
通常情况下,直方图分布结果越均匀,表明数据加密效果越好。根据图4显示的直方图对比结果可知,文献[3]、文献[4]加密算法的数据加密结果与原始数据相比,直方图分布向着均匀化方向进步,但无法达到加密要求。而本文所设计的加密算法得出的直方图非常均匀,使得攻击者的密文破译难度提升,有效提升政府开放性大数据对于攻击的防御能力。
为了将加密效果直观地展示出来,文中采用密文信息熵计算结果,作为指标评估加密算法的应用效果。由于密文信息熵代表着文本加密后词句之间的信息关联程度。信息熵计算结果越大,密文信息关联性越低,表明数据安全性越高。依据一维信息熵定义得出:
公式中,H表示信息熵,P表示密文和明文词语的信息关联度,x表示某一条数据。根据上述公式,获取图5所示的三种加密算法的密文信息熵对比结果。
图4 大数据加密效果对比
图5 不同加密算法的密文信息熵对比
根据图5可知,本文所设计加密算法的密文信息熵高达7.89,而文献[3]、文献[4]算法的密文信息熵分别为3.51、2.01。综上所述,文中提出以区块链技术为基础的大数据自动加密算法,使得密文信息熵提升了56%、84%,更好地保护了原始数据信息。
文中以提升政府共享大数据安全性为主要目标,设计以区块链技术为核心的自动加密算法。对进行冗余数据删除处理后,提取出其中的敏感数据,根据加密区块数据结构以及同态加密算法进行自动加密。通过实验结果可知,该方法的应用使得密文信息熵大幅度提升,更好地保护了原始数据。通过本算法的应用扬州的政务大数据共享工作在智慧城市建设过程中取得如下成绩:
(1)以资源整合筑牢基础,搭建智慧城市“四梁八柱”。自2011年起,扬州在江苏省率先启动政府数据资源中心(大数据中心)建设,从基础设施、信息系统、数据资源三个层面推进整合共享。目前,扬州市政府大数据中心已形成“两地五中心”架构(即:产业基地主中心、移动双活中心、电信备份中心、政法大数据中心和盐城异地数据备份中心),初步实现政务信息基础设施统建共用。
一是强化扎口管理,建立统一的信息资源共享机制。先后出台《扬州市政务信息资源共享管理办法》《云上扬州项目建设管理和考核实施意见》等文件,将数据共享作为各部门信息化项目立项审核、竣工验收和运维经费安排的必要条件,做到“不共享、不立项、不拨款”,有效避免信息孤岛现象,强化扎口管理。
二是细化专网整合,建成统一的电子政务外网。整合各部门业务专网43条,建设电子政务外网,共接入214个市直单位、581个区县部门、83个乡镇街道、1399个村社区及卫生站,实现了省、市、县、乡、村全线贯通。
三是优化设施统建,搭建统一的机房环境支撑。建成扬州市政府大数据中心,为全市3个区、3个功能区、64家市直单位和3家国有企业的190个应用系统统一提供运行支撑,累计节约财政资金2亿多元(平均每年3000多万元)。
四是活化数据湖泊,打造统一的大数据共享开放平台。扬州市大数据共享开放平台建成人口、法人、电子证照等五大基础数据库和政务、健康、交通、生态、平安等10类主题数据库,累计归集6个县(市、区)、3个功能区、47个市直单位共计约9.24亿条数据,发布共享目录3465条。市大数据共享开放平台项目获“2019智慧江苏重点工程”,扬州市综合基础库建设以全省第二的成绩通过2020年省高质量发展考核。
五是量化网站管理,建设统一的政府门户网站群。建成市县两级一体化政府门户网站群,整合各类政府网站347个;为42个党群口部门、公共企事业单位、机构等提供网站集约化建设和运维服务。
六是深化一体设计,提供统一的智慧城市安全保障。建成一体化“安全管云”体系,实现统一运行监测、统一等级保护测评、统一安全服务保障,保障市政府大数据中心运行安全。
(1)以政务大数据应用为支撑,城市运行更加智能。启动“云上扬州”建设以来,我市着力加强政务大数据的开发利用和开放共享,构建政务服务、社会治理、产业发展等多领域应用场景,发挥数据价值,提升城市智慧。
公积金提取“秒办结”。我市公积金中心90%以上的业务已由“线下”迁入“线上”,提供7*24小时“不打烊”线上服务(疫情期间未受影响),随时受理、实时办结(30秒)。累计调用市政府大数据中心数据近30万次,线上办理业务近21万笔,提取业务18万笔,提取金额近30亿元。同时核查出假离婚4165笔,假结婚463笔,假购房合同836笔,假房产证明1438笔。2020年8月,公积金“综合服务平台”以全国第一成绩98.7分通过住建部专家组验收,被江苏省信用办评为“全省工作创新项目”。2021年3月起,扬州大市范围内购买商品房提取公积金全部实现线上办理。
健康档案“联网查”。目前全市居民电子健康档案覆盖率达85%,有了连续的健康档案,可以实现让居民达到“记录一生、管理一生、健康一生”。在2021年度各类医疗卫生机构、大数据中心等单位以及居民个人累计完成居民档案档调阅536万次。居民可通过“健康扬州”APP查询个人医疗服务、献血记录、个人体检报告、检验检查报告等信息。
停车出行“无感付”。联网接入扬州市区147个公共停车场51944个停车泊位,整合437个公共自行车站点12500辆公共自行车、210条公交线路2232辆公交车、63个充电桩站1042个充电桩等信息,并在主要路段设置40个停车诱导屏(其中一级诱导屏4块、二级诱导屏11块、三级诱导屏25块),目前停车月订单量超140万条,有效缓解“停车难、充电难、行车难、出行难”等问题。
平安城市“重防范”。围绕实战引领需求的目标,扬州市公安局通过市政府大数据中心的数据支撑,搭建了违法犯罪人员轨迹核查、在逃人员比对、重点人员管控等各类模型12个。今年以来,公安机关通过群租房管理模型发现全市群租房风险单位26个,经民警排查后确认1家为传销机构,目前该案已抓获犯罪团伙头目2人。
供电业务“刷脸办”。率先在江苏省实现“刷脸”办电,目前已在城区营业厅设立了试点,可以办理新装增容、变更用电等20项业务。“零证办电”上线以来,市区营业厅通过“刷脸”方式办理个人业务397项、企业业务96项,年底前将实现市区两个城区营业网点和市郊12个农村营业网点“刷脸”办电业务全覆盖。
企业奖补“易申报”。助力扬州市中小企业发展专项资金圆满实现“网上直报直审”,做到358家企业申报“一次不用跑、材料零装订”、部门审核“统一尺度、即收即审”,系统精准查验发票7724张,涉及金额近10亿,节约第三方事务所审计资金75万元,帮助企业节约材料装订和运输成本近4万元。
(3)以数据融合谋求发展,打造“数字政府”。“十四五”开局之年,扬州市以打造“数字政府”为目标,聚焦政务大数据的数据融合、应用融合、产业融合,赋能智慧城市高质量发展。
政务服务“一网通办”。打通不同部门的自建业务系统,打破“数据壁垒”,整合政务服务各类数据资源,依托一体化在线政务服务平台,推行政务服务事项网上全生命周期办理,推动企业群众办事线上只登录一次即可全网通办,即让“数据多跑路、群众少跑腿”,解决企业和群众“办不完的手续、盖不完的章、跑不完的路”等麻烦。推进高频政务服务事项“跨省通办”,同步建立清单化管理制度和更新机制,有效满足各类市场主体和广大人民群众异地办事需求。
城市运行“一网统管”。充分发挥数据赋能、信息调度、趋势研判、综合指挥、应急处置等作用,推动全市数据资源的集成共享和政务应用的创新开发,打造集“搜索、分析、预警、问效”为一体的社会治理现代化指挥中心,构建数据畅通、部门联通、上下贯通、政策沟通、治理融通和人心相通的“一网统管”体系,实现城市管理科学化、市域治理精准化、公共服务高效化、突发事件应急化。
政府决策“一屏总览”。发挥政务大数据在善政、兴业、惠民领域的决策支持作用,构建数据驱动、协同融合的决策支持应用体系,满足多维度、多层面、多场景的需求。建设“领导驾驶舱”,以“全景图”刻画为导向,用数据全面描绘现实社会和虚拟空间的运行态势,强化数据融合分析,建成智能化辅助决策体系,满足政府、企业、群众信息需求,提升政府决策科学化水平。
高频事项“一链全达”。深入推进企业开办一件事、退休一件事、新生儿出生一件事、结婚(离婚)一件事、不动产登记等10个“一件事”改革工作。通过整合事项、流程再造、信息共享,线上一个平台或线下一个窗口统一办理,形成“一窗受理、一次告知、一表申请、一套材料、一次提交、一次反馈、一次分办、一窗出件、一号服务、一键评价”的全链条办理模式,切实提升政务服务水平。