赵志远,常 昊
(1.福州大学数字中国研究院(福建),福州 350003; 2.空间数据挖掘与信息共享教育部重点实验室,福州 350003;3.政务大数据应用省部共建协同创新中心,福州 350002)
建设数字中国是数字时代推进中国式现代化的重要引擎,是构筑国家竞争新优势的有力支撑[1-2],其中数字政府建设是推进国家治理体系和治理能力现代化的重要途径,是数字中国建设的先导工程[3-4]。电子证照是指具有法律效力和行政效力的专业性、凭证类电子文件,是支撑政府服务运行的重要基础数据[5-6],提高电子证照的使用效率和智能化应用水平,能够助力精简办事材料,优化办事流程,让“数据跑路”代替“群众跑腿”,对增强数字政府公共服务的履职能力和群众办事获得感具有重要作用[7-11]。
我国电子证照服务系统的构建和数据的汇聚共享为电子证照的智能化应用提供了良好的基础条件。2019年5月底,依托全国一体化在线政务服务平台建设的国家电子证照共享服务系统上线试运行,截至2020年6月,归集了各类证照860多种,目录信息31亿[12]。甘肃省持续推进电子证照汇聚共享,截至2022年5月底,全省电子证照累计归集数量达到近5 000万条,电子印章归集数量达到2万多个[13]。广东省深圳市不断深化电子证照建设应用,在全国率先大规模推进电子证照“主动化、智能化”共享应用[14]。上述信息化平台的建设为电子证照的普及推广奠定了基础,然而有关应用是传统业务流程由线下向线上迁移为主,应用智能化水平不高。
结合具体政务服务事件及电子证照应用场景进行智能服务研究是必要的。现有研究中关于数字政务研究以理论性研究偏多。例如,汪玉凯[15]结合5G(第5代移动通信技术)探讨了数字政务的发展方向;徐恩庆等[16]对政务大模型在数字政府发展中的应用进行了探讨;田赢凤和李俊亭[17]从公众驱动型动机和政府驱动型动机两方面探讨影响公众使用线上政务的原因。相关涉及电子证照具体技术性研究多以专利形式呈现,并未实际下沉到具体应用场景。现有关于电子证照智能化应用的研究主要分为3类:一是电子证照安全存储、关联及识别验证,如电子证照授权及使用[18],使用区块链技术实现电子证照储存、共享[19-21];二是基于单次政务服务事件关联关系预测,如基于政务样本场景用唯一标识符串联政务服务事件与电子证照组合[22]、基于业务请求识别身份获取需要的电子证照组合[23-24];三是对政务服务事件办理流程优化实现电子证照信息“少填”“少报”,如通过拆分电子证照的申请请求,识别出不同办理事项的前后置关系,提前准备预处理环节[25]。然而有关应用场景需要在用户明确需要办理的政务服务事件之后方能发挥作用,难以实现电子证照用证提前预测。因此根据政务服务事件办理流程进行电子证照用证推荐及提前预测具有一定创新性。
由于有关政务服务事项及电子证照之间相互独立,因此朴素贝叶斯网络模型的条件概率推理能力能够支撑电子证照预测推荐。朴素贝叶斯网络模型是贝叶斯网络模型[26-27]的一种节点相互独立的特殊情况。基于朴素贝叶斯网络,将群众政务服务办事用到的电子证照作为节点,将事项办理前后关系作为网络连接边构建推荐模型,能够实现群众办事用证提前预测推荐,从而提高电子证照用证智能服务水平。
实验中通过将朴素贝叶斯网络模型与政务服务事件节点结合形成政务服务事件的网络模型,对电子证照用证智能服务进行研究。首先依据同一申请用户的政务服务事件与政务服务事件之间的时间顺序关系,形成网络模型,再根据数据中涉及事件节点的条件概率计算形成预测结果。
朴素贝叶斯网络[28-29]是一种基于贝叶斯定理和特征条件独立性假设的概率图模型,用于表示和推断变量之间的依赖关系。它采用了贝叶斯定理和条件独立性假设,实现分类、预测和推理任务。在朴素贝叶斯网络中,变量通常被组织成有向无环图。图1中设定节点表示实际的政务服务事件名称,而模型中的边表示政务服务事件之间的时间顺序关系,由特定时间窗口内,同一用户先办理的政务服务事件指向后办理的政务服务事件。根据上述有向关联关系,构建事项节点之间的先验概率和条件概率,并基于有关模型实现预测。朴素贝叶斯网络构建和预测步骤如下。
图1 部分朴素贝叶斯网络模型结构
2.1.1 网络学习
首先基于同一申请对象,按照时间顺序将办理的政务服务事件进行梳理,因为朴素贝叶斯网络模型的样本特征之间相互独立,所以每个申请对象的政务服务事件办理流程形成一条模型中的一条独立网络链路。图1表示群众办理居住证签注后,在一定时间周期内又办理了居住证申领、个体工商户备案等事项,可以据此构建节点之间的有向图网络。
2.1.2 参数学习
将政务服务事件节点设定为朴素贝叶斯网络的节点,并根据有向图结构计算节点之间的先验概率、后验概率。基本贝叶斯定理表达式为
(1)
式中:P(y|x)为后验概率,即在给定初始节点x的情况下,预测下一个节点是y的概率;p(y)为初始节点y的先验概率;p(x)为预测节点x的先验概率;p(x|y)为似然度,即已知节点y情况下,预测节点是x的条件概率。其中先验概率的计算公式为
(2)
式中:p(y)为政务服务事件节点y的先验概率;C(y)为政务服务事件节点y在整个数据集中出现的次数;TC为样本总数。根据朴素贝叶斯模型中条件特征之间相互独立的特点,则p(x|y)计算公式变形为
(3)
式中:C(x|y)为政务服务事件节点x、y同时在数据集中出现的次数;C(y)为节点y在整个数据中出现的次数。
2.1.3 电子证照推荐
基于原始数据集,统计每种类型政务服务事件使用的电子证照种类及每种电子证照使用的次数。结合预测节点的具体名称,按照推荐程度由高到低的顺序,推荐其所需且使用次数排名前5的电子证照,如式(4)所示。
R={[y1,l1],[y2,l2],…,[y5,l5]}
(4)
式中:R为依据模型结果排名前5的政务服务事件节点及对应的电子证照;li为政务服务事件yi对应的电子证照,推荐概率依次递减。
将数据集划分成训练数据集和测试数据集,使用训练数据集建立模型和计算各节点的先验概率。遍历测试数据集的每个政务服务事件组合,给出后验概率排名前5预测的节点信息,如包含了测试的政务服务事件组合节点则认为是正确预测。整个数据集的准确率计算公式为
(5)
式中:A为测试数据集预测的准确率;At为预测正确的政务服务事件组合数量;TP为测试数据集总数量。
采用某省2022年4—8月共5个月的全省政务服务事项用证数据检验有关方法的有效性。有关记录包括所在地区、事项名称、申报时间、申报对象类型(个人/法人)、申报对象唯一ID、使用证件等属性字段,示例数据见表1。对原始数据中的空值、重复值、无效值进行清洗,最终剩余有效记录约115万条。某省各地市办件数量分布如图2所示。
表1 部分数据部分属性字段示例
数据中累计使用电子证照证种类共190种,累计用证数量达到190万余次,其中个人办件和法人办件排名前5的证件如图3所示,累计用证数量占比分别为76.69%和85.48%,其中身份证和营业执照分别为个人办事和法人办事最频繁用到的证件。可以看出,个人办件的证件集中程度低于法人办件事项。
图3 个人和法人累计使用次数排名前5电子证照
在5个月周期内,根据同一个人或法人存在两起以上办件的先后顺序进行组合,其中高频组合的事项表示在短时间内,同一个体或法人会有组合办件的潜力。其中个人高频组合事项前10种组合见表2,主要与居住证、公积金、不动产登记等业务为主,累计占所有组合的14.89%,其中“居住证签注-国有建设用地使用权及房屋所有权转移登记”是最高频的组合,各组合占比如图4所示。
表2 个人高频组合对应代称
图4 个人高频政务服务事件组合占比
法人办事的高频政务服务事件组合前10种见表3,主要是用地抵押、毕业生接收、车辆年审等事项中的高频事项,前10种组合累计占比49.46%,其中最频繁的组合为“预告登记的设立-抵押权首次登记”,各类组合占比如图5所示。
表3 法人高频组合对应代称
图5 法人高频政务服务事件组合占比
实验划分2022年4—7月数据为训练数据集建立模型,2022年8月数据测试数据集进行模型结果预测以及事件节点预测的准确率,结果见表4,其中总数据集、个人、法人3种类的准确率分别表示基于所有数据、个人办件、法人办件数据的准确率结果。可以看出,法人办件用证的准确率最高,达到68.51%,个人办件用证预测准确率为53.22%。将所有信息混在一起时,对朴素贝叶斯网络的干扰较大,使得有关网络概率转移矩阵更为稀疏随机,整体用证预测准确率仅为39.49%。
表4 预测准确率
不难发现,基于全局数据构建的朴素贝叶斯模型预测准确度低于分别基于合理分类子集构建的模型。在研究实验中,数据集中个人办事的数据量远大于企业法人办事的数据量,使模型在预测时更倾向于个人类别的特征。将两种办事情况分开预测后,预测的准确率都有提升,其中个人类别准确率提升了13.73%,法人提升了29.02%。其中法人准确率提升更大的原因是法人对应企业,各企业有专门管理政务服务事件办理的部门,具有比较成熟的管理方法及面对相同情况的办事经验,而相应的政务部门应对法人办事具有更加成熟的流程,且法人办件的集中程度较高,故预测的准确率更高。
考虑到合理划分子集,并分别构建朴素贝叶斯网络模型能够有效提升预测准确度,为此,进一步基于地域信息分别构建预测模型。以甲市、乙市、戊市、丁市、辛市5个地市的数据集为例进行预测,准确率如图6所示。
图6 各地市预测准确率
从各地市数据集看,总体推荐率各有升降,其中乙市准确率最高,改善程度最大,预测精度达88.94%;甲市比较特殊,不升反降,预测准确率仅为27.05%。甲市准确率降低很多的原因是甲市是省会城市,省属单位大部分都在甲市办公,因此甲市的政务服务事件办理会增加很多种不同的情况,其余各地市中,丁市和辛市均有明显提升。
从个人和法人用证角度来看,各地市预测准确率均有提升,其中乙市和辛市各类别预测准确率在5个地市中提升程度显著,预测准确率均超过93%,其中乙市第三产业占比较高(图7),服务业较为发达,政务服务水平总体较高,而辛市受乙市经济辐射影响也表现出较高的预测精度。戊市则表现出另外的特点,对于个体办事而言,改善程度并不明显,但在法人办事方面,用证推荐准确性达到92.63%,这可能缘于戊市本身以第二产业占比较高的原因(图7)。作为全国民营企业的代表地区,戊市产生“晋江经验”的民营企业快速发展模式,这凸显出本地政府对企业办事的重视。
数据来源于各市统计年鉴
在构建朴素贝叶斯网络时,用于建立政务服务事项前后关联关系的时间窗口对有关网络结构和稀疏程度具有重要影响。同时,当时间窗口逐渐减小,其所代表的高频组合事项具有更为直接的决策指导意义,因为有关组合事项意味着当个体或法人办理某事项后,在较短时间内还会办理其他事项,有关信息对推进数字政府建设中的“一件事集成套餐式”服务改革具有重要参考意义。对于个人办件而言,前5种政务服务事项组合的时间间隔见表5,可以看出平均时间间隔均在3 d以内,这意味着当完成前一个政务服务事项后,在3 d时间内,会办理下一个事项。对于法人办事,则更为明显见表6,前5种高频的政务办件事项组合时间间隔中,前4项基本上平均在1 d内。有关组合对遴选“一件事集成套餐式”服务改革具有直接的参考意义。
表5 个人高频事项组合时间间隔
表6 法人高频事项组合时间间隔
为了测试不同时间窗口下,研究预测算法的普适性,在原有5个月的基础之上,分别对比7 d和30 d的时间窗口模型,进一步测试有关用证组合推荐的准确率,结果见表7。可以看出,随着时间窗口的缩短,模型预测的准确率有所降低,其原因在于当时间窗口缩小时,有很多组合将不再存在,朴素贝叶斯网络将会变得破碎而稀疏,预测准确率有所下降。但即使如此,7 d的时间窗口下的总体预测准确率依然有16.15%,这对于推动更多政务服务事项组合办理具有重要意义。
表7 综合时间因素的预测总准确率
从个人和法人用证角度,7 d、30 d的时间窗口预测准确率均低于无时间限制条件的数据准确率,但相对于相同条件的全局数据准确率均有提升,见表8。印证了上述随时间窗口缩小、模型预测准确率降低的结论。同时也反映出从个人、法人两个角度建模在不同时间窗口下对于模型推荐的准确率均有提升,是后续继续研究电子证照智能服务重点考虑的方向。
表8 综合时间因素的预测准确率
提出一种电子证照智能服务的方法。该方法基于设定时间窗口内政务服务事件办件先后顺序,利用朴素贝叶斯模型构建关系网络模型,进行电子证照用证预测。根据某省的电子证照用证数据及上述实验得到如下结论。
(1)个人及法人办件高频组合中,前者高频组合以居住证、公积金、不动产等业务为主,累计占比14.89%,法人高频组合以用地抵押、毕业生接收、车辆年审等业务为主,累计占比49.47%,后者呈现出明显的聚集型。
(2)以全局数据、个人数据集、法人数据集分别建立模型进行节点预测,其准确率分别为39.49%、53.22%、68.51%,其中个人、法人两种类别的节点预测准确率相比于全局数据分别提高了13.73%和29.02%。
(3)综合考虑地域因素,挑选甲市、乙市、丁市、戊市、辛市5个城市进行预测,大部分城市提升效果明显,其中乙市提升效果最明显,预测准确率最高为96.24%,而甲市因属于省会城市,受省直各部门办件影响,预测准确率有所下降。
(4)模型预测准确率随时间窗口缩小而下降,在7 d的时间窗口中,个人和法人类型用证推荐准确率分别为39.34%和46.71%。
在进行初步的电子证照用证智能服务的研究后,仍存在如下不足:根据已知节点的名称,无法判断居民办理政务服务事件具体属于何种办理情况,因此未从居民办件体验角度考虑,后续可以考虑引入知识图谱方法,实现居民理解意向与办件官方名称匹配机制。此外,有关方法未充分考虑到居民的性别、年龄、职业等基本信息对政务服务事件办理的影响,后续可以加入这几种因素进行建模分析。