摘 要:为了监控用户端数据负荷水平,按照电子政务信息提取框架的处置需求,设计了用户行为管理模块数据挖掘驱动单元的连接,完成用户行为特征提取系统的硬件环境搭建。采用关联电子政务用户行为特征树,存储各类待挖掘的电子政府系统访问数据,完成系统软件设计。实验结果表明,与基于k-means的提取系统相比,应用提出的特征提取系统后,电子政务用户端的数据负荷水平明显下降,用户端主体的数据负荷压力得到良好的监控,从而提供了公众对电子政务系统的满意度。
关键词:电子政务;数据挖掘;用户端数据;特征提取;用户行为
中图分类号:TP399 文献标识码:A
Design of E-government User Behavior Feature
Extraction System Based on Data Mining
ZHANG Hua?
(Shannxi Academy of Governance,Shannxi Province Party School of CPC,Xi'an,Shannxi 710068,China)
Abstract:In order to monitor the data load level of users,according to the disposal requirements of e-government information extraction framework,the connection of data mining driver unit of user behavior management module is designed to complete the hardware environment construction of user behavior feature extraction system. By using the behavior characteristic tree of the associated e-government users,the access data of various e-government systems to be mined are stored,and the system software design is completed. The experimental results show that,compared with the K-means based extraction system,the data load level of e-government users is significantly reduced after the application of the proposed feature extraction system,and the data load pressure of users is well monitored,thus providing public satisfaction with the e-government system.
Key words:e-government;data mining;client data;feature extraction;user behavior
电子政府利用电子信息及通讯科技,并由政府向市民提供资讯及公共服务。更广泛地讲,电子政务是在公共部门使用和应用信息通信技术,以简化和整合工作流程,从而有效管理数据和信息,增强公共服务交付以及扩大参与和沟通的交互渠道。近年来,许多研究者关注电子政务的发展趋势、电子政务服务的度量和各种电子政务模式的部署,以帮助政府实现这些目标。互联网在电子政务平台中扮演着重要的角色,促进了电子服务的普及[1]。
电子政务成功的关键在于公众的信任,即对电子政务系统的采纳程度。通过分析用户行为特征,得到用户的偏好,可以帮助电子政务系统解决当前存在的问题,并更好地服务于公众[2],满足公众的需求,高效率解决公众面临的问题。数据库在处理增量数据方面面临许多挑战,比如难以分析、识别和解释大量数据,这些问题可以通过数据挖掘技术得以解决,该技术能够提取新知识、按需检索和预测,从而做出决策。
随着信息通信技术的不断发展,如何协调电子政务用户端主体的数据负荷压力成为了亟待解决的问题。为缓解上述情况,基于k-means处理系统按照电子政务用户细分标准,平均相邻提取节点之间的数据传输量,再联合相关用户层设备,建立用户行为特征提取的数据库。但这种系统所占用的数据用户负荷过高,很难实现传输数据的快速转存。数据挖掘可以定义为从大型数据集中提取隐藏数据的过程,被广泛应用于各种环境和领域。利用数据挖掘技术,可以对数据进行预测、分类、过滤和聚类。基于此,引入数据挖掘原理,在挖掘驱动单元、行为特征树等软硬件结构的支持下,设计一种新型的用户行为特征提取系统,并通过实验对比的方式,突出说明该系统的实际应用价值。
为了改进电子政务中的数据管理以及电子政务系统的用户行为特征提取,人们做了大量的研究工作,主要集中在数据挖掘方法方面。文献[3]提出了基于K-means算法的电子政务用户细分模型,该模型系统地阐释了构建用户细分模型,并进行实证分析,但是该模型在电子政务用户端数据量检测方面存在明显不足,即无法准确监控用户行为特征。文献[4]提出了一种基于决策树索引方法的DNA模型,同时描述了各种索引方法类型。该研究依赖于DNA数据集,并提出了一个模型以找到一种有效的方式来检索、插入、删除元素、最小化空间、查询大小等。使用冗余数据生成了复杂的规则,以满足内存瓶颈的要求。此外,还将实验结果与另一种算法索引方法进行了比较。文献[5]提出了一种基于智能卡的分布式数据库的用户行为识别模型。智能卡的数据包括识别信息,该识别信息由生物特征、属性和一些个人信息组成。文献[6]提出了基于关键词的搜索系统,致力于提高搜索任务的性能并有效地管理数据库,使用了数据挖掘算法索引数据库以及图形和模式方法的聚类技术。文献[7]提出并讨论了数据挖掘方法对使用Java编程语言从在线电子服务生成的大量数据的有效性,提出了一个将申诉补偿纳入电子政务框架的模式。该模型计算了数据挖掘技术中已解决的分类数据、检测和跟踪等不同应用的学习效率成本。文献[8]提出了一个用于优化电子政务中数据挖掘的原型,重点从数据库中检索信息。在上述研究的基础上,建立了数据挖掘模型,设计一种新型的用户行为特征提取系统,并通过实验对比的方式,突出说明该系统的实际应用价值,从而以更高的准确性和更快的訪问方法读取电子政务系统用户端更精确的数据。
1 数据挖掘
数据挖掘有时被称为数据库中的知识发现(Knowledge Discovery in Databases,KDD),可以定义为在大量数据中通过提取知识然后对其进行分析的过程,数据挖掘是大数据技术与人工智能技术相结合的产物。数据挖掘的第一个主要任务是分类,该分类用于按类别值(标签或目标)对对象进行分类[9-10]。因此,每个对象都属于一个特定的类,例如常见的决策树,它是公共的类。人们提出了许多分类算法来管理数据,如Quinlan、CHART、FACT、k-means等。分类方法的主要思想是获得最大的准确度,以预测数据库中每种情况的正确分类。聚类是数据挖掘方法的第二项任务,被称为无监督学习,它是在一个群集中与其他群集不同的实体。总而言之,分类方法和聚类方法都可以用于分析数据管理,然后将分析后的数据作为一个循環[11]进行传递用于测量,如图1所示。
数据挖掘是指借助算法隐藏搜索功能、获取信息执行参量的过程,由无指导处置行为、有指导处置行为两大基本类型组成。无指导数据挖掘是在既定属性条件中,寻找某项特定关系的信息利用手段,包含估值、分类、预测等;有指导数据挖掘可利用现有信息参量建立固定化模型,再联合特定属性描述条件,对待处理数据的连接能力进行判断与分析。在不考虑特殊干预行为的情况下,关联规则和聚类效果是区分有指导数据挖掘行为、无指导数据挖掘行为的最直接条件。
2 硬件执行环境设计
用户行为特征提取系统硬件执行环境由政府信息提取框架、用户行为管理模块、数据挖掘驱动单元三部分组成,具体搭建方法如下。
2.1 政府信息提取框架
政府信息提取框架是用户行为特征提取系统的必要连接条件,由媒介、门户网站、用户服务器、行为管理服务器等多个结构共同组成,如图2所示。
2.2 用户行为管理模块
用户行为管理模块是隶属于政府信息提取框架的重要物理元件,由系统管理层、用户通信层、行为特征采集层三个单元结构共同组成。管理层包含一个系统主服务器、一个挖掘主机、一个节点提取设备和一个用户服务器。在电子政务系统正常运转的情况下,系统主服务器可按照挖掘主机中的数据排列方式,向用户服务器传达必要的特征提取指令[12-13]。用户通信层包含多个行为管理机,直接与用户服务器相连,主要负责记录及监控电子政府环境下用户端主体的传输行为。行为特征采集层包含行为仪表、管理主机及用户执行设备。管理主机作为用户行为管理模块的核心搭建设备,可直接驱动行为仪表的特征提取行为,并将未完全转化的数据信息传输至下级执行设备中,以便于后续数据挖掘操作的顺利实施[14-15]。用户行为管理模块结构如图3所示。
2.3 数据挖掘驱动单元
数据挖掘驱动单元以BCM2046芯片作为核心搭建元件,能够按照电子政务系统环境下用户端主体的传输需求,记载固定提取时间内用户行为特征的主要变化趋势。39VF200A芯片作为BCM2046元件的辅助执行结构,能与用户行为管理模块的TPI管理主机相连,一方面转接信息提取框架中的数据传输任务,另一方面将既定的用户行为转化为特征树存储结构。挖掘电阻可为数据挖掘驱动单元分得一定量的传输电压,并可联合驱动元件,将未完全消耗的用户数据传输至其他应用结构中[16-17]。
3 系统软件执行环境设计
在系统硬件执行环境的基础上,按照电子政务系统用户行为特征树设计、待挖掘数据存储、提取数据信息处理的流程,完成系统软件执行环境搭建,软、硬间结合实现基于数据挖掘的用户行为特征提取系统设计。
3.1 用户行为特征树构建
用户行为特征树以特征节点作为起始搭建结构,能够按照用户的行为特征标准,确定满足一级传输需求提取节点的具体数量级水平,再联合挖掘处置权限,排列系统中所有待处理信息。这种行为特征结构的数量级体积较小,能够将待存储的挖掘数据细化成多个层次主体,并按照既定传输标准,将所有特征信息反馈回用户数据库,进而保证后续提取指令的顺利实施。电子政务系统用户行为特征树结构如4所示。
3.2 待挖掘数据存储
待挖掘数据存储是电子政务系统用户行为特征提取处理的必要执行条件,能够根据传输节点的固有承载能力,建立必要的数据挖掘标准。在电子政务系统用户行为特征数据的支持下,请求处理层中的挖掘节点,可直接伸入电子政务环境并从中提取满足用户行为特征的信息参量。数据存储层作为中间处理结构,可利用各关联存储节点,将现有信息参量整合成既定形式,进而满足后续提取传输需求。特征收集层直接面对电子政务系统用户行为的待提取数据参量,能够承接来自数据存储层的信息挖掘指令,并将所有节点组织都排列成固定的传输结构,以便于后续系统处置指令的顺利实施。待挖掘数据存储原理如图5所示。
3.3 提取数据信息处理
提取数据信息处理是用户行为特征提取系统构建的末尾应用环节,可按照电子政务环境下挖掘处置的操作原理,调度特征收集层中的待存储数据。在确保用户行为特征树得到足量匹配数据的前提下,联合待挖掘数据存储结构,提取数据挖掘驱动单元中的参量信息,再根据用户行为管理模块的执行需求,建立必要的提取处理标准,流程如图6所示。在整个处理过程中,电子政务系统信息提取框架始终保持相对良好的信息调度能力,可融合系统内所有的待挖掘数据,并将其整合成提取处理所必须的信息应用结构。至此,完成基于数据挖掘的软件执行环境搭建,联合相关硬件运行设备,完成新型用户行为特征提取系统的构建。
4 系统性能验证
为验证基于数据挖掘的电子政务用户行为特征提取系统的实用性,设计如下对比实验。选取一输出状态良好的电子政府系统设备作为实验对象,分别记录实验组、对照组提取系统影响下,用户端数据负荷的具体变化情况,其中实验组主机搭载提出的用户行为特征提取系统,对照组主机搭载k-means处理系统。
4.1 实用环境搭建
选取稳定时段电子政务系统的访问用户为研究对象,通过系统主服务器挖掘用户服务器端的数据负荷,更改接入电子政府系统设备的提取系统类型,控制其他影响因素始终保持不变,在既定监测时间内,分别记录实验组、对照组系统作用下,用户端数据负荷水平的具体变化。
4.2 用户端数据负荷
以50 min作为实验时长,分别记录在该段时间内,应用实验组、对照组提取系统后,用戶端数据负荷水平的具体变化情况如表1、表2所示。
分析表1可知,前20 min的实验时间内,实验组用户端数据负荷水平始终保持稳定趋势,从第25 min开始,用户端数据负荷水平平开始逐渐下降,整个实验过程中的最大数值仅达到5.0 MB。
分析表2可知,在整个实验过程中,对照组用户端数据负荷水平始终保持下降、上升交替出现的变化趋势,全局最大值达到8.8 MB,远高于实验组极值5.0 MB。
将本研究提出提出方法与传统的k-means方法的用户端数据量进行对比,结果如图7所示。由该图可以看出,提出方法在降低用户端数据负载方面具有突出的优势,而且,对于基于k-means方法的电子政务系统,用户端数据波动较大,因而稳定性有所欠缺;而提出方法的用户端数据无明显波动,稳定性较好。综上可知,基于数据挖掘的用户行为特征提取系统,具备控制用户端数据负荷水平的能力。
5 结 论
电子政务通过创建采用数据挖掘技术而非传统技术的模型,改善了政府与公民之间的互动方式。挖掘模型处理质量数据、数据量以及对电子服务的在线透明访问。介绍了有关政府和数据挖掘技术的概况。电子政务系统是整合型的系统架构,是用以整合政府的所有机关网站的媒介,以提供外部民众与政府内部人员线上单点接触的平台。通过电子政府系统,可以建立政府与政府、政府与公民、政府与企业之间的互联互通,提供行政效率。提出了基于数据挖掘的电子政务用户行为特征提取方法,当公众访问电子政府系统时,可以有效地监测用户端数据量,从而更精确地达到公众访问电子政务系统的目的,使电子政府能够有的放矢地服务于公众。通过与传统的基于k-means方法相比,提出方法在用户端数据量方面具有较好的稳定性,同时可以明显降低用户端数据量负荷水平。
参考文献
[1] 石春琦. 智能卡、大数据与信息安全芯片的市场规模与发展趋势[J]. 集成电路应用,2016,33(10):23-26.
[2] 赵扬.基于用户行为分析的视频点播系统优化技术研究[D].合肥:中国科学技术大学,2014.
[3] 张向宏,唐冉. 基于K-means算法的电子政务用户细分模型研究[J]. 商场现代化,2009(5):372-374.
[4] 梁栋,张凤琴,陈大武,等. 一种基于决策树和遗传算法-BP神经网络的组合预测模型[J]. 中国科技论文,2015,10(2):169-174.
[5] 孙乔,付兰梅,邓卜侨. 一种面向大数据处理的高效分布式数据库聚类算法[C]// 2016电力行业信息化年会论文集,2016.
[6] GHIGE P M,KABRA R R.Relational keyword search system[J].International Journal of Engineering Research and General Science,2014,2(6):36-39.
[7] 肖娴. 基于JAVA的贵州省电子政务办公系统设计与实现[D]. 厦门:厦门大学,2017.
[8] 李幸丽,杜培军,张华鹏. 电子政务中的数据挖掘及其应用[J]. 科技资讯,2006(6):164-166.
[9] 段尧清. 基于多类型分类器装袋技术的数据分类模型研究[J]. 情报科学,2019,37(4):59-65.
[10] 吴明兴,沈瑾,王丽亚,等. 基于Web挖掘的产品功能可用性评价方法[J]. 工业工程与管理,2015(5):104-110.
[11] 姜华,周克江. 一类多粒度近似周期关联规则问题的挖掘研究[J]. 计算技术与自动化,2019,38(01):118-121.
[12] 王曙霞,胡瑞敏,梁意文,等. 云服务器中的不稳定数据挖掘系统的研究与设计[J]. 现代电子技术,2016,39(6):49-52.
[13] 孟令明,乔冬晨,卢恩胜. 数据迁移技术在松辽委电子政务系统的应用[J]. 东北水利水电,2014,32(7):69-70.
[14] 蔡璐. 数据挖掘技术在特色资源库中的应用[J]. 计算技术与自动化,2018,37(03):137-140.
[15] 易万,罗晶,李勇,等. 基于自编码神经网络建立的搜索信息模型[J]. 计算技术与自动化,2015,34(02):117-121.
[16] 宋宪明. 基于数据挖掘和数据仓库的用户重购行为的研究[D]. 济南:山东大学,2016.
[17] 吕海燕,周立军,张杰. 大数据背景下教育数据挖掘在学生在线学习行为分析中的应用研究[J]. 计算技术与自动化,2017,36(01):136-140.