[摘 要]现有电子商务网站风险评估模型评估时间过长,导致精准度较低。为了解决这个问题,文章基于数据挖掘提出一种新的电子商务网站风险评估模型。该模型能确定网站数据风险指标,并计算风险数据在网站数据中的权重。文章根据网站的风险指标查找网站内的风险数据特征量,并完成风险数据的提取;根据电子商务网站的风险数据特征构建一个决策树,并计算决策树涉及的数据熵,通过归纳风险数据特征种类并创建决策树的节点,得出电子商务网站的风险数据的状态;将得到的风险数据状态带入贝叶斯网络概率定义,以分析风险数据各种状态的风险程度,从而提高风险数据分析的精度。实验结果表明,基于数据挖掘的电子商务网站风险评估模型能够有效缩短评估时间,并提高精准度。
[关键词]数据挖掘技术;电子商务网站;风险数据提取;风险评估模型
doi:10.3969/j.issn.1673 - 0194.2023.22.028
[中图分类号]F724.6;TP18[文献标识码]A[文章编号]1673-0194(2023)22-0087-03
0 引 言
随着时代的进步,电子商务网站已经成为人们生活中不可或缺的一部分。首先,电子商务网站为企业提供了一个全天候、全球范围内的销售平台。其次,电子商务网站也为消费者提供了便利的购物渠道。再次,电子商务网站还为企业提供了更广阔的市场和更多的商业机会,同时能够降低企业的运营成本,增强企业的竞争力。然而,随之而来的是潜在的电子商务网站运营风险。在此情况下,建立一个有效的电子商务网站风险评估模型变得尤为重要。根据风险评估结果,合理对电子商务网站进行维护,保证网站内部用户和资源的安全[1-2]。
电子商务网站内存在普通风险和连带风险。传统的电子商务网站风险评估模型只能评估出网站内部的普通风险对网站安全的威胁程度,无法全面考虑普通风险触发的连带风险对网站安全的威胁。传统风险评估模型的评估结果往往低估了实际网站存在的风险威胁程度。这导致根据评估结果提出的网站维护方法失去了实际意义,使得网站的风险仍然存在甚至加重[3]。
本文拟突破传统评估模型的结构特点,提出基于数据挖掘技术的电子商务网站风险评估模型,逐一解决上述问题,依次分析电子商务网站风险数据的提取方法,并建立基于数据挖掘技术的商务网站风险评估模型,完善网站的风险评估体系,保证风险评估模型评估结果的准确度。
1 电子商务网站风险数据提取
在电子商务网站风险数据提取中,首先确定网站数据的风险指标。如果满足要求,则计算风险数据的权重,并查找相关的特征量。其次,判断提取的数据是否满足需求。如果满足,则进行数据提取操作;如果不满足需求,则需要重新计算并进行相应的调整。
设定风险源、隐藏风险、连带风险特征作为评价电子商务网站风险数据特征,分别用A、B、C表示。风险源指标的样本为风险等级、风险发生概率、风险属性;隐藏风险指标的样本为更改数据信息风险和隐藏数据风险样本;网站连带风险的样本为风险效应[4-7]。根据以上对电子商务网站风险指标的说明,构建评估指标矩阵,矩阵如下:
(1)
式(1)中,k表示电子商务网站风险指标数据的熵权值,当其取1时,代表网站的风险混乱度最大,风险程度严重;yij为风险样本的度量值,是一个常数。
为了在电子商务网站内快速检索并无遗漏地检测含有危险因素的风险数据,本文采用向量数据压缩的方法对网站内的数据进行处理。首先,使用数据的多维化方法进行处理,计算公式如下:
(2)
式(2)中,P1为实际网站数据信息的功率特征向量;φ表示数据转化为向量格式的n维列向量。将每一类型的电子商务风险数据实际功率特征向量中分量采取相应的常数代替,剔除电子商务网站风险数据集合中安全的数据,得到风险数据集合,如下所示:
(3)
式(3)中,h为数据的随机向量;φi为风险数据特征向量压缩的误差;pi为实际数据压缩平衡系数[8-9]。
通过对电子商务网站的风险数据进行压缩,减少风险数据特征提取的流程和工作量。在此基础上对多维电子商务网站风险特征向量进行提取。在成功压缩的电子商务网站风险数据集合内,对所有数据进行特征分类,并进行数据的加权,以提取出不同风险数据的特征数据。计算公式如下:
(4)
式(4)中,m为对多维风险数据向量计算迭算次数;bij为对风险特征数据向量计算的初始中心位置;Δx(m)为风险数据特征的加权值[10-11]。
2 基于数据挖掘的电子商务网站风险评估模型构建
数据挖掘技术是通过算法协议对数据进行深度分析,以满足特定需求。基于數据挖掘的电子商务网站风险评估模型,要采用数据挖掘技术中的决策树和贝叶斯网络算法来评估电子商务网站内的风险数据[12-13]。
决策树算法是数据风险分析的重要方法之一,它将整体的数据根据层次结构、状态、数据之间的关系合理分成类似树形状的状态图,完成数据的深度分析。决策树结构内的各个支点是连接各个数据的关键点。决策树在数据分析时,需要一个数据熵进行数据判断指导,数据熵计算公式如下:
(5)
式(5)中,S表示决策树的根,也是需要分析数据的集合;m、n表示数据集合的个数;mi、ni表示决策树结构中的可能的节点。
在对风险数据进行分析时,决策树算法会根据实际情况生成二义性节点。然而,决策树对于二义性节点的数据分析存在偶然性,从而降低了其分析效果。为了提高决策树分析数据的精度,本文采用贝叶斯网络算法。该算法能够有效地处理决策树中的二义性节点,从而提高数据分析的准确性。
贝叶斯网络算法的本质是基于条件概率双向推导完成数据的正向分析和逆向分析,一方面是对数据分析的校验,另一方面保证数据分析的深度和精度。贝叶斯网络算法的公式如下:
(6)
式(6)中,p(B)表示数据分析的先验概率;p(B|A)表示数据分析的后验概率。
根据决策树分析数据的多种状态,带入贝叶斯网络概率算法中,即可得到每个状态发生的全概率,公式如下:
(7)
综上所述,本文总结了基于决策树和贝叶斯网络概率算法的数据挖掘技术在电子商务网站风险数据分析中的应用流程。在此基础上,将构建基于数据挖掘技术的电子商务网站风险评估模型,并提出相应的电子商务网站风险数据提取方法。具体步骤如下。
(1)定义电子商务网站存在风险的集合,集合形式如下:
(8)
式(8)中,Fvt为网站受到攻击形成的数据风险的概率;loss为电子商务网站风险存在过程中的损失;F1~F5依次为电子商务网站数据的保密性、完整性、可靠性、原则性、防御性出现风险漏洞的概率。
(2)对电子商务网站内的数据进行风险数据提取,将提取到的风险数据根据决策树算法进行有效风险数据压缩,减少网站风险评估的工作量。
(3)在压缩的网站风险数据集合内,根据决策树理论和贝叶斯网络概率算法计算出網站数据风险状态。
(4)将电子商务网站数据风险状态的风险概率和数据风险的隐藏概率进行归一计算,得出电子商务网站的风险评估模型,模型如下所示:
(9)
其中,未知数意义如上所示。
根据评估结果的范围,将电子商务网站分为低风险、中风险和高风险3个等级。评估结果在0~30%的网站被归类为低风险网站,评估结果在30%~60%的网站被归类为中风险网站,评估结果在60%~100%的网站被归类为高风险网站。
3 实验分析
为了确保对比试验结果的可靠性,本文选择基于数据分析和基于数据测试的电子商务网站风险评估模型作为传统对照模型,共同完成试验。同时,随机选择了两个电子商务网站作为试验对象,并综合考虑两个试验结果的准确度平均值,以确定不同电子商务网站风险评估模型的评估效率;对选定的电子商务网站进行风险评估,并对评估结果进行加密存储,以作为试验结束后重要的参考数据。在试验过程中,数据分析器实时记录了3种模型对电子商务网站的评估过程和关键数据。只有当3种评估模型都提交了2份评估结果后,试验才能停止。试验结束后,工作人员对数据进行校验、汇总,并得出试验结论。因为本文试验操作剔除了外界可能存在的干扰因素,所以试验结论具有可信度和真实性。
实验结果显示,经过专业评估软件对松鼠卖书网和日用电子商务网站的评估,其风险指数为55%和30%,基于数据挖掘的电子商务网站风险评估模型的评估结果为55%和30%,用时55分钟,评估结果具有99%的精度,然而基于数据分析的电子商务网站风险评估模型的风险评估结果为50%和27%,用时75分钟;基于数据测试的电子商务风险评估模型的风险评估结果为53%和26%,用时67分钟。根据以上结果,可以得出结论:基于数据挖掘的电子商务网站风险评估模型相较于两种传统的电子商务网站风险评估模型,在评估结果的精度和评估时间方面都具有优势。此外,基于数据挖掘的电子商务风险评估模型还能够提出一些建议性措施,而传统的电子商务网站风险评估模型则不具备此功能。这些结果主要是本文采用了数据挖掘技术中的决策树算法和贝叶斯网络算法,对网站内的数据进行全面采集和分析。评估模型的每个步骤都具有逻辑性和相关性,不会忽略网站内的潜在风险和相关风险,从而保证了评估模型对网站风险的评估结果具有较高的精度。另外,评估模型还分析了网站内存在的风险特征,在综合评估结果的基础上,能够提出一些有建议性的风险防范措施。综上所述,基于数据挖掘的电子商务网站风险评估模型具有评估优势,可以投入使用。
4 结束语
本文的研究主要集中在基于数据挖掘的电子商务网站风险评估模型上。通过对网站的风险数据特征进行提取,针对电子商务网站风险评估的特点,选择了数据挖掘技术中的决策树算法和贝叶斯网络算法来共同构建电子商务网站风险评估模型。本文旨在提高电子商务网站风险评估的效率,缩短数据风险在网站内存在的时间,并确保电子商务交易的安全。经过对比试验分析,本文验证了研究的风险评估模型在评估方面的高性能,并取得了预期的效果,希望能为保障电子商务网站安全提供帮助。
主要参考文献
[1]邱泽阳,梁伟,王雪,等.油气输送动设备实时定量风险评估模型[J].中国安全科学学报,2020(2):110-116.
[2]李艳.基于数据挖掘算法的移动电子商务群体用户访问控制模型[J].现代电子技术,2020(4):153-156.
[3]李振华,李立学.基于数据挖掘的校园物联网流量特性建模与分析[J].微型电脑应用,2019(9):140-142.
[4]蒋毅,欧郁强,梁广,等.基于数据挖掘的现场作业风险态势评估方法[J].计算机与现代化,2020(4):78-84.
[5]秦莹.基于数据挖掘技术的电子商务移动支付风险预测[J].现代电子技术,2020(21):106-109,113.
[6]吴宇玲.基于数据挖掘的光纤通信风险预警系统研究[J].科技通报,2019(5):111-114.
[7]张鑫,孙有朝.基于贝叶斯网络的试飞风险评估方法研究[J].兵器装备工程学报,2019(5):70-74.
[8]孟荣,赵冀宁,褚罡.基于设备监控大数据的变电站运行风险评估[J].信息技术,2020(6):154-157,167.
[9]周昊澄,杨宏,夏侨丽.基于PRA的组合体航天器风险评估模型[J].火箭推进,2019(1):59-65.
[10]李育阳.基于数据挖掘算法的高校教学质量评估模型设计[J].现代电子技术,2020(17):119-122.
[11]疏学明,颜峻,胡俊,等.基于Bayes网络的建筑火灾风险评估模型[J].清华大学学报(自然科学版),2020(4):321-327.
[12]罗艳,肖辅盛,王庭刚,等.基于随机森林的电网实时运行风险评估方法[J].信息技术,2020(4):23-26,31.
[13]郝勇奇,王俊,朱彦,等.基于物联网技术的地铁机电设备全寿命周期管理系统[J].都市快轨交通,2020(2):121-126.
[收稿日期]2023-05-12
[基金项目]广州应用科技学院城乡文化发展研究中心
“数字经济对中小企业风险承担能力的影响”(GYKCS-2023-01);教育部产学合作协同育人项目“《数字商业 RPA机器人综合实习》示范课程建设”(220600307233555);教育部第二期供需对接就业育人项目“面向就业的经管类专业校外实习基地建设”(20230109056)。
[作者简介]邱丹平(1986— ),女,福建龙岩人,博士在读,副教授,主要研究方向:公司治理与风险管理、经济与会计。