刘利民,张 勇
(1. 桂林电子科技大学计算机工程学院,广西 北海 536000;2. 成都中医药大学医学信息工程学院,四川 成都 610075)
多标签数据挖掘工作的开展,要求更高性能的挖掘算法[1,2]。当前提出的数据挖掘算法,面对多标签数据无法展现较好的处理能力。有学者提出以邻近算法为核心的数据挖掘算法,提取数据特征项,并计算该特征项的信息熵。基于线性斜率算法设计降维方法,处理由信息熵构成的空间信号,便于后续数据挖掘效率提升。但是,该方法可行性较差。有学者以协同过滤技术为核心,集成多种来源的数据信息,建立分层评分矩阵并在随机梯度下降法的作用下获取评分结果,依托于预测评分获取协同过滤挖掘结果[3,4]。但是,该数据挖掘算法加速比较低。除此之外,文献[5]针对待挖掘数据进行分析,结合连续模板匹配技术处理大数据信息。针对高维融合数据提取数据之间的关联规则,在模糊卷积神经网络的作用下,实现大数据的分类挖掘。但是,该方法的数据挖掘效率较低。针对上述问题,本文提出了结合SECI模型与属性分类模式的挖掘算法,针对多标签数据进行分析可知,通常情况下,除了数据表面所显示的信息外,数据内往往包含更重要的隐性知识。在数据挖掘过程中,显性知识与隐性知识相结合,对数据挖掘结果影响巨大。文中以将多标签数据内包含的隐性知识显性化为主要目的,提出以SECI理论为基础的数据转化模型。将多标签数据中的隐性知识提取出来,选取合适的数据特征。所谓的属性分类,指的是按照待挖掘数据的基础表分析数据属性,根据属性关系生成数据挖掘规则,在属性分类规则的作用下,完成多标签数据挖掘。最后,通过实时交互获取所需的数据挖掘结果。
针对多标签数据进行分析可知,通常情况下,除了数据表面所显示的信息外,数据内往往包含更重要的隐性知识[6]。在数据挖掘的过程中,显性知识与隐性知识相结合,对数据挖掘结果影响巨大。以将多标签数据内包含的隐性知识显性化为主要目的,提出以SECI理论为基础的数据转化模型。
隐性知识的显性化转变,主要包括四个环节,分别是社会化、外部化、组合化以及内部化。SECI知识转换结构如图1所示,针对上述四个过程生成独立的场,作为知识动态转换和创新的环境基础。
图1 SECI知识转化结构
根据图1可知,多标签数据的知识转化过程中,创始场主要负责个体的主观意愿交流,实现个体之间情感的一致性;对话场的功能在于通过交往活动,促进知识的明晰化;练习场的作用是依托于数据显性知识,提升自身隐性知识;再结合系统化场,共同完成知识转换。
针对多标签数据进行隐性知识转化,所需的具体模型如图2所示。以社会化过程为核心,融合原有和新吸收的隐性知识,并针对新生成的隐性知识进行互动。在语言化处理后,得到呈现出来的隐性多标签数据。
图2 多标签数据转换SECI模型
根据图2可知,社会化模式与其它模式相结合前,需要进行多次循环,实现隐性、显性知识之间的转化。上述模型的应用需要注意的一点是,选择性内化运行时部分显性知识无法完成内化处理,则该部分知识会返回至组合化模式内,等待该次处理结束后,再一次进行数据知识转换。
多标签数据的隐性数据显性化处理后,文中依托于Relief F算法提取出多标签数据特征[7]。从待挖掘处理的多标签数据中随机选取样本,并寻找该样本的近邻样本,通过计算多个样本点的特征权重,获取特征权重排序结果[8]。最后,设置合理的阈值提取数据特征。针对特征冗余问题,文中采用互信息方法度量提取特征的冗余性,互信息的计算公式为
I(X,Y)=H(X)+H(Y)-H(XY)
(1)
式中,X、Y表示向量,H表示信息熵,I表示互信息。根据计算结果,获取两个向量之间的相关性。通常情况下,式(1)计算结果越大,表明变量之间的关联性越强。然后,依托于信息熵处理补偿互信息内部分属性信息。对补偿后的互信息进行标准化处理,得到
(2)
式中,s表示标准化互信息。根据式(2)得出的标准化互信息,得到数据特征向量间的冗余度,计算公式为
R(Xα,Xβ)=I(Xα,Xβ)
(3)
式中,R表示特征冗余度,Xα、Xβ表示特征向量。以式(3)为核心,推理出单个数据特征与特征集合的冗余度,计算公式为
(4)
式中,δ表示特征集合,|δ|表示特征集合中特征个数,X0表示特征集合内随机选取的特征项。结合式(1)与式(4)推导出特征子集冗余度计算公式为
(5)
针对冗余度计算公式进行标准化处理,得到
(6)
为了提取出冗余性较低的特征,并将其应用于数据挖掘过程中,促进数据挖掘效率。文中利用Relief F算法提取出多标签数据特征,输出有效的多标签特征子集[9]。基于冗余度计算结果,结合MML-RF算法,识别出特征子集中包含的无效项。建立多标签数据特征评价规则,进行去冗余处理,保留与类标签相符的特征项,实现特征子集的更新。为了降低多标签数据特征冗余度,建立式(7)所示的评价准则公式
(7)
式中,φ表示评价矩阵,e表示类标签,W表示特征权值,W(δ)表示MML-RF算法运行后特征子集权值和,Rδ(δ)表示冗余度标准化处理结果。
将式(6)与式(7)相结合,生成最终特征判别公式
(8)
实际应用过程中,得到评分排序处理后的特征子集,并获取每个特征的权重向量值,经过权重阈值选取符合权重要求的特征项,获取多标签数据特征的初步筛选。
然后,通过序列的方式遍历特征子集的每个特征项,每遍历一次,将集合中表现最差的特征项去除,并分析特征移除后特征子集的总体性能,所应用的评估方法如式(7)所示。
最后,为了数据挖掘算法的局部最优化现象出来,在特征提取过程中添加容忍度概念,设置多标签数据挖掘算法的特征子集最低评分界限,确保多标签数据特征提取结果的合理性。
待挖掘的多标签数据样本存在多维特点,文中根据特征提取结果,设计属性分类挖掘模式[10]。通过属性分类法,得到最佳数据挖掘结果。属性分类挖掘模式的应用,需要基于数据特征类别和样本容量,按照属性分类理论计算出数据挖掘的最终类别。文中建立的属性分类挖掘模式设计的原则是高类聚以及低耦合,数据挖掘的约束条件包括两条,一条是最小类内距离平方和,另一条则是最大类间距离平方和[11]。
基于多标签数据的属性进行深入挖掘时,按照有序样本的维数,得到随机选取样本类型的类内距离平方和计算公式
(9)
类平均向量计算公式为
(10)
式中,m表示数据样本维数。根据样本数量与样本类别数量,样本划分结果表示为
∂=(Mi1,Mi1+1,…,Mi2-1)+(Mi2,Mi2+1,…,Mi3-1)
+…+(Mig,Mig+1,…,Mn)
(11)
式中,∂表示待挖掘数据样本集,g表示类别数量,n表示样本向量数。
当样本向量数的距离平方和相同时,该计算结果与类间与类内距离平方和一致。当平方和计算结果最小时,可以得到多标签数据最佳挖掘结果[12,13]。数据挖掘过程中,类内距离平方和误差函数计算公式为
(12)
式中,E表示平方和误差。并有
(13)
最后,针对较分散的样本数据,为了提升数据挖掘效率,采用极差变换法生成式(14)所示的数据形式调整公式:
(14)
多标签数据按照属性分类模式挖掘结束后,文中结合MVC模式建立挖掘结果交互界面,实时更新数据挖掘要求,保证输出数据挖掘结果符合需求。MVC模式主要由控制器、模型和视图三个软件部分构成[14]。其中,Model结构是数据挖掘结果交互的主要环节,实现数据挖掘结果的保存和调用。考虑到数据挖掘算法的实现是以数据为基础,交互界面地设计应用View页面视图处理HTM文件,将算法运行结果以各种形式直观表现出来[15]。
此外,文中对MVC模式稍作改进,添加了View Model结构,充当数据对象转化的中转站,保证Model层内的数据合理转化,并与页面视图结构相连接,进行数据挖掘结果实时交互,改进后的MVVM设计模式如图3所示。
图3 MVVM设计模式
根据图3所示的设计模式,完成数据挖掘算法实现过程中前端、后端分离。其中,前端应用Vue框架实现,生成渐进式数据驱动结构,将数据挖掘结果传递至图表组件库,建立直观且生动的可视化图表,保证用户快速理解数据挖掘结果。
而后端业务逻辑则应用Django框架完成,通过Get和Post组件与前端显示结果进行交互。依托于强大的后台数据库功能,将文中所设计的数据挖掘算法部署到计算结内,便于后续应用。并在后端接口连接一个Mongo DB分布式数据库,在数据挖掘处理过程中发挥海量数据便捷获取、有效存储的性能,确保数据挖掘效率的提升。
为了验证文中设计算法的可行性,进行仿真。本次仿真采用Windows操作系统,应用MATLAB仿真软件设计仿真环境,明确文中设计数据挖掘算法的优越性。
为保证实验的顺利进行,在仿真环境内,设置实验参数如表1所示。
表1 实验参数
利用上述试验参数,展开后续多标签数据挖掘算法仿真测试。
仿真所应用的数据取自某通信企业,汇总企业内近六个月多标签样本数据,所采集的数据中包含2万余条用户通话数据,以及20多万条交互信息。数据采集后进行数据清洗和标准化处理,将处理后的数据作为挖掘对象导入MATLAB仿真环境中,获取图4所示的原始数据分布图。
图4 实验数据分布图
根据图4可知,原始数据中主要包含3类数据。针对上述实验数据,应用文中提出的基于SECI模型与属性分类算法进行数据挖掘,获取仿真结果。
MATLAB仿真环境中,应用文中设计算法得出图5所示的数据挖掘结果。
图5 数据挖掘结果
根据图5可知,文中设计算法应用后,实现了多标签数据的精准挖掘,将原始分布较为混乱的数据,按照数据清晰地聚类,表明了所提出挖掘算法的有效性。
为了更加直观地呈现出仿真结果,同样在MATLAB仿真环境中,针对实验数据进行挖掘处理。文中将实验判断指标选定为加速比,明确数据挖掘算法运行过程中,随着数据处理规模不断增长算法处理能力变化。通过了解可知,数据挖掘算法的加速比越高,表明所提出挖掘算法的数据处理能力更强。在仿真环境中,多次运行文中设计数据挖掘算法与其它三种算法,得到图6所示的不同算法的加速比对比图。
图6 不同算法的数据挖掘时间对比图
根据图6所示的对比图可知,传统算法得到的仿真结果,与理想曲线具有较大偏差。挖掘时间完全偏离了理想曲线。综上所述,处理相同的待挖掘数据量时,传统算法所需要的时间远高于理想时间。文中提出的数据挖掘算法运行时,虽然数据挖掘时间会随着数据量增长而提升,但是,数据挖掘仿真结果极为接近理想曲线,表现出线性增长特点。
数据挖掘算法的加速比计算公式为
(15)
式中,p表示待挖掘数据量,λ表示算法加速比,T表示数据挖掘所需时间。结合式(15)与图6可知,文中设计算法受到SECI数据转换模型与属性分类挖掘模式的共同影响,有效提升了数据处理的加速比。
文中针对多标签数据,建立SECI模型与属性分类模式相结合的数据挖掘算法。根据转化而来的隐性数据知识进行特征提取,结合数据属性分类模式达到挖掘的目的。针对文中设计的数据挖掘算法进行仿真,验证结果显示所提出挖掘算法应用属性分类挖掘模式,将多标签数据的本质特征直观体现出来,有效提升数据挖掘加速比。考虑到数据挖掘所涉及的学科和技术较多,面对不同的场景需要合理选定数据挖掘技术。文中设计的数据挖掘算法未来的改善方向,可以针对数据挖掘算法的通用性进行研究。