高欢,曲孝海,张莉莉
(湖南文理学院数理学院,湖南常德,415000)
伴随着网络时代的来临,网络信息技术也逐渐与图书借阅进行融合,使得传统图书的借阅方式得到很大的改变,将传统的柜台式借阅方式逐渐转变成手机APP 借阅方式,这极大地提高了图书的借阅效率并且有利于实现图书资源实时共享[1]。由于图书借阅手机APP 具有使用便捷、效率高等优势,现阶段的使用频率变得非常高,并且主要集中在青年群体中。图书借阅平台属于一种基于手机APP 的新型功能板块,其可以实现全方位的视频和文本的交流与共享。这些特性使得图书借阅可以24 h 随时进行,彻底地改变了以往低效率的服务方式,很好地解决了图书借阅因时间、地点等问题所造成的约束。于是,许多图书馆都开始使用图书借阅平台来作为自己的客服平台,实现高效性运营模式,更好地为不同群体进行服务。孔庆祝[1]提出了在线方式的图书馆,并且采用可视化以及计算机数据分析等方式对图书馆进行研究分析。蒲玲琳等[2]对目前常见图书馆网络平台进行了深刻地总结,提出了许多数学方法对平台内容进行分类。王秀娟[3]基于人工智能算法设计了一种新型半监督支持向量机的平台内容推送算法。但是由于图书借阅群体是不同的,因此需要针对不同群体进行针对性信息推送,于是本文基于智能分类方法对图书借阅平台文本推送信息展开研究,提出一种基于优化BTSVM 的图书借阅平台推送信息分类算法。
支持向量机方法(SVM)具有全局最优、结构简单和推广能力强的特点,广泛应用于各领域,该方法的基本思想是通过某种非线性的映射关系,将原始的特征向量映射到另外一个更高维度的特征空间Z中,然后在这个高维空间Z中,构建一个最优的分离超平面,具体方法为: 首先设置一个非线性映射关系其中xi是该空间的输入向量,zi是高位映射空间Z的向量。若在Z中求解最优分离超平面,则需要计算高维特征空间内积,即核函数。求解最优分离超平面的决策函数为。
BTSVM 是基于支持向量机(SVM)提出的一种新型分类方法[4],已经被广泛应用于各种分类项目中,是近年来研究的热点。其分类原理为: 首先在总根节点位置把总的样本分成两类,然后在下一个子根节点位置继续对上一类样本进行分类,并继续将其分成两类,依此类推,直至所有子节点都只包含一个类别的样本,从而形成典型的二叉树形式。在执行阶段,每个节点位置处会直接决定下一个子节点的走向,直到末子节点位置结束。
二叉树支持向量机最大的优点为能将总体样本分类成两大类,并一直分解到只包含一个类别的子节点为止。因此,此算法不会出现漏分类,并且执行过程不需要全部遍历,极大地提高了算法的计算效率。本文基于BTSVM 对图书馆借阅平台推送信息进行分类,但是由于样本数量一般不止一个,所以需要考虑计算总体样本的平均欧式距离。由于样本间的平均欧式距离能够很好地反映总体样本的分布情况,本文将总体样本间的平均欧式距离作为样本间分类的依据,来确定二叉树支持向量的结构层次,样本间的平均欧式距离的具体计算过程如下[5]:
同一特征组成的样本集中{ai,i=1,2,…ka},样本i与样本j两者之间的欧式距离求解ai与样本间其他样本的平均欧式距离为从而得到样本间的平均欧式距离计算公式为
通过利用上述计算样本平均欧式距离的方式,确定BTSVM 算法的结构。常见的样本间分类方式有欧氏距离分类法[6]、球结构分类法[7]及加权欧氏距离分类法[8]等,这几种方法都对样本间距离做了很好的解释。本文重点介绍一下球心欧氏距离,其原理是计算样本本身所形成的超球体的球心之间的直线距离,这种方法对于同类样本间相似度的描述有着一定的优越性。
由于支持向量机中惩罚因子c和核函数参数γ的选择会直接影响图书馆借阅平台内容分类的效果[9],于是本文利用著名的飞蛾捕焰优化算法对支持向量机中的参数c和γ进行优化,得到最佳的参数组合[c,γ]。
Seyedali Mirjalili 根据飞蛾围绕火焰的整个运动过程,设计了著名的飞蛾捕焰优化算法(MFO)[10],飞蛾围绕火焰的曲线运动图如图1 所示。下面具体介绍飞蛾捕焰优化算法的原理:
图1 飞蛾围绕火焰的曲线运动图
在算法优化过程中,其中式(1)代表着飞蛾在运动过程中的空间位置,而式(2)则表示算法的适应度值。在MFO 算法的整个迭代运行中,飞蛾是根据算法中火焰的适应度值为参考标准,来判断是否达到目标函数对应的最优解。
式中:n表示飞蛾个数;d表示维度;
对于MFO 算法,需要先设置火焰的初始值,从而保证与飞蛾的空间位置保持一致。式(3)表示火焰的初始位置,与飞蛾的位置具有相同维度的变量矩阵; 式(4)表示存储各火焰的适应度值。
对于整个飞蛾捕焰的过程,实质为飞蛾围绕火焰做连续的曲线运动并不断更新之前的位置,飞蛾的整个运动过程可以分为两步,第一步是飞蛾向火焰中心方向飞行的过程; 第二步是飞蛾由火焰中心向外运动的过程。
(1)飞蛾捕焰的过程
飞蛾捕焰的过程是飞蛾利用其本身的生物特性由外向火焰中心做螺旋运动,并且不断地迭代更新其前一位置,从而逐渐靠近火焰中心,当到达火焰中心位置处运动结束,并且该位置为最佳位置。
(2)飞蛾弃焰的过程
随着飞蛾的迭代位置不断更新,飞蛾弃焰过程火焰的适应度值为式(5)所示。
式中:l表示算法的迭代次数;N表示算法的最大火焰的个数;T为最终迭代次数。
在算法的迭代过程中,火焰与迭代次数成反比关系,并且火焰与飞蛾的初始位置会保证飞蛾的整个寻优过程是有效的,从而保证算法的有效性。对于MFO 算法,当适应度函数满足规定要求时,算法停止运行并输出当前的火焰位置,否则继续向前运行。
二叉树支持向量机参数优化过程: 首先初置BTSVM 的两个关键参数c和γ,并计算适应度值,通过利用飞蛾捕焰的过程对两个参数进行不断迭代寻优,直到满足停止条件,则输出对应的参数组合[c,γ],该参数组合即为BTSVM 的最佳参数组合。然后利用优化后的二叉树支持向量机对图书借阅平台推送信息进行分类处理,从而对不同客户进行针对性的信息推送。
在图书借阅平台信息推送系统中,根据统计分词的原理[11],相邻的两个词如果同时出现的次数越高,那么两者形成一个词语的比率就会越高,因此利用这个原理对图书借阅平台推送信息中词汇的组合频率进行统计。本文利用统计分词对图书借阅平台推送信息中的相关内容词汇进行处理,形成分类所需要的高维特征集。整个图书借阅信息推送系统的文本中,需要对高维特征集进行降维处理,选择最佳的特征子集,以便于后期分类完成后相关信息的推送。基于上述特征提取方法对高维特征集进行特征提取后,本文采用互信息法[12]对特征提取后的文本进行特征选择。
为了验证本文方法的有效性,以图书借阅平台相关推送信息作为实验数据,进行实例验证分析。数据采样时间为2020 年3 月1 日—2020 年7 月31 日,选取理工类、文史类、经济类、农学类、艺术类、体育类等6 个主题共1 587 篇图书借阅平台中相关的推送文本。根据智能分类算法训练集与测试集分配比例的要求,本文随机选择其中的1 035 篇作为二叉树支持向量机的训练集对分类模型进行训练,其余552 篇作为算法的测试集。
为进一步验证本文方法的有效性,将数据集分别输入本文方法与SVM、ELM[13]等常见分类算法中,从而得出3 种不同分类算法测试集分类准确率结果(见表1)。由表1 可知,本文方法的平均准确率为3种算法中最高的,且在6 种不同主题下的分类准确率仍为最高。
针对图书借阅平台中推送信息量大,分类管理困难等问题,本文提出一种优化BTSVM的图书借阅平台信息推送分类管理方法。通过实例分析,发现本文方法的分类准确率高于SVM和ELM等常见分类方法。因此利用本文算法可以高效地对平台中的各类推送信息进行分类处理,然后针对性地发送给不同群体,从而实现平台的高效运行,加速图书借阅平台的推广。