耿强
摘 要: 传统的图书馆档案信息分类系统存在不平衡数据分类精度低的问题,为此,设计基于关联法规则的图书馆档案信息分类系统。在硬件设计上,使用单块电路芯片构成的单片机与传输芯片相连,设计相应的数据传输电路,实现数据的发送与接收;在软件设计上,引用关联法规则,根据支持率和信任度确定分类关联规则。以此为依据,比较数据类的判别函数值完成档案信息分类,利用程序代码将结果显示在系统界面上。测试结果表明,在使用相同的不平衡数据集的情况下,与传统的分类系统相比,设计的基于关联法规则的图书馆档案信息分类系统分类精度更高,说明该系统适合应用在图书馆档案信息分类中。
关键词: 图书馆; 档案信息分类; 系统设计; 关联法规则; 数据传输; 系统测试
中图分类号: TN911?34; TP391 文献标识码: A 文章编号: 1004?373X(2020)18?0143?03
Abstract: As the traditional library archival information classification system has unbalanced data and low classification accuracy, a library archival information classification system based on association rule is designed. In the hardware design, a single?chip microcomputer composed of a single circuit chip is connected to the transmission chip, and the corresponding data transmission circuit is designed to realize the sending and receiving of data. In the software design, the association rules are cited, and the classification rule is determined according to the support rate and credibility. On this basis, the discrimination function values of the data class are compared to complete the classification of the archival information, and the program code is used to display the results on the system interface. The testing results show that, in the case of using the same imbalanced data set, in comparison with the traditional classification system, the designed library archival information classification system based on association rule has higher classification accuracy, which indicates that the system is suitable for the classification of library archives information.
Keywords: library; archival information classification; system design; association rule; data transmission; system testing
0 引 言
圖书馆内大规模档案信息的不断涌现,需要利用相应的技术管理这些信息,将其按照一定的规则分类,方便快速、全面地查找用户所需的档案信息[1?3]。传统的图书馆档案信息分类系统是基于决策树法实现档案信息分类,该系统由于数据规模、数据类分布和数据属性缺失的影响,出现大量不平衡数据,对系统的分类精度影响较大[4]。因此引用关联法规则,设计基于关联法规则的图书馆档案信息分类系统。不平衡数据是指具有不均衡分布的数据,其中具有少量样本的类称为少数类,具有样本量比较多的类为多数类[5]。对于该类数据的分类,使用关联法规则生成档案信息分类关联规则,完成档案信息分类。利用关联法规则的解释说明强的特点,提高系统对于不平衡数据的分类精度,解决传统分类系统中存在的问题。
1 基于关联法规则的图书馆档案信息分类系统设计
根据图书馆档案信息分类实际需求,设计基于关联法规则的图书馆档案信息分类系统各个模块,具体内容如图1所示。用户主要通过系统界面实现与系统的交互,将单片机与传输芯片相连,实现数据的传输,以此实现档案信息的录入。档案信息经过录入传输至分类模块,在分类模块中封装了档案信息分类算法,利用关联法规则获得档案信息分类关联规则库,实现档案信息分类,并通过显示模块展示在用户面前。
1.1 图书馆档案信息分类系统硬件设计
选择由单块电路芯片构成的单片机,通过单片机与传输芯片接口连接,以此实现信号的发送与接收[6]。其指令接收模块与发送模块如图2所示。
x
图中,TXD引脚与DOUT和DIN引脚相连,实现数据的发送与接收;由P0.0控制PLAYE端,实现高电平与低电平之间的转换,触发数据发送或接收状态;P2.2控制TXEN端,当输出为“1”时,进入数据发送状态;当输出位“0”时,进入数据接收状态[7]。
1.2 图书馆档案信息分类系统软件设计
假设[Q=q1,q2,…,qn]表示图书馆档案数据库,[qn]表示在数据库[Q]中的第[n]个记录,[w=w1,w2,…,wn]表示数据属性集,设置属性集[w]内均为类别型属性,有[e]个类标签,表示记录的档案信息中所有的类[8?10]。将数据属性划分为若干个三角集合,用[fr]表示。将记录在类别型属性[wn]上的取值放在一起,作为样本点的集合[R],假设[R]中共有[n]个样本点。将所有的样本点根据最大隶属原则归类,从类中找出位于类中心两侧的隶属度最小的样本点,设左侧隶属度最小的样本点为[r′],隶属度为[fr′],右侧隶属度最小的样本点为[rε],隶属度[11]为[frε],则[fr]表示:
式中,[p]表示類的中心点。类别型数据分别被划分为不同的三角集合,当记录所属类的标签与属性对应的类标签一致时,记值为1,反之为0。将集合中所有得到的类标签属性的集合整合为新的数据库,在此数据库基础上确定档案信息关联规则,关联规则的支持率和信任度为:
式中:[Sup]表示关联规则的支持率;[Conf]表示关联规则的信任度;[L]表示所有类标签属性的集合。根据以上关联规则的支持率和信任度,得到档案信息分类关联规则,形成的规则形式为:If w1 is [D1] and … and wn is [Dn],then L is [g1]。其中,[D]表示由类别型属性所取的规则组成的分类系统的分类规则库。在进行档案信息分类时,对于一个待分类的样本,取其属性上的值,计算样本对各个类的判别函数值,比较各类的判别函数值,将最大的值对应的类标签作为样本的分类结果。
将结果保存至数据库中,用户成功登录系统后,通过相应的程序代码将档案信息分类结果展示在系统界面中。通过rs_reader.open sql.conn.adopenkeyset打开数据库,利用SQL语言中的select*from data查询语句将分类结果展示在界面上。
至此,基于关联法规则的图书馆档案信息分类系统设计完成。
2 图书馆档案信息分类系统性能仿真测试
2.1 数据集选取
从UCI数据库中选择12个不平衡数据集,数据集种类为图书馆所有艺术类图书分类数据,其中包括数据属性值域、数据样本数以及类分布。考虑不同的类分布可能会对测试结果产生影响,为了更加全面地进行研究,得到可靠的结论,选择在不同平衡度的数据集上进行测试。根据均匀变化的不平衡度对原始数据进行采样,并设置不同的数据不平衡度,以5%,10%,15%,20%,25%,30%,35%,40%,45%,50%的比例对数据进行采样。
2.2 数据属性值抽样
通过数据属性值抽样抽取不平衡数据集中的少样类样本和多类样本,用于后续分类精度测试。确定数据集中数据类的属性值,判断数据与其对应的类的相关性强弱,根据数据类的属性值,增加少数类数据中与类相关性强的数据样本,减少多数类中与类相关性弱的样本。数据属性值抽样后的数据类分布为如图3所示。
从图中明显看出,经过抽样后的数据类样本中有效信息被增强,将经过属性值抽样后的数据用于后续测试中,保证测试结果的全面和可靠。
2.3 系统分类精度测试结果及分析
使用设计的基于关联法规则的图书馆档案信息分类系统的同时,引用传统的基于决策树法的图书馆档案信息分类系统,对相同的不平衡数据集进行分类,测试不同分类系统的分类精度。将使用的基于关联法规则的分类系统定义为系统1,传统的基于模糊集法的分类系统定义为系统2,利用第三方软件统计测试结果。测试结果如表2所示。
表中,Iris表示随机选取的不平衡数据集。观察表中数据,在Iris不平衡数据集中,对于不同平衡程度的数据,系统1的分类精度基本在90%以上,只有极个别测试的分类精度在90%以下;在相同环境下,系统2测试的分类精度在30%~70%之间,分类精度较低且稳定相较差。两者相比,系统1的分类精度明显高于系统2的分类精度,说明设计的基于关联法规则的图书馆档案信息分类系统优于传统的分类系统。
3 结 语
近年来,图书馆从传统的纸质管理转换为数字智能管理模式,馆内的档案信息与日俱增,用户从海量的信息中搜索到自己需要的信息越来越困难。因此,相关专业人员设计了图书馆档案信息分类系统,提高搜索效率。但是对于不平衡数据的分类,传统的分类系统分类精度较低。通过引用关联法规则,生成档案信息分类关联规则库,以此为依据实现档案信息分类,有效地解决了传统分类系统中存在的问题。
参考文献
[1] 林泽斐,孟雪梅.基于关联数据的地方文献地名规范控制[J].图书馆杂志,2017,36(10):55?62.
[2] 黄容,何杨煜琪,王忠义,等.数字图书馆数值知识元检索系统设计[J].图书情报工作,2018,62(14):125?132.
[3] 吴飞翔,赵桂清.海量图书信息采集中的扫描器抗连续摆动干扰设计[J].科技通报,2018,34(5):154?157.
[4] 张栋,李寿山,王晶晶.基于问题与答案联合表示学习的半监督问题分类方法[J].中文信息学报,2017,31(1):1?7.
[5] 甘俊英,戚玲,项俐,等.轻量化多特征融合的指纹分类算法研究[J].信号处理,2019,35(5):888?896.
[6] 余鹰,王乐为,吴新念,等.基于改进卷积神经网络的多标记分类算法[J].智能系统学报,2019,14(3):566?574.
[7] 李占芳,李慧云,刘新为.分类稀疏低秩表示的子空间聚类方法[J].系统科学与数学,2018,38(8):852?865.
[8] 王伟伟,魏婷,杨晓燕,等.基于信息关联分析的设计线索构思方法[J].机械设计,2017,34(11):117?122.
[9] 李振霞,罗万和,李超,等.兽用药物生物药剂学分类系统(BCS)的研究进展[J].中国兽药杂志,2018,52(6):72?79.
[10] 杨泽宇,王培良,叶晓丰.基于SSAE的非线性系统故障分类方法[J].控制工程,2018,25(11):2003?2009.
[11] 崔超,吕丹,姜淑凤.贝页斯垃圾邮件分类系统成本参数调整对系统精度的影响[J].北京理工大学学报,2019,39(2):142?146.