基于关联规则的图书馆书目序列模式挖掘

2015-05-29 12:34梁欣祺张钰莎
电脑知识与技术 2015年10期
关键词:关联规则数据挖掘

梁欣祺 张钰莎

摘要:基于关联规则的序列模式挖掘在图书馆的数据分析中应用非常广泛。该文针对管理学院三个不同专业学生借阅书目的序列挖掘得出,该专业书目借阅之间的关联关系及序列模式。所得结论能很好的应用于图书馆的管理服务及学生学习过程的指导。

关键词:数据挖掘;关联规则;序列模式

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2015)10-0083-03

随着信息技术的不断进步,各行各业都聚集有大量的运行数据。如何有效利用和挖掘这些大数据潜在的价值和内涵,是我们现在急需解决的问题。作为高校运营管理的重要组成部分,图书馆也因每日的读者借阅行为产生了大量的日志文件和数据。有效挖掘这些数据可以为图书馆的图书布局,新书购买和读者服务提供有价值的参考意见。数据挖掘技术即是从大量、不完全、有噪声、模糊的数据中,提取或挖掘出未知的,有价值的模式或规律等知识的复杂过程[1]。关联规则是数据挖掘技术中的描述型任务之一,主要应用于市场营销,事物分析等领域。而序列模式挖掘是关联规则的有效应用之一。它能更好地挖掘出图书馆学生借阅书目之间存在的某种序列及先到后续的关系。

1 序列模式挖掘

序列模式挖掘最早是针对购物篮数据的关联分析,目的是发现事物之间项与项的序列关系。序列是指两个或多个数据项先后出现的统计规律性,相对于关联,序列中的项有时间先后[2]。它最早由Agrawal等人提出。序列模式的发现可使用枚举的方式统计支持度计数而得到。但是手工计算方式费时费力。在序列模式中Apriori算法是通常采用的方法之一。该算法通常分为五步,分别为:排序阶段,频繁项集阶段,转换阶段,序列阶段,最大化阶段[3]。

2 图书馆数据的序列模式挖掘

图书馆在每日的运行中产生了大量的读者借阅书目数据,因此基于序列模式的读者借阅行为识别过程主要包括提取借阅事务集,序列模式挖掘和读者行为分析三个阶段[4]。本文的挖掘对象为广东外语外贸大学南国商学院管理学院学生借阅书目,分别挖掘财务管理、旅游管理和市场营销3个专业的借阅数据。查看图书分类书目的编号,我们发现在该系学生的专业课借阅书目均为F开头的书目。因此,我们的目标是挖掘在时间方面上各专业以F开头的书目之间潜在的关联。

2.1对挖掘数据的处理

2.1.1数据集合

通过图书馆拷贝数据中我们导出数据库的图书信息表,读者信息表,半年借书信息表,应用数据库SQL将三个表相连,选择各自专业的读者借阅记录,最后导出得到五个专业各自读者借阅记录表,如图所示。

2.1.2数据排序

以学号(即SNO)为主,日期(即DATE)为次对“同专业读者借阅记录表”进行排序。

2.1.3添加属性

由于图书的名称繁多而实际它们的内容十分近似,我们将书目名(即TITLE)按照其书目内容和类型泛化为书目的一个小类,并且将其做为一个新属性“CLASSIFI”添加到“同专业读者借阅记录表”。

2.1.4转换表

根据时间将新“同专业读者借阅记录表”转化为序列形式的表。亦即为对于同一个读者,根据时间推移其所有的借阅记录合成为一条记录;同时将时间(即DATE)和书目名(即TITLE)删除。

3序列模式挖掘过程

3.1基于财务管理专业书目的序列模式挖掘

财务管理专业有170条借阅课内书目记录,51位读者,即有51项事务。挖掘过程如下:

3.1.1找出频繁项集

设置支持度阈值为3%。最小事务支持度计数为2(由51*3%=1.53所得)。

3.1.2找出序列模式

频繁1序列L1={<1><2><3><4><5><6

><9><11><12><13><17><18><24><25><28><29><32><33><35>}。利用频繁1-序列生成候选2-序列C2。扫描数据库并对候选2序列计数,得到频繁2序列为L2={<{2}{5}>

<{2}{12}><{4}{28}><{4}{32}><{5}{11}><{6}{5}><{6}{24}><{6}{24}><{29}{5}}>}。频繁2-序列连接后得到候选3序列C3={<

{2}{5}{12}><{2}{12}{5}><{4}{28}{32}><{4}{32}{28}><{6}{5}{24}><{6}{24}{5}>}

由于候选3-序列中没有支持度计数大于阈值的,亦就是没有新的序列模式出现,因此频繁2-序列为我们最后得到的序列模式。将频繁序列转换成真实的序列模式。我们得出五个结论。结论一,当该专业的读者先借“基础会计(理论知识)”这类书后,一段时间后很有可能会借“综合会计(理论加实践)”类书或者“企业会计”类书;结论二,当该专业读者先借“财务管理”类书后,一段时间后很有可能会借“财务趣味”类书或者“财经趣味”类书;结论三,当该专业读者先借“综合会计(理论加实践)”类书后,一段时间后很有可能会借“出纳”类书;结论四,当该专业读者先借“会计准则”类书后,一段时间后很有可能会借“综合会计(理论加实践)”类书或者“高级会计”类书;结论五,当该专业读者先借“企业会计准则”类书后,一段时间后很有可能会借“综合会计(理论加实践)”类书。

3.2基于旅游管理专业书目的序列模式挖掘

旅游管理专业有177条借阅课内书目记录,50位读者,即有50项事务。序列模式挖掘过程如下:

3.2.1找出频繁项集

设置支持度阈值为3%。最小事务支持度计数为2(由50*%=2所得)

3.2.2找出序列模式。现在已有频繁1-序列L1=<1><2><3><4><6><7><8><9>

<11><18><19><20><22><24><25><26><27><28><29><30><33><34><37>}。利用频繁1-序列生成候选2-序列C2。扫描数据库并对候选2-序列计数,得到频繁2-序列为L2={<{4}{6}>,<{8}{26}>,<{20}{8}>。

由于频繁2-序列中没有再可合拼的序列,亦就是没有新的序列模式出现,因此频繁2-序列为我们最后得到的序列模式。将频繁序列转换成真实的序列模式。我们得出三个结论。结论一,当该专业的读者先借“经营管理”这类书后,一段时间后很有可能会借“生态旅游”类书;结论二,当该专业读者先借“营销”类书后,一段时间后很有可能会借“经济学”类书;结论三,当该专业读者先借“旅游发展”类书后,一段时间后很有可能会借“营销”类书。

3.3基于市场营销专业书目间序列模式挖掘

旅游管理专业有509条借阅课内书目记录,113位读者,即有113项事务。序列模式挖掘过程如下:

3.3.1找出频繁项集

设置支持度阈值为4%。最小事务支持度计数为5(由113*4%=4.52所得)。

3.3.2找出序列模式

现在已有频繁1-序列L1={<4><5><7><9><10><11><12><15><18><21><23><28><29><35><38><45><51><54>}。利用频繁1-序列生成候选2-序列C2。扫描数据库并对候选2-序列计数,得到频繁2-序列为L2={<{4}{5}><{18}{4}><{5}{4},<{5}{7}><{5}{18}><{5}{23}><{5}{35}><{35}{5}><{18}{5}><{7}{5}>。频繁2-序列连接后得到候选3-序列C3。

由于候选3-序列中没有支持度计数大于阈值的,亦就是没有新的序列模式出现,因此频繁2-序列为我们最后得到的序列模式。将频繁序列转换成真实的序列模式。我们得出五个结论:结论一,当该专业的读者先借“推销与销售”这类书后,一段时间后很有可能会借“经营管理”类书;结论二,当该专业读者先借“营销”类书后,一段时间后很有可能会借“推销与销售”类书;结论三,当该专业读者先借“经营管理”类书后,一段时间后很有可能会借“推销与销售”类书或者“市场营销”类书或者“营销”类书或者“企业传记”类书或者“创业”类书;结论四,当该专业读者先借“创业”类书后,一段时间后很有可能会借“经营管理”类书;结论五,当该专业读者先借“营销”类书后,一段时间后很有可能会借“经营管理”类书;结论六,当该专业读者先借“市场营销”类书后,一段时间后很有可能会借“营销”类书。

4结论

通过上述实验数据的分析,采用序列模式挖掘的方法我们可以方便的得出特定专业学生借阅书目之间的规律和顺序。通过挖掘结论我们可以为学生借阅提供个性化的推荐,为学生今后的学习过程提供指导,亦可为图书馆的信息管理和服务提供参考意见。

参考文献:

[1] 付沙.基于序列模式挖掘的图书馆用户借阅行为分析[J].情报理论与实践,2014(37):103-106.

[2] 郭宇红,毛玉琪,苏展辉.读者借阅书目序列模式挖掘[J].中国科技信息,2014(7):261-263.

[3] 蒋盛益,李霞,郑琪.数据挖掘原理与实践[M].北京.电子工业出版社,2011.8.

[4] 陈春颖,熊拥军.基于序列模式挖掘的读者借阅行为分析[J].图书情报知识,2011,7(4):92-96.

猜你喜欢
关联规则数据挖掘
基于并行计算的大数据挖掘在电网中的应用
一种基于Hadoop的大数据挖掘云服务及应用
数据挖掘的分析与探索
基于GPGPU的离散数据挖掘研究