张亮 赵娜
摘 要:高校学生的综合素质是影响高校毕业生就业的一个关键因素,高校社团是素质教育的一个重要途径,可以提高高校学生职业规划意识和职业素养。如何让新入学的高校新生选择合适的社团,是本文需要研究解决的问题。从用户的角度出发,推荐系统可有效地帮助用户做出决策。本文把学生的相似度计算、K-中心点算法聚类分析以及招收指数结合在一起,最终得到社团的推荐排序值,并将其推荐给新生用户。本系统能够实现为新生推荐社团服务,具有一定的应用价值。
关键词:推荐系统;相似度;聚类分析;PageRank
中图分类号:TP311.52 文献标识码:A
1 引 言
高校毕业生就业难这个问题由来已久,其中一个主要原因是高校毕业生综合能力较差,而高校社团是综合素质培养的一个重要途径。近年来,高校社团的数量和种类呈现快速增长的趋势,如何让高校新生选择到合适的社团,信息化的高校社团推荐系统给出了这个问题的解决方案。
2 系统的构建
2.1 系统的软硬件设计
推荐系统是基于.NET的三层架构体系,选用B/S模式进行架构,使用高性能PC作为服务器,采用Microsoft SQL Sever 2008企业版作为数据库服务器,采用ADO做为数据访问的基础。Cluster[1-2]为网络服务提供了灵活高效的软件环境和硬件设施,为SQL Server提供了良好的性能扩展。
2.2 系统的整体架构
高校社团推荐系统就是根据特定的算法,以学生和社团的各项特征为基础,建立学生和社团的二元关系,以二者之间的相似关系作为依据,为新生推荐合适的社团。下面是社团推荐系统实现的主要流程主:
1.构造学生数据库(包括新生数据库、老生数据库)和社团数据库;
2.依据新生数据库和老生数据库中的数据获得新生和老生之间的相似度关系;
3.获得社团数据库中各社团之间的关系;
4.将2和3的结果相互结合,得到最终的排序权值;
5.对新生数据库中的每个学生,社团数据库中的社团按4得到的权值将排序后显示给新生用户。
社团推荐系统的框架结构图如图1所示。
3 核心算法
3.1 基于SimRank算法的相似度计算
为了挖掘新生和老生之间的相似关系,根据SimRank提供的“无向图模型”,首先将学生数据库中的“学生”与“特征”用一种二元关系来表示,如表1所示。接着将<学生,特征>的关系转换成无向关联图模型。本文综合考虑了专业、性别、特长、爱好、年级、级干、获奖情况、计算机级别、英语级别等多项特征属性,其中计算机级别与英语级别按照高考时成绩划分A(128<分数)、B(105<分数≤128)、C(分数≤105)三档。
由上可以看出,一名新生与一家社团之间的相似度,需要考虑两个方面,一是这名新生与加入这家社团的老生之间相似度,二是与这个老生类中所有加入这家社团老生的相似度,这样可以避免噪音数据给结果带来比较严重的影响,可以使结果更加合理。
3.4 基于PageRank算法的社团招收指数计算
事实上,某些社团招收社员时,会指定招收某类社员,而且多年来只招收这类社员。此时对于某一新生,再根据Sco得到的推荐社团,尽管排名靠前,确没有任何意义。因此,在社团推荐系统设计过程中可以引入“招收指数”的概念,对于Sco值很高,但“招收指数”很低的社团,推荐时的排名不一定会靠前。
PageRank算法[9-10]的思想源于学术引文分析,它仅仅从页面间链接结构出发,分析出页面的重要程度。因此,可以认为将一家社团看做一个网页,将基于社团特征属性的相似关系看做网页之间的链接,这样就可以利用PageRank算法计算值得到社团的“PR值”,即所需要的“招收指数”。根据PageRank算法,社团“招收指数”的计算公式为:
其中d为阻尼系数,且0 3.5 最终排序权值的计算 根据前文得到的新生与社团之间的相似度Sco和社团的“招收指数”PR,通过下式计算得到最终排序权值W。 式中,W(i,w)表示社团w在新生i的推荐社团中的排序权值,PRmax 为所有社团PR值的最大值。 4 系统推荐显示实例 一名新生在注册登录到本系统后,根据新生注册的基本信息,按照上面所述的算法,系统将为新生推荐6家权值最高的社团,并直观显示在社团推荐的页面中,新生只要点击页面中显示的社团名称,就可以获得这家社团的招收社员的信息以及这家社团的简介。 5 结束语 本文以高校新生社团选择为研究课题,详细介绍了设计高校新生社团推荐系统过程中的关键技术,从系统的使用测试来看,本系统基本满足新生社团选择的推荐要求,达到设计目的,但未加入就业方向等方面的信息。今后探索研究的方向是,如何将高校学生就业方向等信息与高校新生社团的选择相结合,以便更好的提高高校学生综合素质,减少高校毕业生就业难的成因。 参考文献 [1] 魏茂林.Windows Server 2003网络服务管理与使用[M].北京:电子工业出版社,2007. [2] 张志友.计算机集群技术概述[J].实验室研究与探索,2006,25(5):607-609. [3] Glen Jeh,Jennifer Widom.SimRank:A Measure of StructuralContext Similarity[J].Proceedings of the eighth ACM SIGKDD international conference on Knowledge discovery and data mining.New York:ACM,2002:538-543. [4] 田玲,曾涛.基于SimRank的中药“效-效”相似关系挖掘[J].计算机工程,2008,34(12):242-244. [5] 刘萍,黄纯万.基于SimRank的作者相似度计算[J].情报理论与实践,2015,38(06):109-114. [6] 刘玉华,陈建国,张春燕.基于数据挖掘的国内大学生就业信息双向推荐系统[J].沈阳大学学报:自然科学版,2015,27(03):226-232. [7] BOUTSIDIS C,MAGDONISMAIL M.Deterministic Feature Selection for KMeans Clustering[J].IEEE Transation on Information Theory,2013,59(09):6099-6110. [8] 吕小刚.基于Kmeans文本聚类算法研究[J].电脑编程技巧与维护,2014,(24):33-35. [9] 吴迪.高校毕业生就业推荐系统的设计与开发[D].大连:大连理工大学,2010:29-33. [10]徐键.基于PageRank的科技论文推荐系统[J].电子世界,2013,(01):103-105.