张秀玲
(长春金融高等专科学校现代教育中心 吉林 长春 130012)
校园一卡通在校园卡中心储存了大量的数据信息,这些数据信息涵盖了餐饮、上机、借阅等。由于这些数据信息是学生自己使用产生的,所以对这些信息的研究分析有助于学校了解学生的需求,更有助于学校的建设和管理。下面对k-means算法在校园一卡通平台中的运用进行分析与论述。
k-means算法出现于1960年,其也被人们称作K均值聚类算法,其是由MacQueen提出来的。伴随理论分析持续加深以及计算机技术的持续发展,这一算法发展成经典数据挖掘算法,随后出现了一部分聚类算法均是根据这个算法所提出改进的。由于此算法于数据结构、时间耗费、储存方面有着一定的优势,所以诸多聚类过程均使用此算法。k-means算法原则为:对给定数据对象集X,将数据对象至聚类中心点之距离和当成聚类准则函数,经过求准则函数极小值迭代,将数据对象划分至聚类个数时C的类内,同时促使各类内部数据对象相似性较高,而不一样的类中的数据对象不相关性较大[1]。
由于受到时代发展所影响,学校需要使用适当的技术进行管理。对计算机管理系统为基本的卡片的使用十分普及,学生采用各种卡片于校园日常生活中很普遍。可是以往的校园卡片功能较少,学生日常生活要携带诸多卡片,例如餐饮、图书证、学生证等,为学生生活造成了不便,该校园管理模式具有很多不足:(1)未完成对现代化校园的管理;(2)为学校管理系统带来了负担;(3)学校管理成本增加;(4)为学生带来了麻烦。对现代化校园管理而言,其需要具有的特征是:信息传递效率高、管理相当精细,如此对高校教育教学而言是百利而无一害的。而校园一卡通的出现就有效解决了上述问题,可以促使校园管理水平提升,实现管理精细化,提高信息传输的速度。一卡通是经过把IC卡当成重要信息载体,非常适合在校园消费和开展管理网络系统。IC卡的出现为学生带来了方便,可以实现生活消费等多方面的功能,有效代替了以往多张卡的使用方式。与此同时,IC卡和银行互联,能够在学校中与学校之外的银行网点进行现金提取和消费,大大提高了校园信息化管理水平[2]。
(1)k-means算法对初始簇个数K有一定的依赖性。因为不一样的K值对算法效率与聚类结果有影响,因此K值的确定必须要用户根据需要且通过很多实验才可以确定。
(2)k-means算法对选取的初始簇中心相当敏感。根本原因在于k-means算法为任意抽取初始聚类中心点的,如此一来很大几率会产生迭代次数大与迭代收敛最优解的现象,倘使真正发生这种事情,则统统无法获取到最优解聚类成效[3]。
(3)k-means算法对孤立和噪音对象较为敏感,该情况会将最后的聚类结果质量降低,一般在运用过程中,这一算法大部分使用在发现球状簇。
通过以上的分析,我们可以了解到,聚类成效好不好很大概率取决于簇内与簇间对象密集度,假使簇内对象密集度高,则聚类成效是很不错的。本次研究采取处理初始聚类中心优化方式,可以大大削弱由孤立点与噪音点带来的影响。与此同时,对点群中心聚类法加以分析,比较选取比较好的点群中心聚类优化k-means算法,这样一来,可以达到类内密集度高和类间密集度低的效果。
于初始聚类中心选取问题方面,以往的k-means算法是于样本数据中心随机抽取K个对象当成初始簇中心,如此会产生初始簇中心太过集中或无法均匀分布于样本数据集中,最终造成数据收敛需要的迭代次数增多,进而陷进局部最优解,对最终的聚类效果带来不良影响。为防止出现该种情况发生,此次实验根据具体状况对初始簇中心选择进行了优化,让簇中心可以均匀分布样本数据集中,防止孤立点与噪音点影响,继而提高算法鲁棒性[4]。
优化以后的算法虽于CH指标中聚类成效未达到理想中的效果且低于别的优化前试验平均值,可是于Dunn指标以及XB指标分析过程中,优化以后的聚类效果明显。因而此聚类分析实验使用优化以后的k-means算法展开数据挖掘应用。
于聚类分析过程中,选取不一样的点群中心聚类法,那么聚类效果也是不同的。以往的k-means算法使用了Euclidean Distance度量对象彼此间的聚集程度,这一点群中心聚类法对噪音与孤立点有一定的敏感性,与此同时通常仅能发掘球状簇。因而,对不一样的数据,要根据实际情况使用不一样的点群中心聚类方式的k-means算法处理问题。此次实验对几种点群中心聚类法作了对比,按照原始数据的差异性,使用不一样的点群中心聚类法,如Euclidean Distance、CityBlock Distance、Minkowski Distance。
此次将在学生热水消费聚类实验过程中,合理运用基于以上三种点群中心聚类的优化k-means算法展开聚类分析。
(1)学生历年热水消费。现如今,校园一卡通平台系统中有很多刷卡记录,在这里诸多数据源自学生平时的热水消费刷卡记录,同时每天都在增加。根据这部分数据中挖掘隐藏规律,为优化学校资源配置提供重要依据,是当前高校有关部门的需求。因为数据库里面有很多数据,这些数据量大、冗余度较高,因而必须要展开数据预处理,挑选与整理出适于算法的数据集合。以某高校为例,对其在2015年—2017年学生热水消费金及其次数进行了分析。
(2)热水消费数据特点属性量化。按照需求分析,为有效提升数据挖掘质量,所见算法分析时间,提高实验结果精准度,因此本次实验选择2017年11月学生热水消费171330条记录作为样本数据,以此实现综上目标。
此次实验主要是针对校园一卡通内容之一,即学生热水消费数据情况的分析,经过合理采用点群中心聚类优化化k-means算法,全面分析高校学生热水消费实际情况,继而经过对比Euclidean Distance、CityBlock Distance、Minkowski Distance,我们可以从中发现,这些方法的迭代次数是一致的,没有差别,其中ED花时少,MD的P值最小。经过整理和归纳,可以得到ED方式在学生热水消费数据聚类成效好得多,故而选取采用ED优化K-means算法得到令人满意的结果。
经过比较几种点群聚类方法可以了解到,此次实验将使用基于ED的优化k-means算法,分析与探索学生热水消费情况。根据业务需要,把聚类个数设置成五类,经过比较分析可以得到:一类热水刷卡行为80%分布于洗浴中心二、三层,刷卡行为多在当月中旬,时间多为中午。二类热水刷卡行为分布于二、三层,刷卡行为多在二层,行为发生于当月中旬。刷卡行为记录较多,刷卡行为概率大。三类刷卡行为分布于二层,当月刷卡行为在中旬,时间是下午,刷卡金额中等。四类热水刷卡行为分布于洗浴中心一、二层,当月刷卡行为在中旬,刷卡行为在下旬,时间为下午,刷卡金额中等偏上。
因此,按照以上分析可以知道,根据POS机使用状况,发现一、二层POS机使用率高,三层使用率较低,在当月中,全部的刷卡行为多出现在中旬,在每日中,全部的刷卡行为出现在中午。
校园一卡通平台是数字化校园的基础工程,本文对于某高校学生热水消费数据的聚类分析,仅仅是校园一卡通平台中的一部分。校园一卡通系统平台涵盖了很多有价值的信息,还有待持续研究与探索。