张爱华
摘 要:本文提出一卡通数据挖掘的功能需求,并建立了一卡通数据挖掘架构。采用数据分析和数据挖掘技术对一卡通数据进行深度处理,为学校图书采购、奖学金发放、补助发放以及各项政策制度的制定等提供数据支撑。以适应学校信息化发展,方便师生日常学习生活。
关键词:校园一卡通;数据分析;数据挖掘
1 现状分析
目前学校一卡通系统数据量大,因此要使用数据挖掘技术发掘各个子系统中数据的相互关系,形成有价值的数据。校园一卡通数据的挖掘分析研究目前主要是两个方面,一是侧重于理论研究的,主要讨论数据挖掘技术在一卡通系统中的可行性;二是则侧重于实证,通过对具体的一卡通数据挖掘分析,得出实际的结论。本文根据一卡通数據挖掘的需求,结合理论研究和数据分析对一卡通数据进行了预处理,构建了数据挖掘的一卡通数据集,为学校提供数据支撑。
2 源数据准备
数据预处理又称为 ETL(Extraction-Transformation-Loading),ETL 最主要包括以下四个方面的数据处理:第一步是数据清洗:冗余数据的删除,脏数据、不一致数据的清理。第二是数据集成:将各个子系统数据整合,打通阻碍,实现数据流转。第三是数据的选择:从整合好的数据中抽取需要挖掘分析的那一部分,最后是数据的变换:通过数据转换,把数据统一成适合数据挖掘的模型与算法的形式,简单来说数据预处理就是数据源的提取、转换、加载!
要对一卡通数据进行预处理,就要了解一卡通的几类基本数据,主要包括三大类:身份类数据(大类):英文标识identity,简称id;帐务类数据(大类):英文标识accounts,简称ac;业务类数据(大类):英文标识operation,简称op。数据表命名规则:大类简称_数据表。
卡户数据示例:卡户信息表(id_AccountsInfo):卡户帐号AccNum,卡序列号CardID,卡内编号CardCode,卡户状态AccStatus,卡户类型AccType,交易密码PayPWD,个人编号PerCode,卡户姓名AccName,卡户部门DepNum,卡户身份ClsNum,证件号码CertCode,配卡日期PostDate,失效日期LostDate,撤户日期DelDate等。
流水数据示例:交易流水表(ac_PaymentBooks):交易站点StaNum,卡内编号CardCode,卡户帐号AccNum,交易类型FeeNum,交易金额MonDeal,卡余额MonCard,库余额MonDBCurr,商户帐号DealerNum,交易时间DealTime,到帐时间RecTime等。
商户数据示例:商户信息表(ac_Dealer):商户帐号DealerNum,商户名称DealerName,营业分组DealGroupNum,卡序列号CardID,结算人姓名BalanceMan,部门编号DepNum,交易密码PayPWD等。
从上我们可以看到有很多数据是相互关联的,例如:用户信息表中的AccNum字段与交易流水表中的AccNum字段关联;交易流水中的DealerNum字段与商户信息表的DealerNum字段关联。我们需要从以上这些相互关联的信息中提取转换出我们需要的数据。
3 数据分析
本文以2018年一年的流水1035.49万条数据为原始数据,通过数据清理,数据集成,数据变换等处理提取需要的数据。
原始数据主要是流水数据和身份信息类数据,流水数据包括正常的消费流水,充值流水,圈存流水等,其中充值包括银行转帐充值(目前学校只支持建行转账)和充值点现金充值两种方式。下表给出了2018年一年之中不同充值方式所占的比例。
从上表可以看出银行转帐已经成为学校一卡通主流的充值方式,占到总额的69.2%,随着时间的推移和学校信息化发展的推进(如统一支付平台的推进建立等),非现金充值方式所占的比例会越来越高。而使用现金充值使用这种方式充值的主要是退休教职工以及部分无法正常绑定银行卡的学生,比如,短期学校培训人员,技能学历班级,假期培训班等。
银行转帐又包括:圈存机自助转账、建行微信公众号转账和手机APP 转账。
从以上数据分析可以得出现金充值场所可以适当减少,充值人员安排可以重新部署,银行转账服务器可以适当加强配置以满足越来越多的转账需求,自助转账机设备可以适当裁撤减少设备支出。
4 数据挖掘
本文采用数据挖掘中的K-mean 算法,以2018年一年的流水数据为原始数据进行聚类分析,从性别、学历、身份等各个方面,可以得到以下聚类结果:
(1)从学生的消费数据和宿舍门禁数据聚类分析,这一类的学生生活规律、数据量多,女生比例高于男生,反应了学校大多数学生的学习生活习惯;
(2)从图书馆借阅信息数据和图书馆门禁数据聚类分析,这一类的女生研究生占比最高,在图书馆预约座位很规律,可能是学校中的学霸一类,另外从宿舍门禁数据可以推测这一聚类人群生活规律,早出晚归时间都类似,而且发现研究生比本科生更规律;
(3)这一聚类以在校教职工数据为主,女教工消费更为频繁。
另外校园一卡通数据量大,除了以上的聚类分析,还可以从商户营业状况聚类分析为商户的选择和工作提供指导意见,优化POS机的资源配置,使之更好的服务于学生,还能对繁冗的图书借阅信息进行挖掘,聚类分析出学生感兴趣的图书,进而为学校图书的采购与管理提供意见。
参考文献:
[1]刘文学,刘汝元.基于校园一卡通平台的数据挖掘应用分析[J].信息系统工程,2015(5):73.
[2]刘珍兰,袁新辉,宋强.校园一卡通数据分析系统的设计与实现[J].华中师范大学学报(自科版),2017(s1):74-77.
基金项目:湖州师范学院校级科研项目成果(编号KX37009)