李婷 李海平 尉亦兵
摘 要: 以陕西工业职业技术学院校园“一卡通”中教职工交易流水数据为研究对象,通过对提取的数据进行预处理、整理与分析、最终实现数据可视化,以满足后勤餐饮部门的管理要求。提取了118 249条交易数据,使用Python、SPSS 24、Excel 2010对数据进行预处理和统计分析。首先,讨论了职工餐厅与学生餐厅中教职工消费数据的综合关系;然后,整体研究了职工餐厅近一年来消费情况;最后,从不同方向进一步研究教职工的就餐规律,为学校优化资源配置和科学决策提供参考依据。
关键词: 校园“一卡通”; 数据可视化; 消费行为; 数据分析
中图分类号: O 213.9 文献标志码: A
Consuming Behavior Data Analysis Based on Campus E-Card System
LI Ting1, LI Haiping1,2, WEI Yibing3
(1.School of Trade and Circulation, Shanxi Polytechnic Institute, Xianyang, Shanxi 712000, China;
2.School of Economics and Finance, Xian Jiaotong University, Xian, Shanxi 710061, China;
3.Finance Office, Shanxi Polytechnic Institute, Xianyang, Shanxi 712000, China)
Abstract:
In this paper, we study the consuming transaction in E-Card system of Shanxi Polytechnic Institute by preprocessing, sorting and analyzing the extracted data, and realize data visualization to meet the management requirements of logistics and catering department. There are 118 249 records from transaction data are extracted from E-Card system. First of all, we discuss the relationship between the consumption data of staff restaurant and the student restaurant. Then, the consumption of the staff restaurant in the past year is studied. Finally, it is significant to provide a reference for the optimization of resource allocation and scientific decision-making of the school through further researching the dining rules of teachers.
Key words:
campus “E-Card”; data visualization; consuming behavior; data analysis
0 引言
随着高校信息化、智能化的推动,校园“一卡通”得到了快速发展和普及,已由最初的小额消费卡,变为学生证、借阅证、门禁卡、考勤卡、公交卡,甚至能够应用于学籍注册、自助文印、学费缴纳、体育场馆预定、体能测试等场景[1-3],可以说是“一卡在手,走遍校園”[4-6]。校园“一卡通”的高度智能化涉及到了全校师生的上课、科研、管理等方方面面,同时也记录了师生在学校中的各种行为,在校园“一卡通”中可以找到相应的足迹,因此校园“一卡通”也产生了海量高速增长的数据。基于数据挖掘理论,从大量繁杂、无序的原始数据中提取出有价值的信息,通过分析和建模来实现知识发现,将有助于学校全面掌握师生的行为规律,对学校优化资源配置和科学决策具有重要意义[7-10]。
本研究以陕西工业职业技术学院(以下简称:陕西工院)为例。全校共有明伦(共两层)、明善(共一层)、明德(包含明德堂、西一、西二餐厅)三个学生餐厅,为全校师生提供餐饮服务。2018年11月底学校为避免用餐高峰期师生用餐拥挤、保证教师午休质量、同时给教职工营造一个良好的餐饮环境,专门设立职工餐厅。以全校职工的“一卡通”消费数据为研究对象,通过对原始数据进行预处理、整理与分析、最终实现数据的可视化,以满足后勤餐饮部门的决策与管理。首先,对陕西工院校园“一卡通”系统进行简单介绍。然后,研究自职工餐厅设立之日起,职工餐厅和学生餐厅中教师的综合消费情况。最后,针对近一年来职工餐厅的消费情况进行研究。
1 陕西工院校园一卡通系统简介
陕西工院“一卡通”系统始建于2017年8月,是一个基于C/S架构的多应用集成系统[11-12]。图1给出了陕西工院
校园“一卡通”系统平台的结构图。按照功能划分,该系统主要包含数据层、平台层、网络层、用户层。其中,和我们最息息相关的一层便是用户层,它为用户提供各种服务与便利。
用户层具体包含充值系统、消费系统、身份认证系统、及其它应用系统四类。陕西工院的“一卡通”充值系统为师生提供微信充值、现金充值、手机APP充值三种方式。消费系统支持在食堂、浴室、超市、校医院等场所消费,主要消费方式是刷卡或手机“完美校园”刷码,同时还支持手机“完美校园”缴纳学费、书费、网费、四六级、AB级、图书逾期扣款等功能。身份认证系统包含所有需要身份认证的场所,包含上课签到、会议签到、图书馆门禁、宿舍晚归考勤统计等应用。其它应用系统包含快递提取、教务管理、注册报到等场景。
2 餐饮数据挖掘分析及结果
2.1 数据预处理
陕西工院共有在校职工1 080人,每天产生的餐饮消费数据在620多条,一年累计产生餐饮消费数据15.36万条。由于职工餐厅是从2018年11月底才成立,截止目前,消费数据共计65 694条,数据量相比不是很大,所以将对所有数据进行分析处理。同时为了对比,提取出3个学生餐厅中所有职工的交易流水数据。
使用Python、Mapreduce、SPSS 24和Excel 2010对数据进行处理。首先对于“一卡通”系统平台导出的数据进行预处理,包含数据清洗、数据集成、数据变换和数据规约[13]。
其次,为了研究职工的消费习惯和规律,将职工餐厅数据中的消费时间离散化处理,主要思想是将时间以半小时为计量单位,例如:18:18、18:25统一记为18:30。因为职工餐厅的用餐时间为:早饭(6:30-9:30),午饭(11:00-13:30),晚饭(17:00-19:30),共8个小时,由于个别老师在规定用餐时间段提前或延迟消费,所以根据实际消费时间将其离散化为21个时间点。离散化后消费时间段与其对应时间点的关系,如表1所示。
通过前期的数据预处理,已得到待分析的数据,接下来会从不同角度分析研究。
2.2 所有餐厅消费情况综合分析
有的教师喜欢在职工餐厅消费,但有的鉴于上课教室的
地理位置以及个人偏好,会选择在就近的学生餐厅就餐。所以文中分别研究了近一年来职工餐厅、学生餐厅中教职工消费数据,并做对比分析。
图2给出了研究时间段内的教师在职工餐厅及学生餐厅的消费情况。从图中可以看出,除2018年11月份外,其余月份的职工餐厅消费金额均高于学生餐厅,11月份职工餐厅总额超低是因为它是从11月28日才开始营业。加之职工餐厅的单价较低,由此可以推出,在学校消费的教师中有超过一半的人员选择职工餐厅就餐,从而减缓了用餐高峰期的拥堵现象,这表明职工餐厅的设立还是有一定的成效。
表2给出了每个月在职工餐厅的消费金额占所有餐厅消费金额的比重(这里只包含教职工的消费数据)。从表中可以看出,近一年来职工餐厅的消费总金额占所有餐厅的50.26%,这说明职工餐厅的饭菜还是很受欢迎的。其中12月份占比最高(63.72%),这是因为刚开业,菜品种类繁多、味道可口、环境优雅,所有老师会抱着尝鲜的心态去消费。从2019年的1月份开始,消费总额稍有下滑,经调查发现,一方面,老师对于长时间的自助餐模式略感乏味;另一方面,食堂的菜式花样减少。而9、10月份的消费占比又逐渐增加,经调研,新的一学期,餐饮部门对职工餐厅进行调整、厨师进行培训,从味道、营养搭配等方面严格把关,保证了消费的高质量性。由此说明,只要餐饮部门进一步改善餐厅的饮食、服务等质量,例如针对喜欢的菜品、餐厅环境等因素对教职工进行市场调研,每周、尤其是学期末可以推出爆款菜品,吸引客流量。想必假以时日,职工餐厅会真正吸引所有的教职工,成为他们饮食消费的不二之选。
前述研究的是职工餐厅与所有餐厅的整体消费情况,接下来只针对职工餐厅中的交易流水进行统计分析。
2.3 职工餐厅总体消费情况分析
2.3.1 职工餐厅用餐人数
通过统计职工餐厅中实际用餐人数,发现有84.32%的老师近一年来至少在职工餐厅消费过一次,说明职工餐厅还是受到了老师们的青睐,如表3所示。
2.3.2 职工餐厅月消费情况
图3 给出了近一年来职工餐厅每个月的消费金额。
从图中看到,18年11月、19年的2、3、7、8月份消费金额均比较少。其中11月的前面已做说明,19年1月份是临近放寒假,该餐厅不营业;2月底寒假結束、正式开学;7、8月份与1、2月份类似。3-6月份,9、10月份属于教学正常时间,消费趋于稳定。3、4月和9、10月同时开学的前两个月,但3、4月份的消费额略高于9、10月份,这说明职工餐厅的效益从长远看还是有降低的趋势,这就需要餐饮部门提高重视;同时可以根据实际情况有必要的适当增减食材,减少不必要的浪费;同时添加不同菜系的小吃等。
2.3.3 职工餐厅各时间点消费情况
运用数据透视表以“时”为步长进行统计,将交易流水时间数据化为整点,通过统计不同时间点的消费次数,方便更加清晰、准确地了解餐厅的消费曲线。如图4所示。
图4给出了近一年来不同时间点的消费总次数。可以看出一天的消费曲线中有三个高峰期,分别在早饭的8时(即7:00-8:00),共计刷卡5630次;午饭的12时(即11:00-12:00),共计刷卡29272次;晚饭的19时(即18:00-19:00)。且午饭的12时集中爆发高峰期,刷卡次数大约是早饭8时的近3倍,这说明教职工午饭更愿意在食堂用餐,同时用餐时间也相对较集中,可能会产生一些拥挤现象;早饭8时和晚饭19时的用餐高峰相对平缓,拥挤程度不明显,而且此阶段教师用餐较分散。针对午饭用餐,餐厅可以临时将饭菜一式两份分布在两个窗口,减少拥挤;适当增加餐桌,避免“端着盘子找不到位子”的尴尬。
2.3.4 职工餐厅各餐别消费情况
结合用餐时间,利用SPSS软件将交易流水时间进行归类,包含三类:早饭、午饭、晚饭3个餐别。
近一年来各餐别的消费情况,如表4所示。
可以看出,午饭的消费次数大于早、晚饭之和,而且早饭的消费次数略高于晚饭,这说明部分老师可能早上第一节有课,上课前顺便吃个早饭,而下午下班后会选择回家做饭。
2.4 职工餐厅各月消费情况分析
在上表研究各餐别的基础上,加上时间因素,研究每个月的消费情况。每个月各餐别的消费情况分布,如图5所示。
从图中可以看出18年11月-19年2月份中,每个月早、晚饭的消费金额基本相近,但从19年3月份开始,每个月的早饭消费金额高于晚饭。结合当时的月份,天亮的早、气温逐渐升高,教师可能会提前出门,顺便在学校享用早餐,所以早饭用餐的老师人数多于晚饭。
与此同时,每个月各餐别的就餐率,如图6所示。
图中可以看出,3个餐别的就餐率整体上都很低,虽然午饭的就餐率较早、晚饭高,但最高的才24.92%。晚饭的就餐率中最高的也才是11.19%,最低的为4.43%。这说明除了一部分老师选择学生餐厅外,还有大部分的老师可能选择在家吃饭。所以这就需要相关负责人根据前几个月各餐别的实际就餐人数及在校老师人数来权衡食材的采购与每日供给,避免浪费。同时,针对当地人的饮食习惯和口味,每天可适当增加面食的样式,添加砂锅、凉皮、香锅冒菜等菜品,减少炒菜。饭菜样式多了,势必会吸引更多的教职工。
接下来讨论每个时间点的月均消费情况,前面已经将交易流水时间按每半个小时进行离散化,通过统计不同时间点的消费次数,直观了解餐厅的消费曲线,如图7所示。
图7给出了一年中不同时间点的月均消费次数。该值为2018年11月28日-2019年10月31日共计12个月的消费平均值。同样可以看出有三个高峰期,早饭的7:30-8:30(实际时间为7:00:01-8:30:00),平均月刷卡共计1 267次;午饭的12:00-12:30(实际时间为11:30:01-12:30:00),平均刷卡共计2 439次;晚饭的18:00-19:00(实际时间为17:30:01-19:00:00)平均刷卡共计1 037次。同前面研究发现结果一样,午餐的消费高峰非常突出,会出现用餐拥挤现象,早、晚饭用餐高峰先对平缓。
最后想研究一下教职工每个月的消费能力分布情况。利用SPSS统计出每一位消费者每月消费金额,并给出频数直方图,如图8所示。从图8中可以看出,月消费水平在50元以下的占比非常大,50-150元/月的人数相比已减少,150元/月以上的人数明显很稀少。因为食堂日标准为12元(早、晚饭各3元,午饭6元),若每月按22天计算,最高月消费金额为264元,故250-300段的人数极少是正常的。
若将月消费金额按以上思想划可分为6档,依次是:0元、1-50元、51-100元、101-150元、151-200元、201-250元、250-300元,可得出职工的月消费能力分布情况,如图9所示。
从图中可以看出,月消费为0元的人数还是很突兀的,经计算发现有1/3的老师一年来在职工餐厅只消费过偶尔几次。说明这些老师经常在家吃饭,偶尔因为上课等原因临时去职工餐厅用餐。月消费水平在1-50元的人数是最多的,51-100元的次之。这说明经常在职工餐厅用餐的职工其实并不多,所以餐饮部门应该结合此统计结果每季度做一次全面的调查问卷,进一步了解具体的原因,及时做以调整,在为用餐者提供更优质服务的基础上增加创收。
由于月消费金额范围跨度大且较为分散,为更精准获取教职工月消费水平,宜采用聚类分析方法[14],在这里使用K-means聚类算法。K-means聚类算法是最常用的一种聚类算法,输入为一个样本集(或者称为点集),通过该算法可以将样本进行聚类,具有相似特征的样本聚为一类[15]。
基本的步骤为:
步骤1:选定要聚类的类别数目k(如上例的k=3类),选择k个中心点;
步骤2:针对每个样本点,找到距离其最近的中心点(寻找组织),距离同一中心点最近的点为一个类,这样完成了一次聚类;
步骤3:判断聚类前后的样本点的类别情况是否相同,如果相同,则算法终止,否则进入步骤4;
步骤4:针对每个类别中的样本点,计算这些样本点的中心点,当作该类的新的中心点,继续步骤2。
设置最大迭代次数为100,聚类类别数目为8个,通过迭代运算,最终得到结果,如表5所示。
通過表4可以看出职工月消费水平大致分为5个档,分别为:3元、24元、51元、81元、112元,各占比59.42%、18.34%、10.23%、5.44%、3.58%。其中月消费金额在3元档的占一半以上,印证了前述“老师一年来在职工餐厅只消费过偶尔几次”的结论;月消费金额在24元档和51元档的合起来占比不到1/3,由此看出职工餐厅的效益比当初计划差了很多,这样长此以往,职工餐厅的实际价值并不能很明显地体现出来。
3 总结
本文以陕西工院校园“一卡通”中教职工交易流水数据为研究对象,利用分类、K-means聚类等方法,从不同角度、不同深度研究教职工在职工餐厅的就餐规律、消费水平等内容,为学校科学管理、后勤餐饮部门优化资源配置提供了科学依据。
校园“一卡通”系统平台是智能化校园建设的重要组成部分,是高校核心业务系统之一,为打造信息化管理的智能化校园提供一种快速、便捷、有效得到管理手段[16]。通过对“一卡通”系统中沉淀积累的数据进行挖掘、建模、分析并得出所需结果,可以为智能化校园建设提供可行性的技术方案支持,加快学校智能化校园建设进程。
参考文献
[1] 孟昆鹏.数字校园如何向智慧校园转型的探讨——以开封技师学院为例[J].中国培训,2016(11):52-54.
[2] 樊铁成,高路,管晶,等.智慧校园一卡通未来发展研究[J].郑州大学学报(工学版),2017,38(S1):25-28.
[3] 田丽.智慧校园环境下的校园一卡通建设[J].华东师范大学学报(自然科学版),2015(S1):530-535.
[4] 贲能军. 基于一卡通平台数据挖掘在学生管理中的应用分析[J].信息与电脑,2017(23):160-161.
[5] 申兵.校园一卡通对高校财务管理的影响分析[J].财经界(学术版),2019(6):98-99.
[6] 张宁,刘宏磊,谭薇,等.基于校园一卡通的电子商务平台的设计和实现[J].华中师范大学学报(自然科学版),2017,(A1):195-199.
[7] 李珊娜.基于校园一卡通平台的数据挖掘应用研究[J].铁路计算机应用,2010,19(6):55-58.
[8] 张兵兵,王建,张建威,等.数据挖掘在校园一卡通系统中的应用初探[J].数理医药学杂志,2009,22(5):572-575.
[9] 陈锋.基于校园一卡通系统的高校用户就餐消费行为分析与数据挖掘[J].中国教育信息化,2014(9):47-49.
[10] 薛黎明,栾维新,李志淮,等.数据挖掘在校园一卡通消费数据分析中的应用[C]//中国高等教育学会教育信息化分会.中国高等教育学会教育信息化分会第十二次学术年会论文集.北京: 中国高等教育学会教育信息化分会,2014:8.
[11] 张四海,李珊珊.校园一卡通消费行为数据分析与研究——以南开大学为例[J].北京联合大学学报,2019,33(1):64-68.
[12] 李珊珊,焦宝臣,曲申,等.基于校园一卡通系统的数据挖掘研究[J].中国教育信息化,2018(3):77-80.
[13] 冯玖,李俊玲,张海霞,等.基于数据挖掘的校园一卡通数据应用研究[J]. 石家庄学院学报, 2017,19(3):53-58.
[14] 韩伟,胡西民,付刚,等.基于校园一卡通系统的餐饮消费数据分析[J].江苏科技信息,2018,35(24):26-29.
[15] tensory.online数据挖掘十大算法(二):K-means聚类算法原理与实现[EB/OL].2018-07-12.https://blog.csdn.net/ten_sory/article/details/81016748.
[16] 刘宏志,喻晓旭. 基于数据挖掘的校园一卡通消费行为分析[J].信息记录资料,2018,19(12):89-90.
(收稿日期: 2019.08.28)