基于LDA的大学一卡通学生行为特征分析研究

2022-05-25 04:48:08冯健文
现代计算机 2022年6期
关键词:一卡通轨迹标签

冯健文

(韩山师范学院教务处,潮州 521041)

0 引言

人工智能时代,通过挖掘信息系统中用户的行为数据,发现其蕴含的社会发展规律和趋势成为可能。在物联网技术应用中,用户行为数据为移动对象时空轨迹(spatio-temporal trajectories,STR)数据,轨迹数据挖掘主要包括模式挖掘和语义分类两种。模式挖掘侧重轨迹路径,研究成果较多,但不易解释用户行为。语义分类则同时关注路径和语义,是新兴的研究分支,受到广泛关注。主要方法有动态贝叶斯网络、隐马儿可夫模型、条件随机场、高斯混合模型、主题模型、聚类等。Nascimento等和Sun等提出了改进的隐马儿可夫模型,处理人类活动认知。Santos等提出使用动态贝叶斯网络作为分类器推理。狄利克雷分布模型(latent Dirichlet allocation,LDA)是重要的文档分析模型,本质上是一种贝叶斯网络,近年开始应用于用户特征提取和语义轨迹分类。起源于文本处理的LDA主题模型具有提取兴趣主题的多样性和简单性、数据降维、异构数据建模、语义归纳等优点。张宏鑫等采用LDA主题模型从手机日志数据提取人群特征。Ferrari等应用LDA模型从社交位置数据提取城市日常活动模式。Chu等采用一种基于LDA主题模型的语义转换方法,以出租车行驶轨迹为文档,经过的街道名字为单词,映射GPS坐标为轨迹数据,提取出租车行驶轨迹特征。蔡文学等通过LDA模型分析出租车轨迹得到热门城市区域,有效解释用户行为。虽然现有的LDA模型轨迹分类应用取得了较好效果,但是很少面向RFID轨迹数据,非业务特征轨迹数据分析鲜见,因此相关研究需要更多探索。

本文以大学一卡通学生行为特征分析为案例,根据一卡通RFID应用场景和数据特征,提出基于LDA的RFID数据轨迹框架,通过RFID应用标签的表示和分类方法、词袋模型构建、主题模型建立和聚类分析,最终提取学生群体特征知识,用于指导管理部门改进服务质量。

1 基于LDA的学生行为特征挖掘框架

本文研究目的是基于一卡通RFID-SIR数据提取学生用户群体特征知识,发现数据隐含的信息,对一卡通业务应用服务改进提供建议。如图1所示,研究基本流程为:①获取一卡通RFID-SIR数据并生成语义轨迹数据;②建立语义轨迹与LDA主题模型的关联,通过分析一卡通业务点特征来定义应用类型标签,该标签作为单词集,接着基于使用次数或交易金额等语义打分机制建立词袋模型,语义轨迹作为文档,利用LDA主题模型学习分析得到主题与应用类型标签的关联;③通过聚类分析得到主题特征用户群体;④分析结果并提出业务改进建议。

图1 学生行为特征挖掘框架

1.1 问题分析

为了挖掘一卡通学生用户的行为习惯,需要把原始轨迹数据预处理,得到语义轨迹作为轨迹特征知识挖掘的数据源。原始数据来源于多个一卡通RFID业务应用,存在数据格式、语义等差异。经过数据清洗、整合、压缩等校准操作,并根据业务应用主题建立数据集市。一卡通用户轨迹大多是单点轨迹,即轨迹中只包含单个业务点数据,不同的轨迹间没有明显的关联和约束,即无业务流程特征。可采用过程发现(process discovery)技术结合时间阀值参数法,从数据集市中提取用户的业务活动过程轨迹,即得到语义轨迹,其中不仅包含用户在某个时间段内的轨迹,还蕴含了用户的活动特征。例如,以一天为时间阀值,可得到某学生语义轨迹:食堂A(7:30)—实验室B(7:50)—图书馆C(10:00)—食堂B(12:00)—图书馆C(15:00)—热水D(22:00)。

可以看到轨迹业务点是属于某个业务应用类型,如食堂属于“餐饮类”。当把全部业务点分类到多个集合后,每一个集合可定义为一个主题。显然每个学生的活动特征实际上就是多个主题的聚合模型。因此,需要建立语义轨迹与LDA主题模型的关联,通过LDA方法得到主题模型的种类,用于学生用户群体聚类分析。

1.2 主题模型建立

要建立语义轨迹与LDA模型文本描述之间的映射关系,就需要通过RFID应用领域“语义轨迹-主题-业务应用类型标签”到LDA“用户-主题-单词”三层贝叶斯模型的语义转换,最后通过模型的生成实现轨迹特征知识的提取。定义一个学生用户语义轨迹对应一篇文档,用户轨迹中的业务应用类型标签对应文档中的单词,全部学生用户就形成语料库,学生行为轨迹提取就转为LDA方法从语料库中提取主题模型。LDA主题模型可以帮助在聚类前对数据进行降维操作,把学生用户轨迹中几十个业务点提取为学生与主题的相关度。

1.2.1 建立应用标签的词袋模型

在一卡通RFID应用标签对应单词后,进一步从RFID应用业务名称文本集合中提取出词频大于某个阀值的业务应用名称集合;主题采用主题重要度确定,即轨迹出现次数;将语义轨迹看作文档,轨迹中涉及多个RFID应用主题区域,好比文档包含多个主题,这样将轨迹集合类比文档集合,对其进行主题推断,就可以得到多个主题区域,而这些主题区域通过应用标签来表示,所以反映了语义轨迹的特征知识。因此,使用一卡通应用类型分类标签作为单词,建立每个学生用户的词袋模型,如表1所示。

表1 一卡通学生用户应用标签词袋模型

词袋模型采用了业务点重要度来衡量,业务点重要度指应用标签单词在某个语义轨迹中出现的次数,次数越高说明该单词越能代表该语义轨迹特征。考虑业务点太多,采用业务点类型与校区结合的方式定义应用标签类。采用单个业务点刷卡次数与LDA模型的词频对应,通过打分机制提高单词的文档代表性。一个业务点在所有主题中出现概率为1,设置一个阀值筛选主题中的业务点。

1.2.2 一卡通学生行为主题特征模型

在一卡通RFID应用领域,根据LDA主题模型,得到公式(1):

每个轨迹与个主题的一个多项分布对应,每个主题又与个标签的一个多项分布对应。因此LDA模型求解如图2所示,首先要求解与和参数相关的狄利克雷先验分布参数和,然后推理出和参数,最后使用Gibbs抽样法求出轨迹在主题上的分布和主题在标签上的分布,就能得到轨迹与标签的分布。

图2 LDA主题特征模型[5]

经多次实验,选取3个有实际代表意义的主题进行本文分析,分别为自习类、生活类、实验类,每个主题下包括多个一卡通应用分类标签,如表2所示。每个学生用户与每个主题都有相关度,如某学生主题相关度为:自习=0.7,生活=0.5,实验=0.1,表明该学生有良好的自习学习习惯,可能是文科类专业,使用校内生活服务应用频次一般。

表2 一卡通学生用户应用主题构成

1.3 特征聚类

在得到学生用户语义轨迹与主题的相关度后,每个学生都可用3个应用标签维度向量来表示。采用主流的聚类算法如K-means将具有相近主题特征的用户轨迹聚集,形成代表性学生一卡通用户群体。本文实验采集2万名左右学生用户一年数据、一卡通业务点38个,统计每个用户和3个主题的相关度,采用K-means算法将学生聚类为4类主题用户群体,其中心点如表3所示。

表3 一卡通学生用户群体的特征分析

从表3可以看出,学生群体3用户数最多,其行为特征是生活类相比其他主题较多,但总体上使用一卡通业务应用不突出,也没有自习行为。结合其他群体特征分析,从校内生活服务频率看,只有学生群体2的不足2000人,蕴含信息是学生对校内餐饮、小卖部、热水等生活类服务满意度一般,这可能受该大学周边外卖和超市、餐馆林立的情况影响,说明后勤部门应对生活服务类应用进行调查,加强服务质量。从自习行为看,只有群体1有自习习惯,蕴含信息可能是:一方面有自习习惯但没有列入统计的学生可能在宿舍或不需要校园卡的场所学习;另一方面有一部分学生确实没有良好的自习习惯,学生管理部门可进行相关的调查,在学风建设上开展有针对性的措施。

2 结语

本文以大学一卡通学生行为特征分析为案例,介绍从日常信息系统用户原始数据中,经过数据预处理、语义轨迹提取、行为主题建模,有效获得一卡通学生行为群体特征知识,为大学管理部门加强一卡通应用服务和学生管理、提升人才培养质量提供帮助。研究发现,轨迹数据挖掘必须附加语义分析才能增强研究的实际指导作用,其中数据预处理、主题类定义、聚类结果分析几个环节值得关注,研究团队应引进具有业务应用领域知识的专家,在上述几个关键环节提供应用知识。本研究会进一步将结果进行可视化,并把数据范围扩大至5年以上,探索大数据下挖掘算法的效率和实用性。

猜你喜欢
一卡通轨迹标签
轨迹
轨迹
无惧标签 Alfa Romeo Giulia 200HP
车迷(2018年11期)2018-08-30 03:20:32
轨迹
现代装饰(2018年5期)2018-05-26 09:09:39
不害怕撕掉标签的人,都活出了真正的漂亮
海峡姐妹(2018年3期)2018-05-09 08:21:02
进化的轨迹(一)——进化,无尽的适应
中国三峡(2017年2期)2017-06-09 08:15:29
基于“一卡通”开发的员工信息识别系统
电子制作(2016年19期)2016-08-24 07:49:44
向心加速度学习一卡通
标签化伤害了谁
向心加速度学习一卡通