高俨 刘亚娟 周玉国 沈梅 常琳
摘 要:校友导师是指邀请优秀校友担任在校学生的培养导师。文章在对校友导师分类的基础上,结合高校人才培养过程中存在的问题,从实践操作的角度,提出校友导师数字标签构建的层次结构,尝试利用LDA模型对校友导师行业类数字标签进行构建,为研究校友导师用户画像提供了一种可实践的方法,促进在校生对校友导师的选择,提高双方匹配程度,探索校友工作,促进高校人才培养。
关键词:校友导师;用户画像;数字标签;LDA模型
中图分类号:TP391 文献标志码:A 文章编号:1673-8454(2021)11-0041-04
校友是高校宝贵的人力资源,校友导师计划是由学校聘请优秀校友担任校外导师,通过项目、讲座、论坛等形式,搭建校友与在校生沟通、交流、学习、指导的平台,激发学生学习热情、规划学业目标、积累创业经验、扩展学业半径的创新创业类活动。校友导师与在校生具有天然的联系,他们具有相似的入学背景,接受过相同的教育资源培养,了解母校的学风、教风和校园文化,具备较高的认同感和相近的价值观。校友离开母校经历社会实践后,对学校在培养人才过程中存在的优势和不足具有更多的感悟,在参与母校人才培养过程中更具有针对性和目标性,担当导师能够大大提升学生创新创业实践的质量。
一、校友导师类别及内涵
在开展校友导师计划的实践中,根据校友导师自身参与学校人才培养方式的特点,可将校友导师分为学业指导类导师、职业咨询类导师和创业指导类导师三类。
1.学业指导类导师
该类导师在校期间,学习成绩优异,社会实践、创新能力、综合素质等方面表现突出,在学术研究上取得显著成绩。开展教学时主要以在校期间的学业、科研、生活和社会实践等内容为主题组织论坛分享,可以用榜样的力量启发在校学生在大学生活中确立发展目标,规划发展道路,形成良好的学风、校风,增强校园的活力,有助于树立良好的社会风尚。
2.职业咨询类导师
该类导师在行业和专业领域内有丰富的工作经验,具有较强的演讲能力、沟通能力与亲合能力,具备弹性时间,能讲授学生关心的行业热点问题。组织教学时主要通过讲座、论坛、会面、电话、邮件及新媒体技术与学生进行深入探讨交流,对学生的咨询能及时给予回复,能根据学生实际情况进行个人成长与发展方面的指导,帮助学生做好成长与发展规划。
3.创业指导类导师
该类导师在专业领域内富有创业经验,能结合自身阅历、专业背景及实际情况,为在校生设立创业实操项目,同时也愿意接受学校对该项目的审核及管理,并与学校保持顺畅沟通。组织教学时主要与在校学生形成传、帮、带、结对子的形式,在创业项目实施过程中,亲自参与指导学生,切实帮助学生激发创业热情、学习创业知识、提升创业能力。
在校生参与到校友导师计划时需对校友导师进行选择,要综合考虑导师类型、行业属性、教学风格、教学计划、自身的时间计划、发展需求等各个维度的信息。因此,一个有效的校友导师身份画像可以让学生在选择校友导师的过程中获得一个较为清晰、完整的导师概念,使其在参与导师项目时更有针对性和有效性,是开展校友导师工作一个有效的技术手段。
二、用户画像构建方法
用户画像也称用户角色,这个概念由交互设计之父Alan Cooper首先提出,作为一种以用户为中心的交互设计工具,其目标是形成一组抽象的、高度精炼的特征标识,进而完成研究对象的深层次刻画。
现有的研究中存在着两类刻画用户画像的方法:一类是对目标对象进行人为抽象,进而形成能代表其典型特征的数字标签体系。其特点是依靠行业内專家,凭借其专业素养,对目标给予直觉评价,形成标签体系。其主观因素影响较大,不同的行业内专家可能会形成不同的标签体系,同时在目标对象发展变化过程中,维护难度较大。另一类是通过收集目标对象相关的信息、行为、观点等数据,经过相关技术形成目标对象的数字特征标签集合,这些基础性工作能根据用户画像表示的用户特征通过可视化数据图表分析用户需求。[1]其特点是直接从相关数据中提取、提炼信息,减少标签体系建立过程中人为主观因素的影响,进而形成统一的、可更新的、维护难度低的标签体系,但存在数据稀疏性和情感分析偏差较大等问题,同时由于标签体系主要依据历史数据形成,因此对于前瞻性的用户变化趋势不能很好刻画。综上,一套较为客观的标签应该是综合以上两类方法的优点、从数据的角度得到明确的体系,同时能结合主观分析,对目标对象的时空动态进行概括性总结。
在实践过程中,用户画像构建方法主要有六种:[2]①基于设计与思维;②基于本体或概念;③基于主题或话题模型(LDA);④基于兴趣或偏好;⑤基于行为或日志;⑥基于多维或融合。其中基于主题或话题模型主要是通过LDA主题模型发现文本信息中隐含的主题或话题, 进而据此刻画出用户,其具有较好的建模能力和较低的运算复杂度,属于一种非监督的机器学习技术。[2]范哲[3]通过访谈法收集用户相关数据,抽取用户行为过程中的阶段性特征构建多种典型的用户画像。徐彬等[4]深入分析了微博用户数据,总结了微博用户标签的特点,对微博用户标签运用主题模型分析计算用户的主题分布,对标签词进行聚类,并最终为用户推荐标签。阮光册[5]针对网络用户评论信息,提出基于LDA主题发现模型对网络评论进行主题发现的研究。通过LDA主题模型将用户评论的内容映射到主题上,实现对用户评论信息主题的发现。傅魁等[6]结合语义分析和概率模型提出了一种基于主题模型的虚拟社区用户建模方法,有效地解决了虚拟社区用户生成内容存在的问题。范宇等[7]将LDA 模型用于专利信息聚类,通过结合使用 OPTICS 算法和 k 近邻准则,大幅度降低专利信息表示的维度,同时能够高效地实现信息自动聚类,从而提高了专利分析的效率。姜晓伟等[8]将主题模型用于微博重要话题发现与排序方法,提出了一种特定产品相关的微博重要话题发现和排序方法,这种方法兼顾话题的影响力、突发性和相关性,关键词之间联系更紧密,语义相关性更强,其表现的话题更凝聚。
三、校友导师标签的构建
1.标签的层次结构
校友导师标签的构建,是信息不断提炼和抽象的过程,应具有以下层级结构。
(1)原始数据层
原始数据是指校友导师在校期间和毕业之后形成的历史数据信息。主要包括学籍信息、在校期间学习成绩和奖励信息、工作简历、工作业绩、历届在校生对校友导师的评价、导师开展工作计划等相关信息。
(2)特征提取层
该层需要应用机器学习、数据挖掘、统计分析等相关技术手段,对原始数据层进行清洗、提炼、抽象,从深层次来体现目标特征信息。比如可以通过TF-IDF、TextRank、LDA等文本挖掘算法,结合K均值、DBSccan等分类聚类算法发现校友导师的聚集特征;通过Apriori、SVD矩阵分解等推荐算法形成与在校生需求匹配度高的校友导师推荐排序列表。
(3)标签表示层
该层通过特征提取层获得的凝练信息,对校友导师相关业务关注点进行标签化展示。该层是整个标签化过程中的重点,因此在标签化的过程中,应充分结合主、客观标签化方法的优点,使标签刻画能准确地概括目标群体信息。标签的最终结果可以让学生根据自身需要迅速获得校友导师关注点,同时也为校友导师提供一种反馈,不断调整自身组织活动或项目的形式与内容。
2.基于LDA模型的校友导师行业标签提取
依据本文的标签构建层次结构,将LDA主题模型应用于校友导师行业类标签提取流程。通過一个高度浓缩的词语让学生了解校友导师行业属性,同时利用该标签进行分类索引,也便于学校对校友导师分组管理。
LDA(Latent Dirichlet Allocation)是一种文本生成模型,其属于一个三层贝叶斯概率模型,构建了词、主题、文档三层结构。[9]首先根据词的层次,采用了词袋模型,将所有文档的词语形成一个词典;其次根据主题的层次,每个主题都有基于词典的词分布,词分布为多项分布,其参数满足Dirichlet分布;最后根据文档的层次,将每篇文档视为由词频组成的向量,并且有各自基于主题的概率分布,该分布是一个多项分布,同时其参数也满足Dirichlet分布。对于一篇文档的某个词,首先从该文档的主题分布中采样一个主题,然后在这个主题对应的词分布中采样一个词,不断重复上面的这个过程,直至遍历文档中的每一个单词。
基于LDA模型对校友导师身份进行数字化标签过程中,首先假设存在K个校友数字标签、M个校友文档,每个校友文档看成由Nm个单词组成的一个向量,所有的单词组成一个大的词库VOC。其次,第m个校友可形成基于数字标签下的概率向量θm
给定校友文档形成的集合,wmn是可以观察到的已知变量,α、β为服从Dirichlet分布的先验参数,Zmn、θm、?覫n是需要通过Gibbs Sampling过程来不断逼近真实值的隐含变量。在采样过程中每次选取一个向量维度,用其他维度的变量值来采样当前选取的向量维度,不断迭代以上过程,直到收敛输出隐含变量。[10]具体过程如下。
首先,对校友导师词库VOC中的每个词分别赋值一个随机的数字化标签K0。
其次,对于可观测变量wmn,统计每个数字化标签k下,当前观测结果wmn=t 的数量以及每个校友文档中出现当前标签k的数量,并且利用其他词语的分布来估计当前观测结果的分布,即p(k|k-i,?覫,θ)。
再次,获得当前观测结果在所有标签下的概率后,为它采样一个新的主题。
最后,循环以上过程,更新下一个词的标签,直到参数?覫、θ收敛到平稳,算法停止。
3.校友导师行业标签提取结果
实验中收集了有效信息共计297条数据。先对文本进行规范性处理,包括分词,记录停用词词库的构建;同时根据分词的结果将所有的校友企业行业信息形成一个词向量空间。计算每个词语的TF-IDF值,在此基础上形成校友行业信息的语料库。最后,对上面形成的语料库进行LDA分析,同时发现,将α、β设置为0.01和0.5时效果最佳,设置形成9个类别校友数字标签的分类结果,迭代次数为1000次,得到校友导师身份标签,如表1所示。
其中,某个行业标签下的关键词分布排序如图2所示。
对于每个校友导师,可获得其在每个标签身份上的分布概率,随机选择4位导师,可得表2所示相应的标签概率分布。
同时可获得相应校友导师在标签上的分布图,如图3所示。
从表1中的词分布中可结合人工经验归纳出各校友导师身份的数字标签,标签1是关于农业种植、养殖类行业导师;标签2是关于工业工程行业类导师;标签3是关于商业服务类导师;标签4是关于医药健康服务类行业导师;标签5是关于生活服务类行业导师;标签6是关于旅游服务类行业导师;标签7是关于教育培训类行业导师;标签8是关于物流物质供销类行业导师;标签9是关于保险类行业导师。
四、结语
学校在人才培养和教学改革发展过程中,校友可以凭借对母校学科设置、师资力量和科研水平的熟悉程度,结合其就业经历、专业素养、创业经验和失败教训,通过担任校友导师参与到职业发展规划、创新创业教育过程中,把学业信息、就业信息、行业信息、科技信息及相关经验传授给在校学生,是新常态下推动高校育人模式转变的有益探索与实践。
校友导师身份标签的构建可以让学生在参与校友导师计划过程中,首先获得对导师清晰完整形象的把握,提升导师计划与学生之间的匹配程度。本文基于校友导师计划提出了校友导师标签构建的层级结构,同时通过利用LDA模型對构建校友导师行业类数字标签进行探索,为提高校友信息的区分度,使用词语的TF-IDF值构建模型。今后,将结合学生对校友导师的评价及情感分析进一步提升校友导师数字标签的准确性和实用性。
参考文献:
[1]黄文彬,徐山川,吴家辉等.移动用户画像构建研究[J].现代情报,2016,36(10):54-61.
[2]高广尚.用户画像构建方法研究综述[J].数据分析与知识发现,2019,3(3):25-35.
[3]范哲.基于用户画像的数字原住民社会化媒体采纳意愿的阶段性分析[J].现代情报, 2017,37(6):99-106.
[4]徐彬,杨丹,张昱等.面向微博用户标签推荐的关系约束主题模型[J].计算机科学与探索, 2014,8(3):288-295.
[5]阮光册.基于LDA的网络评论主题发现研究[J].情报杂志,2014,33(3):161-164.
[6]傅魁,周良俊,王慧敏.基于主题模型的虚拟社区用户建模[J].武汉理工大学学报(信息与管理工程版),2014,36(5):663-667,672.
[7]范宇,符红光,文奕.基于LDA模型的专利信息聚类技术[J].计算机应用, 2013,33(z1):87-89,93.
[8]姜晓伟,王建民,丁贵广.基于主题模型的微博重要话题发现与排序方法[J].计算机研究与发展,2013,50(z1):179-185.
[9]李文波,孙乐,张大鲲.基于Labeled-LDA模型的文本分类新算法[J].计算机学报, 2008(4):620-627.
[10]张明慧,王红玲,周国栋.基于LDA主题特征的自动文摘方法[J].计算机应用与软件, 2011,28(10):20-22,46.
(编辑:王天鹏)