胡海燕
摘 要 研究提出一种改进的校园热点话题发现方法。方法通过ICTCLAS分词系统对资讯服务平台采集的校园新闻进行分词和关键词提取等预处理,构建基于向量空间模型研究的文本知识表示模型,最后利用统计新闻标题词频确定k个初始聚类中心并改进K-Means算法,获得校园热点话题。
关键词 智慧校园 热点话题
中图分类号:G647;TP311 文献标识码:A
1智慧校园
所谓“智慧校园”是指一种以面向师生个性化服务为理念,通过利用云计算、虚拟化、物联网、移动互联、社会网络等新技术来改变师生和校园资源相互交互的方式,能识别学习者个体特征和学习情景,提供无缝互通的网络通信,有效支持教学过程分析、评价和智能决策的开放教育教学环境和便利舒适的生活环境,从而实现全新的智慧化服务和管理的校园模式。
2智慧校园热点话题发现
智慧校园服务平台为广大师生提供教育、管理、娱乐、生活为一体的智慧化服务,极大丰富师生的校园生活。平台可提供服务接口实现与学校各种应用系统的互联和协作,如个人课表、成绩实时推送通知、书刊借阅到期提醒、邮件包裹到达通知等。
对智慧校园热点话题发现模块作了初步的设计,包括分词预处理、新闻文本表示模型以及对K-Means聚类算法的优化改进。
2.1分词预处理
校园热点话题发现模块采用应用广泛的中科院ICTCLAS分词系统,通过一个事先统计给定的停用词表对粗切分词进行过滤,去掉连词、助词、语气词等。
2.2校园新闻知识表示模型
校园热点话题发现模块采用知识表示模型来表示新闻文本,具体的构建步骤为:
(1)输入分词预处理后的文本,作为特征项选择的样本;
(2)利用相关特征选择规则来降低文本知识表示模型的维数;
(3)将经过选择的文本特征项计算权值,得到加权特征向量;
(4)将加权特征向量存入数据库,方便之后的聚类分析。
校园热点话题发现模型充分考虑了校园新闻标题的重要性,而一般的向量空间模型只对新闻报道的正文的特征项进行建模,为了突出校园新闻标题的重要性,校园新闻的知识表示模型可以用PK=(C,id,F1,wf1,F2,wf2,…,Fi.wfi)表示,其中C 表示新闻所属的栏目,id可以唯一区分一篇新闻,字段i的值用Fi表示,而wfi是其对应的的比重,表示对新闻文本的代表价值。
3 校园热点话题发现算法的优化
传统的K-Means算法需要从给定的新闻报道样本集中随机选择k个初始聚类中心,这k个初始聚类中心对聚类的结果影响较大,为了解决此问题,本文采用的方法是首先通過统计新闻标题词频的方法,在K-Means算法聚类之前,从聚类文本中选出比较能够划分主题的 k 个文本,作为算法的初始聚类中心,算法的具体描述为:
(1)首先从样本集中抽取每篇新闻的标题,组成标题集{T1,T2,…,Tn};
(2)对这n个新闻标题分别进行分词,统计新闻标题中出现词的频率;
(3)对标题分词词频经过排序后,选择k 个词频最高的关键词,组成标题特征词集{wt1,wt2,…,wtk};
(4)将原始的新闻样本根据关键词集组成k 个文档集,即Di={wi1,wi2,…,win},其中wij表示包含特征词wij的第j个文本,n为包含特征词wij的文本数量;
(5)通过比较wij与Dij文中剩余文本之间的相似度,得到n个相似度值,并求和;将相似度之和最大的一篇新闻作为对应标题词频wij的代表文本,一共可以得到k 篇代表文本;
(6)给定一个阈值,计算k 篇代表文本两两之间的相似性,当相似性超过这个阈值时就将这两个中心点合并成一个。如果所有文本之间的相似性都低于这个阈值,则直接处理步骤 (9);
(7)从步骤(2)中得到第k+1个特征词,重新处理步骤(4);
(8)最终得到k 篇代表文本;
(9)将这k 篇代表文本作为初始聚类中心,利用K-Means算法进行聚类。
这样选出的文本作为K-Means聚类算法的k个初始中心点,提高了聚类的精确度。
实验表明,智慧校园热点话题发现算法和K-Means 算法在当输入100篇新闻样本时,时间开销远远比 Single-Pass 算法少,运行速度更快。
4总结
通过新闻文本处理、知识表示模型以及文本聚类技术的研究,提出了一种校园热点话题发现方法。首先利用ICTCLAS分词系统将新闻文本进行分词和关键词提取;然后基于向量空间模型研究提出新闻文本的知识表示模型;最后利用统计新闻标题词频确定k个初始聚类中心并改进K-Means算法,获得校园热点话题。
基金项目:吉林省社会科学基金项目 《基于大数据服务平台的创新创业型大学生培养研究》(2016B192)。