丁青 蔡文杰 吉翔
摘 要: 以南京农业大学工学院应用为例,利用数据挖掘工具实现对计费网关日志数据的采集,并对用户群体行为即不同时间段的在线账号数、用户使用时长与流量、用户访问目的地址三个方面进行研究。对如何改进高校网络舆情监控建设,培育健康和谐的网络舆论生态给出了若干对策与建议。
关键词: 数据挖掘; 计费网关; 舆情监控; 行为分析
中图分类号:G41 文献标志码:A 文章编号:1006-8228(2013)08-11-03
0 引言
舆情是“舆论情况”的简称,是指在一定的社会空间内,围绕中介性社会事件的发生、发展和变化,民众对社会管理者产生和持有的社会政治态度[1]。网络舆情是社会舆情的直接反映。高校的网络舆情更有其特殊性,会在短时间内迅速影响到大学生的态度和观点,甚至影响到他们在现实中的行为,因此,需要及时采取措施,实施舆情监控,以控制和引导事态发展。本文从校园网计费网关系统日志分析入手,利用专业的数据挖掘软件工具对校园网用户行为日志进行各个角度的详细分析,再从多个方面对高校网络舆情监控给出对策和建议,以使管理者能够牢牢把握舆论控制权,引导网络舆情,维护网络信息安全。
1 研究背景与目的
网络舆情研究,需要对高校学生用户行为进行深入挖掘和分析其行为产生的原因[2], 及时发现他们对学校和社会的意见、情绪和态度,进而使管理者及时地改进和创新各类管理办法,形成网上、网下共同教育的和谐局面。因此,管理者应该通过对大学生网络舆情及时有效的管理,来控制不良网络舆情,维护校园稳定。本文力图以最新时间点,选择相关的日志数据,对用户行为的特征项进行总结分析,以实证研究的方法尝试网络舆情监控新的探索。
2 研究方法
2.1 研究思路
行为分析研究方法主要有统计、聚类。统计方法多用于在模式己知的情况下快速的得出结果,而在模式未知的情况下,一般都使用聚类的方法[3]。此次实证研究的数据取自校园网计费网关,在真实网络环境下,可以获得的原始数据量通常都比较大,数据的复杂程度较高,以工学院为例,每天产生的原始记录高达6GB的数据量。如何使用高效工具,做到对大量的数据进行提取、过滤、转换、集成,以便从中发现知识,是对校园网用户行为分析的关键所在。通过对底层数据的考察笔者发现,用户行为的各项参数之间存在着关联性,例如,在线账号数、在线时间、使用网络的时长、网络流量、目的地址、网络服务类型等之间都是有联系的。在综合分析结果的时候,我们把各参数中用户模式己知的项进行统计分析。
2.2 分析流程和使用工具
校园网用户行为分析流程可以分为以下几个部分。
⑴ 数据抽取部分,主要是采集工学院城市热点计费系统所保留的各项日志数据,根据分析的重点对各字段进行抽取,从源数据库读取所需要的数据部分。
⑵ 数据转换和加载部分,按照最终形成的数据结构,对源系统每个记录进行转换,转换以后就可写入数据仓库,可采用SQL语句或批量加载,这一部分是为下一步统计准备有用的数据。
⑶ 统计分析部分,这是整个行为分析的关键部分。通过从不同角度对用户行为进行统计和分析,帮助管理者及时掌握真实校园网用户需求的变化,从中发现一些有趣的特点和规律,实现对现有校园网用户舆情全面的把握。
⑷ 工具采用了SQLSever 2008的SSIS工具和EXCEL2010。
3 日志结果与分析
本文的分析工作主要针对用户群体行为的三个方面进行研究,即不同时间段的在线账号数分析、用户使用时长和流量的分析、用户访问目的地址分析。
3.1 分时间段的在线人数分析
分析各个时段网络的用户在线账号数,可以从宏观上了解大学生的网络使用情况。根据最新时间点,我们提取了2012年11月11日到11月17日一周的用户数据,一共48510条,将一周的分析结果生成线状图,如图2所示。
图2从纵向和横向的角度清晰地反映了校园网用户在线账号数一天中的变化趋势,以及一周内在线账户的变化趋势。
从一天中的变化趋势来看,第一个高峰在12点到13点中出现,这个时间学生教师上课完毕,中午正好是午休期间,用户上网人数最多。一天中的第二个高峰在16点到达,因为16点一般是学生下午两节课结束后回到宿舍的时间,此时在线人数较多。一天中第三个小高峰在21点出现,说明学生大多数下晚自习的时间就在21点左右,回到宿舍他们又开始登录网络,从图上来看,基本上到了23点,由于学生公寓停止供电,在线账号数有一个明显的回落。
同时从一周内的变化可看出,周六在线人数最多,而周日在线人数最少,其余一周的数据则与日剧增,也说明周六学校在线人数为最高。对在线人数的分析,主要是根据各个时间段在线账号数的不同,可以对网络舆情的监控,网络的策略变化给出一个合理的参考时段。
3.2 用户在线时长以及使用流量的分析
利用对比分析法,我们将校园网用户分成不同类别的组,分别研究他们的上网行为差异,抽取了一个月的用户日志数据并利用SSIS工具进行聚类,形成下面的用户行为模式。
⑴ 电子阅览室用户代表了机房用户,基本上是以学生为主,由于开放时间所限,这类用户使用时长不会超过12个小时,月流量在30G左右。
⑵ 家属区用户使用时长在12个小时以内的有132人,占到91.7%;而12个小时以上的有12人,占8.3%。大部分人月流量在100G以内。
⑶ 办公区用户使用时长在12小时以内的占到了85.9%。但是这类用户超过12小时的人数达41人,占14.1%,并且在23-24小时还有一个小的跃增,可以判断这类用户有经常熬夜或者不关机的习惯,同时月流量也在500G以内,针对这类用户管理者应该予以提醒,使其不滥用各项资源,节约校园网带宽。
对于用户在线时长和流量分析,目的是了解用户占用网络带宽的情况,对于在线时间过长,占用带宽过多的用户,管理者应该予以重点监控,并采取措施进行限制。
3.3 学生用户访问目的地址分析
首先提取学生区访问的日志文件,对其每一行的访问目的地址记录进行统计和分析,使用split函数以Tab为分隔符将行记录划分为各个字段,从而获得URL字段;然后,使用spilt函数以反斜杠“\”为分隔符将URL字段进行划分;最后利用Perl的哈希结构进行分类统计。当日志文件所有的记录均按照上述过程处理之后,就可以输出各个网站访问的统计结果。通过该算法实现了用户访问10000次以上的网站都被记录下来,统计并生成图表,如图3所示。
在舆论监督中要特别引起注意是对SNS网站、BBS网站和门户网站进行监控,这几类网站在工学院中访问次数较高的分别是人人网,西祠网和新浪网,可见随着高校网络的普及,尤其是博客,微博,学生个人网站的出现,在网络上表达意见,态度,情绪和信念等,日益成为大学生活的重要内容,对这类网站的监控也必须予以加强。
4 网络舆情建设对策和建议
4.1 出口部署网络舆情监测系统
目前不少高校都在校园网出口处部署了舆情监测系统,这类系统一般都具有比较强大的过滤功能,比如基于内容的过滤手段,包括:过滤用户通过搜索引擎搜索的指定关键字、过滤包含指定关键字的网页、过滤含指定关键字的URL地址等,作为管理者应将譬如包含色情、反动、暴力或非法的网站过滤掉,屏蔽不利于大学生成才的信息,提高网络出口的安全性。
但是,从舆情监测软件的调研情况看,大部分软件只有网络爬虫模块起主要作用,虽然在技术上部分实现了基于web页面异构数据的信息抽取与集成,然而他们对所采集到的信息的定性定量分析并不到位,还需要对所获得的日志信息进行科学筛选、智能分析与研判,同时管理人员要在某些敏感时间段密切跟踪学校某区域的网上舆情动态,及时搜集具有前瞻性的信息,一旦出现校园网络舆情危机苗头,可在第一时间了解网络舆情内容,分析网络舆情的性质,判断网络舆情的影响,科学应对[4]。
4.2 全面实现实名用户认证
信息化的普及,使得目前很多高校都提供无线和有线接入方式,而无线接入的方式会导致在问题用户定位上存在时间和地点的不确定性;同时,高校越来越开放,很多临时来高校的人员和临时活动要求连入校园网络,这就要求监管部门制定严格的准入机制。目前在高校校园网中全面实现实名用户认证是必要而紧迫的。以工学院为例,上网的账号与学生的学号或教工的工号进行捆绑,除教工生活区、服务器和特殊设备采用多元组绑定技术直连校园网外,其他所有用户要进入校园网均须进行身份认证,临时账号必须由各负责部门提出申请并定位到具体地点,从而切断非法用户联入校园网。
4.3 形成校园独有的网络舆情载体
高校网络舆情建设要重视对校园门户网站、校园新闻网和各类网络文化的网站的投入,特别是对高校网络舆情的重要载体BBS的建设[5]。通过多种手段凸显引导信息,把重点新闻和重要观点设置在论坛显眼与强势位置,在处理突发事件时决不能失声,要形成高校舆论引导的强大声势,抢占网络舆论话语的主导权。
在构建高校BBS论坛上的热点话题时,高校管理部门要把握高校网络舆情话语的主动权;强化对突发事件重要信息的解读,挖掘新闻深度,使大学生对突发事件的认知建立在全面理性的基础上,切忌千篇一律,要认真听取学校不同舆论的声音;充分发挥舆论领袖的引领作用,转移高校网络舆情的焦点,消除不良舆情信息的误导,逐步引导大学生朝着预期设定的方向发展,从而正确引导高校网络舆论走向。
4.4 加强网络舆情组织保障
宣传部或网络管理部门可设立日常办公机构,配备专职人员,开展日常工作,同时加强建立高水平的辅导员队伍。舆情引导的效果和成败与引导主体密切相关,辅导员是与大学生联系最为紧密的引导主体,其舆情引导的效果决定了高校舆情引导的成败[6]。同时要加强工作制度建设,建立起新闻发言人,日常值班,工作研讨等制度,建立行之有效的校园突发事件预防办法和处置方案,并将网络舆情作为其中重点内容。
5 结束语
校园网用户行为分析是改善校园网运行质量,提高高校网络舆情管理效率的一个有效途径,它能为网络的管理者提供决策的必要依据。随着网络技术的普遍发展,高校舆情监控工作将大有作为,另外随着信息化的深入,对无线方式下的高校用户行为分析以及舆情管理,将是高校网络舆情监控的重要发展方向。
参考文献:
[1] 王来华.舆情研究概念:理论方法和现实热点[M].天津社会科学院出版社,2003.
[2] 丁青,周留根,朱爱兵.基于K-means聚类算法的校园网用户行为分析研究[J].微计算机应用,2010.31(6):74-80
[3] 梁循.数据挖掘算法与应用[M].北京大学出版社,2006.
[4] 陈少平.高校网络舆情危机的研究及处置对策[J].中国青年研究,2012.3:5-9
[5] 曹银忠,许方圆.高校网络舆情引导研究[J].毛泽东思想研究,2012.29(6):146-150
[6] 李宗琦,徐顺锋.高校辅导员舆情引导工作实证研究——以西安市部分高校为例[J].西安电子科技大学学报(社会科学版),2012.22(5):121-124