张婉君
摘 要 对新媒体用户现状进行调研,通过问卷调查的方式获取新媒体用户使用行为数据和基本数据,完成了基于自组织特征映射神经网络的新媒体用户行为模式分析,基于所发现的用户兴趣偏好,可以为新媒体用户提供更为有效的个性化服务。
关键词 新媒体;用户行为;聚类分析;自组织特征映射网络
中图分类号 G2 文献标识码 A 文章编号 2096-0360(2016)19-0030-03
1 研究背景
随着新媒体技术的快速发展,以互联网、移动多媒体网络为载体的新媒体得以广泛应用。新媒体具有形式丰富、互动性强等特点,其用户规模正在迅速扩大[1]。各类新媒体都具有其独特的技术和传播特点,因而新媒体的用户类型和结构也不相同,不同年龄、不同性别、不同教育程度的用户可能对同一媒体的认知、操作等都不相同。为使新媒体更好地服务于用户,需要了解用户使用新媒体的规律性特点。
2 自组织特征映射神经网络
自组织特征映射神经网络由输入层和竞争层组成。输入层是一维的神经元,输入层神经元数与样本维数相等[2]。竞争层为输出层,神经元个数是变量,需要在建立网络时给出,神经元的排列呈一维线阵、二维平面和三维栅格阵等多种形式。输出层按二维平面组织是自组织特征映射神经网络最典型的组织方式[3]。
3 新媒体用户行为模式分析
对新媒体用户现状进行调研,通过问卷调查的方式调研用户对新媒体的接触情况,对调研阶段采集到的新媒体使用行为数据进行数据选取和预处理,得到适合分析的目标数据集。应用自组织特征映射算法对新媒体用户行为模式进行分析。
3.1 数据采集
通过问卷调查的形式搜集用户对博客、网络视频、论坛、即时通讯工具、SNS社区和网络游戏的接触及使用情况。调查问卷包括两部分,即用户的新媒体使用行为调查和用户基本信息调查。在用户新媒体使用行为调查部分,针对每种新媒体的特点对用户的使用方式进行调研,如调查用户在博客上发帖和阅读别人博客的频率;收看网络视频的频率和上传视频的情况;在论坛上发表新帖的频率;使用即时通讯工具的频率;登录SNS社区的类型及频率;玩网络游戏的频率等。用户基本信息的采集包括用户的年龄、性别、教育程度等。问卷调查选取北京地区20至49岁的490名用户为被调查者,经统计被调查者性别、年龄、教育程度分布均匀。
3.2 数据预处理
问卷调查采集到的原始数据无法直接进行数据挖掘,需要对数据进行预处理,使后面的数据挖掘过程有较高质量的输入数据,最终得到准确的挖掘结果。数据预处理的重点是将问卷调查采集到的数据处理成适合用户行为模式分析的输入数据。
如果被调查者选择“从不上网”,则该被调查者对互联网没有接触行为,该用户数据视为无效数据将其删除,共统计出该类数据46个。原始数据以天、周、月为单位对被调查者使用新媒体的频率进行记录,预处理时统一处理为以月为单位统计的频次,涉及“是”“否”选项时分别以“1”和“0”表示。预处理后每位被调查者网络新媒体接触情况部分的原始数据被处理为13个属性,分别为:
A更新博客的频率(取值0、1、2、4、12、30、60);B阅读别人博客的频率(取值0、1、2、4、12、30、60);C收看网络视频的频率(取值0、2、6、15、30);D是否上传网络视频(取值0、1);E常使用的论坛个数(取值0、1、3、5);F论坛上发布新帖的频率(取值0、1、2、4、12、30、60);G使用即时通讯工具的频率(取值0、2、6、15、30);H玩网络游戏的频率(取值0、2、6、15、30);I登录门户网站的频率(取值0、2、6、15);J登录即时通讯软件社区的频率(取值0、2、6、15);K登录电子商务网站的频率(取值0、2、6、15);L登录通信运营商社区的频率(取值0、2、6、15);M登录独立SNS社区的频率(取值0、2、
6、15)。
统计13个属性取值全为0的被调查者,则说明该被调查者虽然有上网行为,但是对博客、网络视频、论坛、即时通讯工具、SNS社区和网络游戏没有使用行为,该数据也为无效数据需要删除,共统计出该类数据22个。采集到的原始数据记录共有490个,删除无效数据后得到有效数据422个。
3.3 数据测试
由于对新媒体用户媒体使用行为数据所进行的聚类分析并不存在先验知识,是在完全未知的状态下进行的预测性挖掘,所以需要通过大量实验来确定竞争层的神经元个数及相关参数。对UCI机器学习数据库中的Iris和Wine两个典型数据集进行测试,得到排序阶段学习率选取0.9且调整阶段学习率选取0.09时,能得到较好的聚类效果。当竞争层设置为16个输出神经元时,网络在不断增加训练步数的情况下能够达到稳定状态。创建一个采用4×4阵列的六角层拓扑结构的自组织特征映射网络,设置排序阶段的学习率初始值为0.9,调整阶段的学习率为0.09,调整阶段邻域半径为1.0。在Pentium(R) Dual-Core 2.00GHz,内存2G的PC机上,对新媒体用户使用行为数据进行训练。
该网络训练步数为19 500次,总耗时2小时42分钟,算法将422个数据聚合成16类,同一类别数据激发相同输出神经元,以激发的神经元的序号作为其类别值,具体信息如下:第1类数据27个;第2类数据11个;第3类数据23个;第4类数据16个;第5类数据19个;第6类数据31个;第7类数据13个;第8类数据88个;第9类数据9个;第10数据15个;第11类数据20个;第12类数据22个;第13类数据28个;第14类数据13个;第15类数据42个;第16类数据45个。
3.4 结果分析
引入VBA宏程序,结合用户性别、年龄和教育程度三项基本信息对上述聚类结果进行分析,统计出每类用户使用每种新媒体的特点,如表1所示。
4 总结
通过自组织特征映射算法对大量新媒体用户的使用行为数据进行数据挖掘,使具有相似偏好的用户以群的模式聚集起来,而后分析得到不同的用户群偏好,可以使新媒体服务提供商准确预测用户的需求,便于为用户提供更加符合其兴趣偏好的增值业务,更好地满足用户多层次、多样化、个性化、专业化的需求。
参考文献
[1]景东,苏宝华.新媒体定义新论[J].新闻界,2008(3):57-59.
[2]曹志胜,林和平,李迎斌.SOM人工神经网络在客户分类中的应用[J].信息技术,2008(11):85-87.
[3]魏海坤.神经网络结构设计的理论与方法[M].北京:国防工业出版社,2005:80-81.