钟 磊
(新疆财经大学 信息管理学院,新疆 乌鲁木齐 830012)
根据中国互联网络信息中心统计,截至2019年6月,中国网民数量达8.54亿,使用手机的网民达8.47亿,网民使用手机上网的占99.1%[1]。网络已经成为人们表达个人想法、交流和共享信息的不可或缺的手段。在网络空间中,用户几乎每天不间断地发布海量信息,比如评论帖子、图片、视频等。大量的网络用户由于知识结构、职业特点、兴趣爱好等因素的不同而具有不同的信息偏好。具有共同偏好的用户往往成为一个群体,有相似偏好的网络用户节点在网络空间中表达相似的观点和看法。对网络用户的分类研究可以帮助人们更有效地了解用户的信息需求,研究不同偏好网络用户的行为特征和规律,帮助人们了解网络信息的传播和演化规律,识别网络热点信息等。
周杨等[2]依据微博数、关注数和粉丝数等信息,把用户划分为游离型、信息获取型、活跃型和名人型4种用户类型,构建了微博用户偏好模型,并进行了相关实证研究,提出了舆情用户分类识别和引导的相关建议。曾润喜等[3]采用内容分析法对新浪网某新闻样本的跟帖进行了多维度分析,从网络舆情的时间分布情况、网民的使用媒介、网民的态度和指向类型等行为属性进行了相关实证研究,相关结论开辟了网络舆情传播规律研究的新视角。在网络热点发现和用户分类方面主要研究集中在采用数据挖掘的方法对各种属性进行分析,多采用聚类算法从距离的角度加以解释。马瑞新等[4]使用粒子群算法对网络舆情传播中用户观念进行了聚类分析和仿真。根据观念的聚类结果分析事件的演进过程和识别热点;张思源等[5]通过循环迭代不断移除社会网络中相异性最高的边,从而获得新的社区结构,从社区发现的视角进行了用户群体分类;陈东明等[6]提出了一种密合度指标,在此基础上,设计了一种基于凝聚思想的群体划分算法,通过与其他社区发现算法的对比,获得了较好的划分效果和较低的时间复杂度。
本文采用一种基于标注词向量的用户聚类方法,该方法使用用户标注词组成的向量之间的余弦相似度来度量用户之间的相似度,在此基础上使用K-mean聚类得到用户关于特定信息倾向的聚类,较之传统聚类方法其结果更易解释且准确度较高。
标注词能够反映网络舆情用户对特定信息资源的偏好,首先计算用户所有标注词的tf-idf值。Tf值代表词频,其计算如式(1)所示,其中分子代表一个词在一个文本中出现的频数,分母代表总词数,用来代表该词的重要程度。
(1)
idf代表逆向文档频率,其计算如式(2)所示,其中分子代表某个语料库中全部文本的个数,分母代表某个词在所有文本中的不重复次数,对商取对数即得到idf值。
(2)
将tf值与idf值相乘即得到tf-idf值,如式(3)所示:
tfidfi,j=tfi,j×idfi,j
(3)
计算出tfidf值后,生成舆情网络用户特征向量表示为:tfidfVi=(
然后按照式(4)和式(5)计算用户的相似度。其中tfidfV1代表网络用户节点V1的标注词特征向量,tfidfV2代表网络用户节点V2的标注词特征向量。通过计算两个用户标注词向量的余弦值来代表用户节点间的相似度ss。
(4)
ss(V1,V2)=cos(ifidfv1,tfidfv2)
(5)
舆情文本中的词汇可能较多,可以取一个舆情文本中词频较大的前n个词组成特征向量,从而使特征向量的维数降低,方便处理,使用K-means聚类方法完成用户划分工作。
从某网站社区论坛中随机选取100名用户,获取标注词396个,按前述的过程进行标注词向量的生成,然后用K-means方法进行聚类,聚类结果如图1所示。从图中可以看出样本数据被聚成了4类,聚类结果较均匀。按照谱聚类生成的聚类结果对用户进行分析。
用户使用较多的“杂谈”“见闻”“意见”“呼吁”4个标注词进行分析:第一类用户为兴趣广泛型用户,对每一类主题都会发出自己的声音,各类标注词均使用较多。第二类用户兴趣主要集中在社会见闻和杂谈感受方面,喜欢对社会生活进行自己的思考和评述,所以,“见闻”和“杂谈”标注词使用较多。第三类用户显然在论坛中扮演“评论者”或“倡导者”的角色,喜欢提出自己对事物的意见和看法,所以,“意见”和“呼吁”标签使用较多。第四类用户属于“一般浏览者”,其特点是发帖数量少而且很少进行文档标注。分析结果如表1所示。
本文提出了一种基于标注词的网络舆情用户聚类方法,并对网络舆情用户样本进行了聚类实验,聚类效果较好。在一定程度上丰富了网络舆情用户分类的研究视角,下一步可以在此基础上进行舆情热点发现、舆情发展趋势分析和预警等方面的研究工作。