摘 要:针对微博客在信息更新频率、组织结构、用户关联等方面与其他社会化媒体有较大差异,具有惊人的聚合力和渗透力,文章通过研究其特点提出了五维一体的微博舆情监测指标体系(MBPOI),用以衡量和评价微博客中话题/事件的舆情度。同时以A自动化世界活动为例分析,对指标体系和分析挖掘系统进行验证,结果表明该指标体系使用五种统计方式(QI,II,RI,PI,CI),从多维度、多层次量化话题/事件的影响力有较好的效果,为A公司自动化世界活动监控和追踪提供了有效的社会化媒体分析依据。
关键词:微博客;舆情监测指标;中文信息处理;社会化媒体
1 概述
国内已有一些舆情指标体系的研究,这些研究多数建立在舆情分析和网络安全的基础上,国内外已有一些相关的研究工作,如基于网络性能度量指标[1],社会学角度计量社会稳定指标体系[2]等。还有一些系统开发工作,如:中国传媒大学网络舆情研究所的IRI网络舆情指数和Imonitor舆情系统,中科院计算所的网络安全舆情指数和天玑监测系统,TRS公司的网络舆情指标体系和网络舆情监控解决方案以及skeye舆情监控系统。
前人的研究[3]一般针对常规社会化媒体来构建舆情指标体系,然而微博在传播机制、聚合力、影响力等特点与传统社会化媒体有很大的不同,常规的舆情指标体系和监测工具已不完全适用。因此,文章针对微博的特点,提出了专门的微博舆情监测指标体系,基于该体系实现了微博监控与分析系统,并通过“A自动化世界活动”实例分析,验证该指标体系和系统的有效性。
2 微博舆情监测指标体系构建
微博用户及传播的信息具有自由化、隐蔽化、发散化、复杂化等特点,微博舆情指标的选取要有相对稳定性或具有自动更新机制,能够在时间上延续和空间上扩展,从而用于衡量话题/事件的舆情态势进行有效的引导。其定义如下:
定义1:MBPOI={Quantity Index(QI), Intensity Index(II), Relation Index(RI), Polarity Index(PI),Confidence Index(CI)}
其中QI表示量度指标,II表示强度指标, RI表示关联指标,PI表示情感倾向指标,CI信度指标。
图1 微博舆情监控指标体系图
2.1 量度
量度体现了总体演化趋势,事件持续、舆情参与度等宏观方面的度量。
量度将加入分类模型,对话题相关信息更有效的过滤,增加量度的准确度;同时,引入聚类模型,有效的发现领域相关热点话题,提炼关联话题。
2.2 强度
强度体现了舆情热点和行为活跃性分布、涉及话题/事件的重要程度、兴趣热点等方面的度量。
分析的数据来源是将整体数据集中进行过滤、归类获得。强度可以对话题/事件相关博主影响力进行计算,以确定话题意见领袖;同时,话题/事件一般有产生、热议、消减的周期,强度计算将话题周期也纳入计算范围,进行及时预警。
2.3 关联度
关联度体现了波及的传播关联网络、层次维度,涉及话题/事件的覆盖面、影响力等方面的度量。
分析来源于整体数据中抽取的用户粉丝和关注信息。关联度可以在网络图中,增加话题相关博主重要性,关联紧密度的分析,并以节点的大小,弧的粗细来可视化展示。同時,可将话题相关微博在博主中转博的路径进行勾勒,以便捷的进行溯源和追踪。
2.4 情感度
情感度体现了情绪倾向和社会状态,涉及关注、社会心理、和谐等方面的度量。
分析数据来源于话题相关博文和用户发布的博文的评论内容,文章采取基于HowNet1的词粒度语义倾向性分析方法,建立具有强烈褒贬倾向的词典,在设定种子情感词后,使用HowNet计算相似度。根据博文中情感词语与词典中词语的语义倾向相似度来判断博文内容和评论的支持度分布。
2.5 信任度
信任度体现了权威性和可信度,涉及话题/事件的准确、真实、有用性等方面的度量。
信任度的数据来源为话题相关的某一条博文内容发布用户发布站点的相关属性数据。以上属性建立影响力模型,基于模型判断某条博文的可信度。信任度将建立不同细分领域的影响力模型,并结合领域专家知识不断调整模型,以达到对信息可信度的有效判断。
3 微博客实时监控分析系统
在微博舆情指标体系的基础上,文章实现了微博客实时监控分析分布式系统,server负责分配站点、调度URL、抽取与分析任务分配等以实现采集分析系统的负载均衡,client端实现其具体监控与分析功能,图2为系统client的模块设计,由微博用户登陆模块、采集模块、抽取模块、中文信息处理模块、分析模块组成。
文章采集时使用HttpClient2和Heritrix3开源工具,将网页下载的同时以ARC文件形式保存到本地,本地ARC文件作为备份,用于系统评测。信息抽取模块采用xPath定位html网页中所需的内容,对html树进行进行抽取,实现对各个站点以可配置的形式对微博内容定向抽取有价值信息,使用了JS异步加载模式,无法直接获得,文章实现了Json插件用于处理动态页面内容。
分析模块以微博舆情指标体系为理论,在中文信息处理处理模块的基础上进行,中文信息处理模块包括分词、名词短语识别、共指消解、语义相似度计算[9]等,使用哈工大自然语言处理工具进行内容识别与预处理,识别内容将作为指标体系分析五种方法的数据输入,由各分析算法进行处理,具体处理方法在第2节已做详细介绍。
图2 微博客监控分析系统图
4 微博舆情指标体系实例分析
根据用户单位的具体微博活动主题监测的需求,选取A公司自动化活动为主题做实例研究。A公司在新浪设有官方微博,本次实验在微博监测分析指标数据选取时,选取新浪微博数据作为量度、情感度、关联度的分析源,强度的数据源则有主流的11个微博网站构成,网站列表在图5中有所展示。
本次实验收集2011年3月1日至2011年8月2日时间段内11个微博网站的话题相关数据,其中,在新浪微博中A公司自动化相关的微博和A公司自动化世界官方发布的微博数据量,如图3所示。
4.1 量度分析结果
量度分析相关话题发布内容的总量,量度分析结果如图4所示,A公司自动化世界3月入驻的新浪微博,评论数值在3月下旬比转发和微博量高出很多,5月上旬量度达到顶峰,相关的微博和评论出现了井喷的异常现象,随后量度值降低。通过查阅采集数据不难发现这是由于5月10-12日有A公司自动化世界活动,相关博主纷纷发布展会参会心得体验,公司官方博主也加强与粉丝的互动;6月下旬的评论和转发量度升高幅度较大,通过分析发现这段时间A公司自动化世界发布了一些用户感兴趣的工厂照片并发起了一个有奖投票,增加互动获得较多的转发和评论。
该指标为企业微博营销管理措施提供了有效的实时跟踪和效果反馈功能。
图4 A公司自动化世界的量度分析
4.2 强度分析结果
强度分析话题各个微博站点中出现的强度分布,图5为截止到2011年8月2日所有监控站点微博相关信息量。统计图表明A公司自动化世界活动话题强度分布,有效话题统计依次为新浪微博、腾讯微博和搜狐微博,百度i贴吧虽然信息量较多,但以水贴为主,去噪后有效信息较少。同时部分站点话题强度基本为零,如同学网、做啥、嘀咕等。
该分析结果可以为A公司自动化世界活动下一步官方参与互动,设置官方微博的站点提供有效的支持。
4.3 情感度分析结果
情感度分析话题中的大众博文中体现的总体舆情倾向,图6可看出5月份自动化世界活动期间中立情感度值更高,用户对A公司自动化活动多是客观的描述,包括各界媒体的报道、活动的通知以及活动情况的互相转述等信息。其次用户是正面评价居多反映出此次活动的新引力,以及对A公司自动化世界的认可,如“大爱自动化世界”,“太专业了,希望有一套”等信息。同时包括极少量的负面信息,如“为什么没有我,恨死了”等信息。
该分析结果可以直接为自动化世界提供清晰的整理出意见和建议,并及时解决负面话题进行危机公关。
图6 情感倾向度分析
4.4 关联度分析结果
关联度分析构建出话题相关博主的社会化网络关联,分析其核心任务和核心群体。分析结果可以清晰的分析出话题相关的意见领袖和核心群体,便于公司自动化世界活动对此类用户增加公关互动,使得营销策略得意迅速推广。
5 结束语
文章提出的微博舆情监测指标体系,与其他传统舆情指标体系相比,微博舆情监测指标体系融合了多层面和多粒度指标,各项熵值指标相互融合又相对独立,共同标识事件、活动、话题的微博舆情态势。同时,在该体系的基础上实现微博监控分析系统,系统智能的采集微博數据并自动分析统计指标结果。最后以A公司自动化世界为实例初步验证该舆情指标体系的有效性和可行性。
下一步,指标体系将融合社会学、传播学的领域专家构建模型支持,精细化舆情指标的计算方法,并融入微博监测与分析系统,更好的为个人、企业、国家提供全方位把握微博舆情的分析指标与系统支持。
参考文献
[1]Salim Hariri,Qu Guangzhi,Tushneem Dharmagadda,et al.Impact analysis offaults and attacks in large-scale networks.IEEE Security&Privacy.2003,1(5):49-54.
[2]阎耀军.社会稳定的计量及预警预控管理系统的构建[J].社会学研究,2004(3):54-60.
[3]Kanagasabi Rajaraman, Ah-Hwee Tan. Topic Detection, Tracking, and Trend Analysis Using Self-Organizing Neural Networks. Lecture Notes in Computer Science, 2001(LANI2035):102-107.
[4]http://rp-www.cs.usyd.edu.au/~aquigley/3dfade.
[5]S.A. Golder, D. Willkinson, B.A. Huberman. Rhythms of Social Interaction: Messaging within a Massive Online Network[J].3rd International Conference on Communities and Technologies, 2010,10(6):583~593.
[6]李耘涛,刘妍,刘毅.网络舆情灰色预警评价研究[J].情报杂志,2011,30(4):24-27.
作者简介:白传栋(1975,12-),男,汉族,山东省郓城县,讲师,硕士,研究方向:机电一体化。