文 | 林琳
社会媒体(Social Media)是一种在线交互媒体,具有广泛的用户参与性,允许用户在线交流、协作、发布、分享、传播信息,组成虚拟网络社区。近年来,社会媒体呈现多样化的发展趋势,从早期的论坛、博客、播客、维基到风头正劲的社交网站、微博,正在成为网络技术发展的热点和趋势,并深刻影响着人类社会,同时也给世界各国的社会秩序带来巨大冲击。因此,基于社会媒体的虚拟社会管理是一个新时代互联网大发展环境下政府面临的突出挑战。
社会媒体对世界的冲击史无前例,从2009年的伊朗大选,到如今中东多国的政治动荡,美国一次又一次看到了通过互联网插手他国政局、改变他国政治走向的可能性。Facebook、Twitter等社会媒体为社会人群自发性群体聚集、活动提供了社区交流、信息传播的网络平台,加速、扩大了这场中东地区的社会运动。
另一方面,从社会媒体对传统企业的影响看,计算机网络技术的发展有着很强的周期性。自1990年至2000年,PC机的普及,引发了传统企业的自动化;自2000年至2010年,互联网技术的普及,引发了传统企业的网络化;可以期待自2011至2020年,社会媒体技术的普及,将引发传统企业的社交化。
从我国目前的实际情况看,我国已经成为全球最大的网络人群(互联网人群超过4.85亿、手机网络用户3.18亿),各种社会媒体形成的虚拟社区,组成了巨大的虚拟社会,在众多的社会媒体中,微博媒体是一种新型的信息发布、传播媒体,近年来在网络人群中迅速普及,目前Twitter、新浪微博和腾讯微博的用户数分别突破了2亿、1.4亿和2亿。微博媒体仿造了人类的社会结构,将用户群体组织成社会网络,满足了用户信息的个性化发布、社会性传播、社交等需求。虚拟社会的社会网络和现实社会的社会网络相互作用,加速和扩大了虚拟的社会活动和现实的社会活动的相互影响。
相对于社会媒体数量众多,网络信息量大,信息来源复杂、更新快速、传播广泛的特点,目前社会媒体的虚拟社会管理技术落后。特别在应对网络突发事件时,经常因为不能全面和及时掌握社会媒体的观点表达而错失处理的时机。因此,如何利用现代科技手段提升互联网监管效率,已成为互联网各内容监管部门面临的突出问题。因此,在社会媒体当家,民意表达高涨的今天,基于社会媒体的虚拟社会管理成为必须研究的课题。
各种各样的社会媒体社区,组成了虚拟的社会网络,形成了虚拟社会。虚拟社会管理的关键技术及其组成社会管理平台的管理需要通过相应的信息技术加以解决。
虚拟社会管理首先需要解决虚拟社会的信息获取和分析,社会媒体与传统的Web1.0媒体主要区别在于:①媒体信息的来源不同。Web1.0媒体信息是由编辑人员发布;而社会媒体凝聚大众的群体智慧。②媒体信息的类型不同。Web1.0媒体信息主要是资源(网页);而社会媒体信息包括两种实体(用户、资源)。③媒体信息的网络结构不同。Web1.0媒体的网络结构是由大量的网页及其链接构成的超链结构;而社会媒体的网络结构更复杂,是由大量的用户、资源及其关系(用户之间、资源之间、用户与资源之间)构成的社会网络。④媒体挖掘的关键技术不同。Web1.0时期,Google挖掘了Web1.0媒体的网络结构,以面向大规模网页的超链分析技术引领了Web1.0信息服务的技术潮流;而社会媒体挖掘的关键技术是面向大规模用户、资源组成的社会网络的分析技术。
正是由于上述虚拟社会媒体的特点,使得虚拟社会信息分析技术包括以下几个方面:
信息获取、模型表示:社会媒体的两种实体(用户、资源)的模型表示分为几个步骤:①分别获取两种实体的相关信息;②从原始的实体信息中提取特征;③选择合适的模型表示实体,建立用户模型、资源模型。根据指定的监管主题,发现主题相关的敏感人物节点。
关系分析、网络生成:在实体表示的基础上,抽取实体的关系数据,计算节点之间的关系强度、相似度。将实体视为节点,实体之间的关系视为边,实体及其相互关系就生成了社会网络。
社会网络挖掘:计算实体之间的相似性,挖掘社会网络的团体(兴趣相似的人群、主题相似的资源),发现与敏感节点相关的人群、团体,用于信息的聚合、推荐;计算实体的权威性,用于信息的检索、推荐;信息扩散技术研究。
社会话题发现、跟踪与预测是在自动分类和褒贬分析基础上,建立多个话题刻画指标,根据刻画指标和话题分类的结果评估和分析当前的舆情态势,并预测舆情走势。
在日常监测中,舆情主题和舆情事件需借助科学完备的指标体系来描述刻画,在确定诸多舆情信息评价指标及其含义、不同指标权重后,才能系统化的构建舆情信息评价指标体系和评价模型,进而针对特定舆情计算指标值,得出量化评价结果。舆情评价是对舆情信息的危害性、关注度、扩散度等进行综合判断的过程。按对象可分为两种,一种是针对特定舆情(舆情主题、舆情事件)进行评价,另一种是针对整个网络舆情进行评价。
舆情预测等级划分为红、橙、黄、蓝四级,从舆情敏感度和舆情热度两方面来衡量,每个方面都通过一系列指标来刻画,采集并计算各指标值,最后加权处理后形成舆情指数,依据其取值分别对应四个预警级别。目的是改变被动处置的局面,形成积极主动应对的机制。
⑴特定话题发现、跟踪与预测
特定话题包括日常监测的舆情主题和实时跟踪的舆情事件两种情形,评价方法就是对监测跟踪、分析研判阶段获得的各统计指标进行加权处理,计算特定舆情综合指数。为保证所有二级指标具有相同的统计特性,将定量指标转换处理,按指标的阀值区间进行评分,最终转换成离散的5分制序列型数据。所有二级指标的经验值或阀值都是按舆情主题(三级分类项目)和舆情事件单独构建。即不同的舆情主题和舆情事件,同一定量指标的阀值各不相同,同一定性指标的评估值也各不相同,阀值和评估值都通过德尔菲法(即专家经验法)确定。
特定舆情事件评价指标体系是建立在事件的深度分析的基础之上,将事件的分析结果加入到整体舆情评价指标体系当中。
首先需要对事件进行深度分析,已对指定关键词、特定事件、特定文章完成跟踪监测和评价打分的任务。并设置了轻微、较小、中等、严重、危险等五个级别,每个级别定义重要程度,再乘以各自舆情影响值,得到该事件的舆情指数。所有关键词、事件、文章的舆情指数相加得到整个事件级舆情指数。再根据舆情预警等级划分标准,判定当前事件级舆情预警级别。
用户可通过事件级舆情预警级别判断当前是否有舆情事件发生,舆情事件密度、影响力、网民反应程度、网络舆论噪声程度等情况。
特定事件舆情指数分为特定事件综合舆情和特定文章综合舆情:
①特定事件综合舆情
特定事件综合舆情根据跟踪监测模块当中事件跟踪监测的数据进行计算,首先需要对每一事件设定权重,再根据每一事件的权重和舆情指数(每一事件的舆情指数在事件跟踪监测模块中设定),根据一定算法,计算出特定事件舆情指数。
②特定文章综合舆情
特定文章综合舆情根据跟踪监测模块当中文章跟踪监测的数据进行计算,首先需要对每一文章设定权重,再根据每一文章的权重和舆情指数(每一文章的舆情指数在文章跟踪监测模块中设定),根据一定算法,计算出特定文章舆情指数。
通过上述手段,可以描述事件在社会网络上的传播速度,定位敏感话题、寻找事件信息源头、刻画传播轨迹(信息的传播树构成的森林)、传播范围以及跟踪、预测该事件传播的社会影响。
⑵全网社会媒体舆情预警预测
全网级社会媒体舆情预警预测指数是对整体舆情评价指标体系的具体实现,分为监测范围内和元搜索监测两个方面,全网舆情评价指标体系通过对监测范围内和元搜素的监测结果进行分析、分类,将涉及敏感信息的数据专门归类整理,并根据其涉及的信息的敏感程度设定权值,最终通过统计敏感信息的数量以及其敏感程度,从宏观上反映当前舆情整体状况。
每天的社会媒体活跃程度不同,根据监测到的社会媒体活跃指标计算当天各分类的文章数,进而计算各分类得分,最终根据此分数得到今日监测范围内舆情指数和今日舆情等级。
根据跟踪监测模块当中全网跟踪监测的结果,计算得到元搜索舆情指数以及信息增量变化率。
⑶总体舆情指数
总体舆情指数反映了当前互联网舆情的总体状况,是舆情监测的最终成果之一。用户可根据互联网舆情的总体状况,站在全局的高度把握互联网舆情走势,监测互联网舆情状态,进而为领导决策、工作部署提供可靠的依据。
总体舆情指数由监测范围内舆情指数、元搜索舆情指数、特定事件综合舆情指数、特定文章综合舆情指数4个方面决定。生成总体舆情指数在逻辑上有以下步骤:
第一、获取范围内舆情指数、元搜索舆情指数、特定事件综合舆情指数、特定文章综合舆情指数的监测结果。
第二、将监测结果乘以各部分所占权重值,得到总体舆情指数。
第三、根据舆情预警阀值,计算总体舆情预警级别。
总体舆情指数为用户从宏观了解总体舆情状况提供参考,实现像天气预报一样预报网络舆情的效果,通过查看明细,可以直观、快速的发现当前互联网舆情的构成,可以实时掌握互联网舆情的整体状况。
总体舆情指数由以上步骤计算得到总体舆情指数值,同时设定舆情预警阀值,在不同阀值内预警级别不同。其中,蓝色表示网络舆情总体平静,没有特殊事件发生,没有舆情热点;黄色表示网络舆情总体略有起伏,局部有舆情热点,或有小规模舆情事件发生;橙色表示网络舆情总体较为严重,有大规模舆情事件发生,有大量舆情热点;红色表示网络舆情总体非常危险,有大规模群体性事件发生,有重大舆情热点,必须予以干预。
目前,国内外对于文本倾向性的研究大体上分为两大类:基于语义的以及基于机器学习的文本倾向性研究。
基于语义的文本倾向性研究方法主要有两种。第一种是先对分析文本中的形容词或能够体现主观色彩的短语进行抽取,然后对抽取出来的形容词或短语逐一进行倾向性判断并赋予一个倾向值,最后将上述所有倾向值累加起来得到文章的总体文本倾向性。第二种研究方法是预先建立一个倾向性语义模式库,有时还会附带一个倾向性字典,然后将待评估文档参照语义模式库做模式匹配,最后累加所有匹配模式对应的倾向性值从而得到整个文档的倾向性。
另一类文本倾向性研究方法是基于机器学习的传统文本分类技术。其思想就是先通过人工标注一些文档的倾向性,并将这些文档作为训练集,再通过机器学习的方法构造一个褒贬两类分类器。最后使用构造好的褒贬两类分类器对待评估文档进行分类,即识别出该文档的倾向性。
倾向性分析主要采用模式自动识别的方法,首先对未标注语料进行模式训练,获取模式模板;然后根据模式模板进行倾向性分析。
模式是待抽取信息的一种抽象表达方式,它体现了特定信息的组成元素,这些元素也是人们对信息的关注焦点。采用词项作为模式的表达形式,模式的表示方式是一个N元组序列组合,其中包括如下几类,主题类、情感词类、否定词类、转折词类、程度副词类、上下文辅助类。
对同时包含主题词和情感词的句子获取其实例模式,并考虑特殊主题词的处理。对实例模式进行统计,统计实例模式的出现次数,将出现次数较高的实例模式进行人工分析,从而得到泛化模式。根据泛化模式的句型特征,以及主题词极性,判断泛化模式的极性,从而构成语义模式列表。
通过倾向性分析技术,将网民观点归纳,根据网民观点归纳的结果,对以事件为中心的内容进行友好度归纳,形成正负面判定结论。对于计算机无法判别的意识形态内容,再进行汇总、分析和反馈。
目前我国对社会媒体的研究刚刚起步,缺乏对虚拟社会管理的经验。虚拟社会的管理对于我们而言会面临诸多问题和挑战。建立完善的基于社会媒体的社会管理的监管技术平台,用于识别敏感人物节点及其关系密切的社会人群,以及探测、追踪敏感话题,从而对敏感的人群节点以及话题,能提供灵活多变的监管方式,在各个不同时段、灵活设置可伸缩的调整监控范围,实现对敏感人物节点及其关联的人群阶段和敏感事件的有效监管。对社会媒体的监管,如果处置方法不当,会影响社会媒体在我国的良好发展势头。目前的简单、从严监管的方法往往以牺牲用户体验为代价,长期来看需要改变,要对社会媒体的监管方式变“堵”为“疏”,借助网民的力量发现事实,鼓励参与事件的调查,缓解网络舆情,增强公信力。
因此,虚拟社会管理可以有效地改变社会媒体面对民意表达的姿态和主动性,切实与互联网发展相结合,与时俱进,实现社会媒体的规范管理,服务于社会稳定的大局。