谢松燕 刘肖依
摘要:微博作为当前社会中最重要的社会信息传播平台,具有快速、高效、方便的特点。人们越来越依赖微博来进行社交活动,微博平台每天所产生的信息量越来越大,这其中蕴含了大量有价值的信息,因此,针对微博平台的数据挖掘引起了很多学者的关注和研究。为全面了解当前国内微博研究的发展现状,分析了现有的对微博方面的研究并对其进行总结。
关键词:微博;社交网络;数据挖掘
一、研究背景及相关研究
微博作为典型的应用,发展势头迅猛并得到日益增多的用户的喜爱与应用,成为当下最流行的社交平台之一。
国内关于微博的研究始于2008年,研究者从不同的角度对微博进行了分析。国内针对微博用户数据的信息挖掘研究主要包括信息智能推荐、情感分析、话题事件分析、网络关系分析及影响力分析等,此外还有一些关于微博自身的特性、博文内容价值、可信度等方面的研究;而国外对微博的研究主要在于技术和应用方面。因此本文将对国内外的微博研究进行综合分析,为之后的研究提供参考。
二、微博的数据来源
在微博分析过程中需要采集大量的微博数据,目前获取微博数据的方法有很多,但最主要的可以分为以下三种。
API(Application Programming Interface)。用户通过程序调用官方的API,程序会返回API相应的官方信息数据,用户可以通过查看自由选择所需要的信息。通过API获取数据集用户可以很方便地得到想要的数据,但它的缺点在于微博平台对其API的访问有设置权限,并且有访问次数的限制,若要获取大量的数据一般要通过API经过多次的访问才能得到。
网络爬虫。这是一种按照一定规则自动抓取网页信息的程序,我们可以通过这种程序从访问的网页中获得HTML文本文件,然后根据特定规则通过表达式来分析其HTML文本并提取信息,获取指定数据。最后爬虫根据某一标准停止运行。使用爬虫软件爬取数据的优点是软件可以自动提取页面上的信息,且信息数据较全,操作相对简单。但通过网络爬虫获取数据的缺点是需要用户自己分析所需要数据的表达式,并进行解析和数据提取,工作量较大。
下载公共数据集。现在有一部分学者或研究人员会将自己拥有的数据信息共享到网上,供其他研究者学习使用,并且随着研究人员的不断更新,这些数据集也在逐渐完善,对于很多研究网上的公告数据集都能够满足。但这些数据集也有其局限性:不同的研究所需要的数据集是不同的,并且有的数据具有时效性。
三、微博内容研究
根据微博的特点,研究人员对微博进行了以下几个方面的研究:
(一)微博话题事件分析
话题事件是指由某些原因或条件引起的,发生在特定时间和地点,以及所有预测直接相关的事件或活动。
(二)微博情感分析
情感分析又称意见挖掘,是对带有情感色彩的主管性文本进行分析的过程,分析过程包括文本处理、归纳和推理。Barbosa等人利用博文的一系列特征和词的原信息来检测Twitter中的情感。Davidov等人利用Twitter中的50个Hashtag情感标签和15个“笑脸”标签,提出了监督式的分类方法识别情感。
(三)微博关系分析与挖掘
微博用户之间的交互是多样性的,这使得微博的网络结构呈现多关系的特性,用户可以根据关注关系来构造朋友网络,根据转发关系构造传播网络,根据回复关系构造评论网络。Romero等人根据Twitter中的关注行为,研究了Twitter中关注关系的形成机制;同时,Romero等人研究了用户关注关系的交互机制,验证了关系保持特点:平衡性、交互性、中介性。Yin等人通过研究微博中用户关注关系的形成机制,发现用户中大约90%的新关系建立都有两跳的关系形成。Welch等人通过研究Twitter中关注和转发关系的语义信息,发现这两种关系中转发关系具有更强的话题关联性。
(四)微博信息传播
微博的转发功能使信息在微博平台能够无限制地被传播,这使得微博平台的信息能够以“核裂变”式速度传播。研究微博中信息的传播模式与扩散机制,能够有助于微博舆情的控制与引导,能够更好地推广企业品牌和产品。Romero等人研究了不同的HashTag在Twitter中的传播模式,发现相比而言,有争议性的政治话题通常能够持续更长时间的传播,而习语和新词通常传播的持续时间较短,并且不同的信息在传播路径上也存在差异。Dabeer等人分析了粉丝节点对微博信息传播的影响,发现粉丝节点的活跃度不同对源信息节点的响应性和传播能力等都有不同影响,因此提出了基于马尔科夫决策处理的框架来度量微博中信息的传播效果。
(五)微博中用户的影响力分析
微博中的用户由于自身的特性,对网络中其他用户的影响力作用也不同。影响力的研究的数量在微博研究中占很大的比例,传统的有关个体影响力的度量技术相关研究中主要包括点度中心度、接近中心度、中间中心度、HITS、PageRank及扩展方法等。应用最多且最成熟的是PageRank的算法,很多研究者针对微博中的关注关系构造类似PageRank的算法,加入粉丝的影响力等参考因素来衡量用户的影响力,如果粉丝数越多,并且这些粉丝对其他用户的关注度越少,那么这些粉丝对该用户的影响力贡献就越大。
四、总结与展望
随着网络的不断普及,微博平台每天所产生的信息量越来越大,这其中蕴含了大量有价值的信息。因此,针对微博平台的数据挖掘研究越来越多。通过研究出微博的规律,我们可以利用微博预测时间的发展趋势,也可以将微博应用到商业领域,通过微博影响力大的用户进行信息扩散、舆论导向、商品推介和宣传,这无疑将收到事半功倍的效果。但国内微博分析领域研究起步较晚,对微博接口资源的限制问题以及分析精确度方面还有待进一步提高。(作者单位:中央财经大学)
参考文献:
[1]Page L, Brin S and Motwani R. The PageRank citation ranking: Bringing order to the web [R]. Tech. Report of the Stanford University,USA, 1999.
[2]Weng J, Yao, Y, Leonardi, E and Lee, F. Event detection in Twitter [R]. Tech. Report of HP Laboratories, USA, 2011.
[3]尹红军.大规模社交网络中局部兴趣社区发现研究[D].中国科学技术大学,2014.
[4]熊小兵.微博网络传播行为中的关键问题研究[D].解放军信息工程大学,2014.
[5]丁兆云 贾焰 周斌.微博数据挖掘研究综述[J].计算机研究与发展,2014,51(4):691-704.
[6]陆研 毛健验 屠方楠.网络信息老化规律研究新浪新闻与新浪微博实证研究[J].高等函授学报(哲学社会科学版),2011,24(12):52-55.
[7]丁兆云 贾焰 周斌.微博数据挖掘研究综述[J].计算机研究与发展,2014,51(04):691-704.