基于数据挖掘的微博话题检测方法研究进展

2014-04-17 04:50:45孙国梓黄斯琪张禹森陈国兰
金陵科技学院学报 2014年1期
关键词:博文文本用户

孙国梓,黄斯琪,张禹森,陈国兰

(1.南京邮电大学计算机学院,江苏 南京 210003; 2.南京邮电大学通信与信息工程学院,江苏 南京 210003;3.南京邮电大学图书馆,江苏 南京 210003)

Web2.0的迅速发展以及信息传播手段的进步,使得近年来微博成长为发展迅速且影响巨大的全民网络媒体,也称自媒体形式。Twitter由Evan Williams在2006年正式推出,从此以后,开启了微博数据时代的大门。截至2013,Twitter累计注册用户已突破10亿,月活跃用户超过2.41亿。近两年,中文微博领域也呈现出一种迅速发展的态势。从2009年8月新浪微博开始发布到2013年9月,新浪微博注册用户数已超过5.5亿,日活跃用户数达到6 020万。

国内外民众对微博的广泛使用,无疑将微博平台提升为新一代具有影响力的网络媒体。微博作为一种新的信息载体和传播途径,使网民对各种产品以及热点话题的评论更加方便,在网路舆情信息发起和传播中起着越来越重要的作用[1]。时效性相当强的微博信息在突发性话题的传播及评论方面速度很快,对于影响力较大的新闻话题,由于广大用户的积极参与、报道、转发、评论,往往能够在传统媒体之前作出相应的反应。这更加说明了微博在话题传递方面的功能不可小视[2]。实际上,已经有研究证明,Twitter在应对突发事件,诸如自然灾害、交通情况上有着较强的辅助与规避作用。

由此可见,分析其中的网络舆论,对微博中的话题进行检测,对于了解社情民意有着重要意义。

1 微博文本的特点

微博文本与正式文本有很多不同的地方,如果简单的直接采用传统文本处理方法,在微博文本上往往不能获取良好的效果。因为与其他的传统化社会媒体诸如博客和论坛相比,微博有着如下一些特点[3-5]。

1.1 短文本性

以新浪微博为例,每一条微博的字数限制在140个字符以内,受字数的限制,用户通常以更为精简的方式发表,往往句子成分不完整,甚至只是简单的几个词语。

1.2 实时性

新浪微博手机客户端的出现,让人们每天使用微博的时间更为随意。用户可以在任何时间、任何地点进行发帖。目前新浪微博用户每天要发布上亿条的微博信息,每秒发送量也高达1 000条,从而使得微博实时数据量十分的庞大。

1.3 文本形式自由

微博文本大多较为口语化,并充满了网络用语以及流行的缩写,错字的现象也时有发生。用户也会添加诸如表情、图片、视频、链接等来丰富自己所发布的微博信息。

1.4 多模态性

与普通文本不同的是,微博文本中除了用户发布的信息外,还多了许多数据结构上的信息,包括用户名、用户ID、评论、转发等数据。

1.5 话题线索性

微博中常有一部分信息是针对某一个对话过程的留言与回复,因此简单的一条微博文本中可能包含了大量的对话信息。这一特点形成了丰富的跨文本上下文信息,为微博文本分析的理解带来了更多的依据。

综上所述,短文本性、实时性以及多模态性是其主要特点。短文本性直接决定了微博文本信息中话题检测与传统文本之间的区别。实时性即用户可以随时随地地进行微博发布,从而对社会事件进行最直接的阐述与评论。所以从微博数据中分析出的信息的时效性可以赶超其他普通媒体,但与此同时,由于微博产生的是海量数据,其中亦存在多方评论的干扰,甚至是误导。多模态性即微博文本结构中包含了许多除了纯文本以外的其他信息,包括照片、视频、网页链接等等。

面对微博中海量且结构多样的数据,靠传统的人工审视或利用基本的数据分析方法很难快速、精炼地提炼出可信并且有用的信息,因此,引入文本挖掘中的数据分析与数据挖掘方法对微博信息的分析是十分必要的。

2 国内外话题检测研究现状

话题检测在学术界是备受关注的研究热点,传统的话题检测主要针对普通文本,目前话题检测常用的聚类方法有:中心向量法、agglomerative算法[6]、增量聚类算法[7]、层次聚类法[8]、基于主题模型算法[9]、K-means[10]、single-pass聚类方法[11]等。而相似度计算方法通常采用余弦夹角[12]、雅各比公式[13]、OKA-PI公式、Clarity、Tanimoto[14]、Hellinger公式[15]等。上述算法在传统文本话题检测研究中有着成熟的运用,并能达到较好的研究结果。但是,由于微博的文本长度较短,同一个词语出现在不同微博中的概率会远小于其他传统媒介中的长文本,将以上的算法直接运用到微博数据分析上,就会直接带来文本特征矩阵稀疏的问题[16],增加了分析文本间相似度的难度。

与传统的话题检测方法不同,由于微博数据大多数所具有的短文本性和文本缺失性,如果使用传统的通过构造词汇-文本特征矩阵的方式来分析话题,如上文所述,由于微博文本短、词汇缺失,在面对构造高维数的词汇-文本特征矩阵时将会导致生成的特征矩阵高度稀疏,得到的检测结果也会大打折扣。而另一点与传统话题文本不同的是,微博数据中有丰富的跨文本上下文信息:转帖、评论、用户标签hashtag、内嵌链接URL、命名实体等,这些都具有很高的分析价值,在传统方法中没有也不可能综合考虑这些因素。

3 针对微博话题检测的主要研究成果

国内外学者在近两年基于海量的微博数据信息展开了相关的数据挖掘研究工作,微博中的话题主要有两种表现形式:1) 显性话题,即用两个“#”号包围话题内容,以区分于微博文本中的其他内容;2) 隐形话题,这种话题通常隐含在用户所发表的微博信息中,没有用特殊符号以示区分,这样的话,对于同一话题,用户有可能使用了不同的关键字进行描述。因此,绝大多数的基于微博文本的话题检测都是针对隐形话题所展开的,并取得了一定的进展。其中话题检测的挖掘算法目前大致可以分为以下几类。

3.1 利用分类聚类的方法挖掘出热点话题

Sakaki等人[17]通过监控Twitter中用户tweets的更新来实时进行地震监控与预测。首先对目标话题进行分析,提取目标话题的特征属性,诸如关键字,然后利用机器学习中的贝叶斯决策方法,对所有Twitter用户的tweets进行分类,最后根据分析出的结果计算出目标话题的信息。在实际的实验过程中,研究人员检测出这种方法具有较好的实时性,检测地震发生的成功率达到了80%。利用普适计算中普遍使用的过滤方法,结合基于概率的时空模型定位,将发布有关微博信息的用户看做是一个个数据传感器,这样不仅能够运用这种方法检测到有关地震的实时话题,并且能够通过分析其中的内容较为准确的定位到地震发生地,更好地为公众服务。

郑斐然等[18]在研究中将短文本中的词频和增长速度结合起来考虑,构造出了复合权值,用以在判断中进行量化。利用上下文相关度模型支撑增量式聚类算法构造话题,比语义相似度模型更适用于在话题检测中。

O’Connor等[19]采用基于文本的采样与聚类技术,通过标记化和语法过滤、评分和筛选候选主题词、合并相似主题、聚合近似重复的信息等4个步骤对与检索词相关的话题进行归纳,通过检索的词语,返回每一个与该词语相关联的主题,从而达到话题提取的效果。

3.2 传统话题模型——潜在狄利克雷分配(Latent Dirichlet Allocation,LDA)模型

LDA是贝叶斯模型的一种变形,他在层次贝叶斯模型的基础上,将Dirichlet先验分布引入到文档-词汇这一层,将传统的pLSA结构通用化,降低了模型自身随着预料的增大而增大。众多研究人员在LDA模型的基础上,结合微博自身的特点建立了基于微博环境的话题提取模型进行热点话题的分析与提取。

Ramage等[20]构造了一个半监督学习Labeled LDA模型,将Twitter微博文本映射到substance、style、status和social characteristics 4个潜在维,并综合上述分析结果个性化用户需求。

Zhao[21]等人提出Twitter-LDA模型,该模型基于LDA模型,并运用其非监督的特点,将信息的传播分为传播速度和传播内容两个维度,通过与纽约时报数据进行对比,认为Twitter拥有更强的信息传播力。

3.3 基于微博内容的自动消息总结

Inouye等人[22]在Sharifi[23]的研究基础上,针对单个句子在总结微博热点话题时承载量不足的缺点,提出了一种利用多个简单句来概括微博上热点话题的方法,使得可以更加迅速准确地发现微博中的热点话题,并能为用户所理解。

3.4 基于影响力的微博信息挖掘

有学者研究表明,相对于从海量微博数据中挖掘微博热点话题,此方法可以大大提高挖掘的速度和精度。

Weng等人[24]以Twitter 为研究对象,从主题相似性的角度,将Twitter中用户影响力与网页中竞价排名相类比,提出TwitterRank 排序算法。该算法主要借鉴了PageRank的基本思想,是PageRank 的一种扩展。在排序的同时考虑到微博的结构信息,以及用户话题结构,从而提取出Twitter环境中与该主题相关联的核心人物,并在此基础上对具有较大影响力的用户微博信息进行分析挖掘。

3.5 基于情感分析的话题热点发现

针对用户群情感波动,获取观点信息,由此反映社会群体对话题的发现。

刘志明等人[25]基于机器学习算法提出了一种有关中文微博的根据情感分类的实证研究。其中涉及了3种不同的机器学习算法。在特征值的计算以及特征项权衡的过程中,也分别运用了3种不同的算法。

杨亮等[26]在研究中提出了一种面向事实文本挖掘的热点话题勘测方法,针对热点话题的出现后随之而来的用户微博中表达情感类的词语量的增加,提出了情感分布语言模型。通过分析相邻时间段该模型间的差异,实现话题的检测发现。

Li等[27]提出运用合作在线学习的算法对主客观微博进行学习分类,一方面对每个独立的用户微博数据信息进行学习,另一方面整合多个用户的微博数据,并将个体语言习惯所存在的规律性考虑进去,丰富多用户环境下特征判断方法。

4 存在问题和未来研究方向

目前,学术界针对微博已经展开了比较广泛的研究,但由于微博语义难以管理以及信息量的疏松,微博,特别是中文微博的研究结果尚不能令人满意。当前,微博数据挖掘与分析领域仍然存在如下的问题与挑战。

4.1 微博信息领域合理分区

文章第2节提到微博文本相对于传统媒体文本的差别性,微博追求信息快速传播,很多文字松散、内容不清晰的信息在网络上向受众进行传播。这种大容量的未经组织和控制的信息肆意增长会导致有效信息很容易被淹没,造成微博信息分析处理过程中高昂的提取成本。针对这一问题,可以针对不同的领域、不同的专业方向将微博平台进行合理分区,将微博未来的发展引领向多元化的方向,从而部分解决内容太过稀疏、噪音过大的问题。

4.2 中文微博语义分析和观点挖掘

微博作为新兴的大众媒体,由大众产生,实时发布并汇聚在一起。然而,由于缺乏统一的规范,很难在大量的用户信息和微博文本数据中建立起语义关系的层次结构。在通过微博信息来对热点事件的发展进行追踪的时候,缺乏规范的语义层次结构会使大众对于热点事件整体观点的归纳产生偏差,并且给从整体角度上获取大众舆论导向带来较大的困难。在另一方面,中文领域微博的分析与研究还处于起步阶段。由于中文与英文在表达方式以及语言结构方面的差异,导致了国外先进的语义分析以及观点挖掘的方法并不能直接运用在中文微博领域的观点挖掘中。因此,基于中文微博的语义分析和意见挖掘的研究就显得尤其重要。为了解决这一问题,需要充分结合中文微博自身语义特点,结合中文情感挖掘技术,运用现有成熟的自然语义分析方法,将微博社会网络中所存在的语义信息和隐含观点挖掘出来,从而提出基于中文微博语义分析和观点挖掘的研究方法。

4.3 垃圾微博发现和过滤

在目前的中文微博平台上,存在着大量恶意且无价值的僵尸用户。这些用户的存在以及所传播的微博信息对进行微博信息分析与挖掘产生了很大的影响。由于微博平台与一般网页结构的差异性,传统的识别垃圾网站的方法并不能直接运用在微博平台上,目前仍旧依赖人工识别的方法来过滤掉无用的垃圾信息。因此,如果能够实现自动鉴别垃圾用户与垃圾信息,将大大提高海量微博数据分析的效率。

4.4 微博实时信息分析

微博会随时更新的特点带来微博数据的高实时性及海量性,已有的信息分析与检索技术并不能很好地应用到热点事件乃至突发事件的检测与趋势跟踪中。困难在于,微博信息是迅速并且实时更新的。如何将现有的主题分析方法有效地融入微博平台,在分析的同时融入实时更新的数据,提出快速有效的微博突发事件检测方法,从而快速地查找出所需要的信息来帮助用户。所以微博信息的实时性也是目前需要解决的问题之一。

5 结 语

近年来随着微博的兴起,产生出微博信息中话题检测挖掘方面的若干研究,论文综述了微博文本与传统文本在话题检测以及分析等方面的差异性,总结了目前在话题检测方面的一些相关研究成果,并对当下现存问题以及未来研究方向进行了分析。

需要指出的是,相关的一些研究是基于假定微博文本信息相互独立的前提下进行的,没有考虑到微博文本所具有的话题线索性,即没有很好地利用到微博信息中所具有的“对话”功能。另外,较国内微博而言,Twitter兴起较早,因此,目前学者对Twitter的研究较多。中文微博的研究仍旧处于初始阶段,有很多问题有待解决。由于文化的差异,中西方在语言结构和词汇表示方法上有着较大的区别,这些也突出了研究中文微博领域分析方法的必要性与重要性。

新浪微博为开发者所开放的API接口,为研究中文微博平台提供了一个很好的机会。如何在国外成熟的微博话题检测成果上,融合中文自然语义与中文微博环境的特点,设计出更好的中文微博研究模型,提出挖掘中文微博中所蕴含话题信息的改进方法,并投入话题检测以及趋势预测方面的应用中,亦是当下急需研究的问题。

[1] 文坤梅,徐帅,李瑞轩,等.微博及中文微博信息处理研究综述[J].中文信息学报,2013,26(6):27-37

[2] 廉捷,周欣,曹伟,等.新浪微博数据挖掘方案[J].清华大学学报:自然科学版,2011,51(10):1300-1305

[3] 张剑峰.微博主观性发现关键技术研究[D].苏州:苏州大学,2012

[4] 蒋盛益,麦智凯,庞观松,等.微博信息挖掘技术研究综述[J].图书情报工作,2012,56(17):136-142

[5] 马彬,洪宇,陆剑江,等.基于线索树双层聚类的微博话题检测[J].中文信息学报,2012,26(6):121-128

[6] Bryant D, Moulton V. Neighbor-net: an Agglomerative Method for the Construction of Phylogenetic Networks[J]. Molecular Biology and Evolution, 2004,21(2):255-265

[7] Charikar M, Chekuri C, Feder T, et al. Incremental Clustering and Dynamic Information Retrieval[C]// Proceedings of the Twenty-ninth Annual ACM Symposium on Theory of Computing. ACM, 1997: 626-635

[8] Corpet F. Multiple Sequence Alignment with Hierarchical Clustering[J].Nucleic Acids Research, 1988, 16(22): 10881-10890

[9] Steyvers M, Griffiths T. Probabilistic Topic Models[J].Handbook of Latent Semantic Analysis, 2007,427(7): 424-440

[10] Yamron J, Knecht S, Van Mulbregt P. Dragon’s Tracking and Detection Systems for the TDT2000 Evaluation[C]//Proceedings of Topic Detection and Tracking Workshop. 2000:75-80

[11] 周刚,邹鸿程,熊小兵,等.MB-SinglePass:基于组合相似度的微博话题检测[J].计算机科学,2012,39(10): 198-202

[12] Singhal A. Modern Information Retrieval: A Brief Overview[J]. IEEE Data Eng. Bull., 2001,24(4):35-43

[13] Saad Y. Iterative Methods for Sparse Linear Systems[M]. Siam, 2003:52-64

[14] Rogers D J, Tanimoto T T. A Computer Program for Classifying Plants[J]. Science,1960,132(3434):1115-1118

[15] Brants T, Chen F, Farahat A. A System for New Event Detection[C]// Proceedings of the 26th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. ACM, 2003:330-337

[16] 路荣,项亮,刘明荣,等.基于隐主题分析和文本聚类的微博客中新闻话题的发现[J].模式识别与人工智能,2012,25(3):382-387

[17] Sakaki T, Okazaki M, Matsuo Y. Earthquake Shakes Twitter Users: Real-time Event Detection by Social Sensors[C]//Proceedings of the 19th International Conference on World Wide Web. ACM, 2010:851-860

[18] 郑斐然,苗夺谦,张志飞,等.一种中文微博新闻话题检测的方法[J].计算机科学,2012,39(1):138-141

[19] O’Connor B, Krieger M, Ahn D. Tweet Motif: Exploratory Search and Topic Summarization for Twitter[C]// ICWSM,2010:120-126

[20] Ramage D, Dumais S, Liebling D. Characterizing Microblogs with Topic Models[C]//International AAAI Conference on Weblogs and Social Media. 2010,5(4):130-137

[21] Zhao W, Jiang J, Weng J, et al. Comparing Twitter and Traditional Media Using Topic Models[J]. Advances in Information Retrieval, 2011(2):338-349

[22] Inouye D. Multiple Post Microblog Summarization [J]. REU Research Final Report, 2010(1):34-40

[23] Sharifi B P. Automatic Microblog Classification and Summarization[D]. Colorado: University of Colorado, 2010

[24] Weng J, Lim E P, Jiang J, et al. Twitterrank: Finding Topic-sensitive Influential Twitterers[C]// Proceedings of the Third ACM International Conference on Web Search and Data Mining. ACM, 2010: 261-270

[25] 刘鲁,刘志明.基于机器学习的中文微博情感分类实证研究[J].计算机工程与应用,2012,48(1):1-4

[26] 杨亮,林原,林鸿飞.基于情感分布的微博热点事件发现[J].中文信息学报,2012,26(1):84-90

[27] Li G, Hoi S C, Chang K, et al. Micro-blogging Sentiment Detection by Collaborative Online Learning[C]// Data Mining (ICDM), 2010 IEEE 10th International Conference on IEEE, 2010:893-898

猜你喜欢
博文文本用户
第一次挣钱
在808DA上文本显示的改善
基于doc2vec和TF-IDF的相似文本识别
电子制作(2018年18期)2018-11-14 01:48:06
谁和谁好
关注用户
商用汽车(2016年11期)2016-12-19 01:20:16
关注用户
商用汽车(2016年6期)2016-06-29 09:18:54
关注用户
商用汽车(2016年4期)2016-05-09 01:23:12
Review on Tang Wenzhi’s The Gist of Chinese Writing Gamut
文本之中·文本之外·文本之上——童话故事《坐井观天》的教学隐喻
如何获取一亿海外用户
创业家(2015年5期)2015-02-27 07:53:25