万红新
摘 要:基于中文文本的复杂语境结构,同时考虑话题的动态变化性,利用语义线索和时空主题模型来提取话题的关键词语链。结合语义知识和时间约束的主题模型可以有效对社交媒体文本大数据进行分析和处理,以获取潜在的话题知识。
关键词:语义线索;主题模型;社交媒体;动态话题
中图分类号:TP391.1 文献标识码:A 文章编号:2096-4706(2019)05-0027-03
Abstract:Based on the complex contextual structure of Chinese text,and considering the dynamic change of topic,we use semantic clues and spatiotemporal topic model to extract keyword chains of topic. Theme model combined with semantic knowledge and time constraints can effectively analyze and process big data of social media texts to acquire potential topic knowledge.
Keywords:semantic cues;topic model;social media;dynamic topics
0 引 言
随着网络社交媒体的迅速发展,在网络上产生了大量的评论数据,如何有效发现其中蕴含的话题信息,是实现舆情分析的重要挑战。人工方式及一些常规方法已不能满足对大数据社交媒体文本进行分析和处理的要求,对话题热点的挖掘需要利用具有大规模数据处理能力的自动化技术来实现。有效地从不断涌现的海量非结构化文本数据中发现热点话题,可以追踪和预测热点话题的变化。本文将基于社交媒体文本大数据,利用语义线索化时空主题模型来提取话题的关键词语链,进而捕获话题的动态变化过程和演化趋势。
1 主要问题
要实现大数据背景下社交媒体的话题词链挖掘,重点在于构建符合话题词动态分布特征的主题模型,实现话题词的提取及主题词链的聚类。主要解决的关键问题包括:
(1)社交媒體文本语义关系的获取。如何提取词语间的语义关系,以语义线索形式嵌入到LDA,提高LDA模型提取话题词语的准确率和召回率。
(2)时间约束LDA分布机制设计。标准LDA是空间内容模型,没有引入时间变化对分布的影响,生成的主题信息不能反映话题的动态变化特点。设计时间介入的LDA模型,紧密联系舆情文本的时间分布特点,增加时间层,提高动态话题提取效率。
(3)构造语义和时间约束的STC-LDA(semantic and time constrained LDA)模型。考虑到词语之间复杂的语义关系会对话题的提取产生影响,将语义关系作为先验知识加入到LDA,同时引入时间约束因子,实现层级之间分配符合舆情文本的语义结构和时间分布特点。
2 相关研究
李凤岭等(2014)[1]提出了基于图方法的话题提取方法,首先利用主题模型生成潜在话题,通过词共现将各个话题关联到一个加权图,再使用话题排序算法进行热点话题的分析和排名;邱明涛等(2017)[2]利用词语的重要程度和词频等进行话题词语选择,词语的重要性可以通过主题模型进行分析,通过迭代方法产生词语集合,在此基础上进行话题的筛选;曹丽娜等(2014)[3]提出的动态主题模型基于话题热度和话题内容,通过主题模型提取变化的词语组合,利用热点算法进行词语集合的话题分析和热度计算;王菲菲等(2016)[4]采用LDA主题模型进行文本建模,得到所有用户内容在各个不同主题上的分布,这种分布词语的集合可以进行筛选并产生共同特征话题集合;陈晓美等(2015)[5]首先分析了大数据背景下舆情文本话题分布的特点,阐述了主题模型对于海量文本数据处理的可取之处,并提出了基于主题模型的热点话题挖掘路径和方法;郭蓝天等(2016)[6]分析了社交媒体中文本数据的特点,指出高维度和多主题是影响主题模型深入挖掘话题的阻碍,提出了一种连续性词袋主题模型,首先对文本进行词语聚类,在降低维度的基础上进行热点话题的提取;仇丽青等(2016)[7]将网络信息结构融入到主题模型,提出了重要性LDA主题模型,重要结构节点知识的引入可以使主题模型发现更多潜在结构信息,挖掘出更多的隐藏在节点结构中的潜在话题;李湘东等(2014)[8]设计了权重型主题模型,在主题模型提取主题词的过程中,将词语共现及热度等因素作为加权因子来考察词语的重要程度,可以发现更多符合话题语义要求的主题词,提高了话题提取的准确率。
3 模型设计
3.1 词语语义关系获取
LDA是概率模型,倾向于提取高频词语和高频共现关系,会造成一些低频的评论词语的提取率不高,难以发现一些低频共现关系。相对于高频话题词,低频话题词语容易被主题模型忽略,同时也造成了其关联词语的提取率偏低,但这些话题往往隐含了丰富的话题知识。LDA主题模型往往难以发现这类频率较低且隐藏在句式结构中的次级评价目标。
这些低频词语一般隐藏在单句结构中,所以在提取这些词语的时候,不要从篇章级粒度入手,而要从句式结构中进行评价目标和词的分析和提取。通过逐点互信息算法,结合句式共现关系,计算词语之间的语义关联性,并利用这种语义关联性来影响主题模型的词语分配,可以发现更多的低频评价目标、评价词以及它们之间的语义关联关系。
3.2 语义线索嵌入LDA
将评论对象和评论词的关联关系作为语义线索加入到主题模型,在词语的概率分配中产生的约束过程为:在主题-词语层,对词语进行主题分配时,首先在单句中查找相邻的关键主题词语,并将它们和已存在的语义关联集合进行匹配,如果匹配成功,则说明这是一对符合语义关系的词语对,在词语的概率分配中要引入关联度来影响其分配到相应主题的概率值,即语义关联度高的词语分配到同一主题的概率值要高于关联度低的词语。
3.3 时间层加入LDA
3.3.1 文档-时间约束
(1)时间戳的设置。时间戳的设置不采用固定时间长度方式,而是根据社交媒体文本的热度来设置,使时间的分布符合话题热度的变化特征,更多地提取满足时间动态变化的话题词语。具体设置时,具体话题的评论数可以作为热度程度的主要考量参数,同时要考虑话题之间的时间关联性,有些时候一个话题的出现会影响其他话题的评论数,即一个话题可以引发其它话题,热度是可以传递的。时间戳的设置规则如式(1),其中,ti是具体时间戳,是时间戳ti的评论数,ζ是评论数阈值,S(ti)值为1时,ti选择为时间戳。
(2)文档-时间分配。主题模型增加了时间层后,需要进行文档-时间的层级分配设计。在文档对时间的概率分布进行计算的过程中,通过文档的发布时间来进行文档属于某时间戳的分配计算,采用发布时间距离时间戳的时长作为主要分配因子,计算如式(2),其中,ti是文档dj的发表时间,介于时间点ti和ti+1之间。
3.3.2 時间-主题分配
时间-主题的分配要反映主题属于某时间戳的概率,实现主题的动态变化,同时提取主题对应的动态话题。由于主题提取是潜在的,没有时间概率,所以时间-主题的分配关系获取可以通过文档-时间和文档-主题分布来实现,分配设计如式(3),其中,DTT是文档-时间分配关系DT的转置矩阵,DK是文档-主题分配。
3.3.3 引入时间先验因子的主题-词语分配
同一时间发布的文档,应尽量分配到同一时间戳对应的主题,可以增加时间因子影响因素,提高词语分配的时间关联性,形成主题词语的时间动态变化。时间先验因子的权重计算如式(4),其中,dt是文档d的时间点,kt是主题k的时间点,λ是权重调节参数。
3.4 STC-LDA模型
标准LDA模型只有三层结构,STC-LDA模型增加了语义和时间因子层,所以STC-LDA模型具有四层分配结构,包括:文档层、时间层、主题层和词语层,通过引入语义和时间因子,主题模型可以提取更多的低频词语,同时主题词提取的话题词语链具有时间关联性。STC-LDA模型如图1所示。
4 实验分析
实验原始数据来源于微博、博客等社交媒体,经过分词、去停用词等,保留名词、形容词、动名词等词语作为数据源。对3个模型的实验数据进行了分析比对,LDA、DTM和STC-LDA模型的热点话题词语提取的准确率如图2所示,其中纵坐标代表准确率,横坐标代表主题个数。
从图2可以看出,STC-LDA具有较高的准确率,而且与其它2个模型相比具有较大的优势,尤其是主题个数为60的时候,表明标准LDA主题模型加入时间和语义关联后,词语分布更加符合文本语义特征,同时契合了话题的时间变化特点,使得STC-LDA对于动态话题词语识别的准确率很高。没有加入时间和语义因素的标准LDA对话题词识别率最低,DTM模型话题词提取的准确率高于LDA,说明时间的加入改善了模型对动态话题词的提取率。随着主题数量的增加,3个模型话题词提取的准确率都有下降的趋势,但STC-LDA相对于其它2个模型依然保持着明显的优势。STC-LDA由于语义关联和时间约束的介入,对文档-主题、主题-词语的动态分配产生了影响,无论是在主题数多还是主题数少的时候,STC-LDA的动态分配优势都很明显,话题发现的准确率自然也就提高了。
5 结 论
在社交媒体日益大数据化的今天,文本数据的降维和潜在话题发现显得尤其重要。本文提出了一种基于LDA主题模型的无监督话题发现模型,不需要进行大量数据的人工标注,同时可以从大规模数据中提取主题关键词,而且由于时间的引入,可以进行动态话题发现。考虑到社交媒体的语义复杂性,引入了语义线索知识作为先验嵌入到LDA,语义线索知识主要考虑词语之间的低频语义关联性。语义和时间的介入提升了主题模型的词语发现效率,可以从大量的社交媒体文本中发现更多的热点话题。
参考文献:
[1] 李凤岭,朱保平.基于LDA模型的微博话题发现技术研究 [J].计算机应用与软件,2014,31(10):24-26+66.
[2] 邱明涛,马静,张磊,等.基于可扩展LDA模型的微博话题特征抽取研究 [J].情报科学,2017,35(4):22-26+31.
[3] 曹丽娜,唐锡晋.基于主题模型的BBS话题演化趋势分析 [J].管理科学学报,2014,17(11):109-121.
[4] 王菲菲,杨扬,蒋飞,等.面向用户话题相似性特征的链路预测方法 [J].西安交通大学学报,2016,50(8):103-109.
[5] 陈晓美,高铖,关心惠.网络舆情观点提取的LDA主题模型方法 [J].图书情报工作,2015,59(21):21-26.
[6] 郭蓝天,李扬,慕德俊,等.一种基于LDA主题模型的话题发现方法 [J].西北工业大学学报,2016,34(4):698-702.
[7] 仇丽青,陈卓艳,丁长青,等.基于改进LDA主题模型的社会网络话题发现算法iMLDA [J].情报科学,2016,34(9):115-118+133.
[8] 李湘东,巴志超,黄莉.基于加权隐含狄利克雷分配模型的新闻话题挖掘方法 [J].计算机应用,2014,34(5):1354-1359.
作者简介:万红新(1970.06-),女,汉族,江西南昌人,教授,硕士,研究方向:数据挖掘、软件工程、自然语言处理。