摘要:该文就基于文本挖掘技术的网络舆情采集与分析应用展开研究,从网络舆情生命周期理论、网络舆情采集与分析相关技术、中文分词算法、文本挖掘技术、以及具体的文本预处理、词频分析和LDA主题建模等方面展开讨论。在网络舆情数据预处理中,通过去噪、自定义词典及分词、停用词过滤等手段,可提升数据质量,文本词频分析利用TF-IDF算法,准确挖掘关键词,深入理解舆情事件的重要性,而LDA主题建模技术则通过发现主题结构,为舆情事件提供更为深刻的分析视角。研究表明,通过建立起舆情监测管理机制,可以更好地构建网络舆情环境。
关键词:网络舆情分析;文本挖掘技术;LDA主题建模
doi:10.3969/J.ISSN.1672-7274.2024.09.047
中图分类号:TP 311.13;TP 391.1 文献标志码:A 文章编码:1672-7274(2024)09-0-03
Research on the Application of Network Public Opinion Collection and Analysis Based on Text Mining Technology
JI Bolin
(State Administration of Taxation, Jiangsu Provincial Taxation Bureau, Nanjing 210036, China)
Abstract: This article explores the application of text mining technology in the collection and analysis of online public opinion. It discusses the lifecycle theory of online public opinion, related technologies for online public opinion collection and analysis, Chinese word segmentation algorithms, text mining techniques, as well as specific text preprocessing, word frequency analysis, and LDA topic modeling. In the preprocessing of online public opinion data, data quality can be improved through methods such as denoising, custom dictionaries and word segmentation, stop word filtering, etc. Text word frequency analysis utilizes the TF-IDF algorithm to accurately mine keywords and gain a deeper understanding of the importance of public opinion events. LDA topic modeling technology, on the other hand, provides a more profound analysis perspective for public opinion events by discovering topic structures, indicating that establishing a public opinion monitoring and management mechanism can better construct the online public opinion environment.
Keywords: analysis of online public opinion; text mining technology; LDA theme modeling
0 引言
微博等作为新兴社交媒体平台,不但满足国民网络娱乐的需求,还发挥着舆论导向作用,因覆盖领域广和用户数量多,会形成海量的数据,从中可以反映出社会大众对社会事件或问题的看法、态度和情绪,因此,网络舆情作为双刃剑,发挥着宣传社会正能量和助力社会和谐发展的作用,但也可能起到混淆视听和影响社会稳定的负面作用,这就需要从海量文本数据中掌握网络舆情走向,及时了解社会大众意见,防止舆情走偏,发挥对热点事件的洞察力,并对负面舆情进行正面引导和解决[1]。文本采用挖掘技术海量文本数据中提取并发现未知事件,通过基于文本挖掘技术的网络舆情采集与分析技术,可以建立起良好的舆论环境。
1 网络舆情采集与分析相关技术
1.1 网络爬虫技术
对于海量的网络信息数量,采用传统搜索引擎不能满足信息获取要求,网页承载着数量众多的信息,是人们获取文本信息的主源,人工获取网页信息会耗费较多的时间与精力,网格爬虫也称为Web信息采集器,可根据一定规则对网页信息进行自动抓取,也是很多网络搜索引擎的重要组成部分。全网爬虫可对整个网页数据进行提取并存入数据库,由设定URL开始抓取URL列表,HTML标记好后可以得到所需要的数据,并将其下载至储存器,获取新URL列表添加至列队进行分析,再次重复上述流程至系统停止,具体流程见图1所示。
1.2 TF-IDF算法
TF-IDF为英文词频和逆文档频率的缩写,是一种信息检索与数据挖掘处理技术,用于评估某词项对某文档或语料库的重要程度,词的重要性和其在此文档出现频率为正比例关系,和其他语料库频率为反比例关系,即某词语在某文档出现频次多,在同语料库其他文档出现频次少,此词语可作为文本特征词,具有更重要程度和区分度。TF为某词汇于文档中出现的频次,通过对词数归一化处理来保证有效性,公式为:
(1)
IDF为某给定词汇文档于总语料库存在频次,其值为将总文档量除存在此词汇文档量,取对数后得到其数值,算式为
(2)
式中,N为语料库总文档数,若语料库中存在词语i的文档数量较多,IDF值较小,相反,IDF值变大,也就是词汇更大概率地作为主题词。为避免某些重复于每个文档词汇被滤除,准确求得词汇重要性,要添加TF值,把词汇在文档中出现频率及语料库中出现频率进行高度结合,也就是TF-IDF。将TF文档中存在的高频次词汇采用逆文档频率来降低词语权重,提升文档中出现频率高词语权重,可在总语料库中存在频次低词汇的权重,其值越大则重要程度越高。
1.3 中文分词算法
中文是一种字符无空格的语言,在处理中文文本时,需要通过中文分词将连续的字符切分成有意义的词语单元,不仅可帮助理解文本的语义结构,还能提高后续文本挖掘任务的准确性。中文分词是开展文本挖掘的前提条件,也是采用机器学习、自然语言处理中文的基础,可将输入字符串进行分词处理转换为中文单词,中文分词算法的选择和优化对于准确抽取关键信息、理解舆情事件发挥着至关重要的作用[2]。隐马尔可夫模型(Hidden Markov Model,HMM)是一种常用于序列数据建模的统计模型,它在中文分词领域得到了广泛应用,在使用HMM进行中文分词转换之前需要对状态转移概率矩阵(Transition Matrix)、发射概率矩阵(Emission Matrix)和初始状态概率向量(Initial State Probability Vector)进行参数初始化,通过训练语料库进行学习,统计词语之间的关系和词与字之间的关系。HMM中文分词的核心是通过前向-后向算法来计算给定观察序列的概率,即在给定一段文本的情况下,求得各种隐含状态序列的概率。
2 基于文本挖掘技术的网络舆情采集与分析
2.1 文本挖掘技术
前向算法的目标是计算在给定观察序列(观察到的字或词)的情况下,到达每个状态的概率。初始状态概算数学模型为
(3)
式中,为时刻1处于状态i的概率;为初始状态概率;为状态i观察到第一个字的概率。
对于t=2,3,...,T(T为观察序列的长度),则存在如下模型:
(4)
式中,为在时刻t处于状态j的概率;为从状态i转移到状态j的概率;为在状态j时观察到第t个字的概率。
进行概率计算时存在如下数学模型:
(5)
式中,为观察序列O在模型λ下的概率;为时刻T处于状态i的概率。
后向算法的目标是计算在给定观察序列的情况下,从每个状态开始的后续观察序列的概率。进行初始化操作时存在如下数学模型:
(6)
对于t=T-1,T-2,...,1,存在如下算式:
(7)
式中,为从时刻t开始,在状态i的概率;为状态i转移到状态j的概率;为状态i转移至状态j的概率;为状态i时观察到第t+1个字的概率;为时刻t+1开始,在状态j的概率。
进行概率计算存在如下算式:
(8)
式中,为观察序列O在模型λ下的概率;为初始状态i的概率;为在状态i时观察到第一个字的概率;为时刻1开始,在状态i的概率。
上述两个算法通过递推和初始化步骤,分别计算了前向概率和后向概率,从而得到给定观察序列的总概率,这些概率在中文分词中用于寻找最可能的隐含状态序列,即找到最有可能对应的分词方式。
2.2 网络舆情数据采集
采用八爪鱼采集器来获取某微博数据,以某话题作为搜索元,并通过微博高级搜索功能,参考以前的研究,采集具有影响力的新闻和原创评论,字段有博主ID、链接、内容、转发量、评论数、点赞量等共计51 434条评论。
2.3 网络舆情数据预处理
在网络舆情中,数据往往包含大量噪音,如特殊字符、HTML标签、乱码等,去噪处理的目标是清理这些无用信息,使得数据更加纯净,通过采用正则表达式、规则过滤等方法,去除冗余信息,确保数据的一致性和可分析性。网络舆情数据常包含特定领域的术语和新词汇,为了更准确地反映舆情的语义信息,采用自定义词典进行文本分词,自定义词典的创建可以基于领域知识,将一些特定实体、行业词汇等加入分词词典中,可以进一步提高分词的准确性,避免一些领域特有的术语被切分开[3]。停用词是指在文本中频繁出现但缺乏实际语义信息的词汇,如“的”“是”等,在网络舆情分析中,去除停用词有助于减小数据规模、提高分析效率,并且使得关键信息更为突出。采用停用词表,结合自定义停用词,对文本进行停用词过滤,通过使用预定义的停用词表,也可以根据具体任务构建领域特定的停用词表。
2.4 文本词频分析
文本词频分析是网络舆情研究中常用的手段之一,通过TF-IDF算法(Term Frequency-Inverse Document Frequency)对文本中的词语进行权重计算,从而挖掘并理解舆情事件的重要性和热点。F-IDF算法通过综合考虑词在当前文本中的频率(TF)和在整个文本集合中的逆文档频率(IDF),为每个词赋予一个权重值。这一权重值反映了词在当前文本中的重要性,以及相对于其他文本的独特性。计算文本中每个词的词频,即该词在文本中出现的次数。词频表示词在当前文本中的重要性,常用的计算方式为
(9)
计算整个文本集合中每个词的逆文档频率,即该词在整个文本集合中的重要性。逆文档频率的计算方式为
(10)
式(10)中加1是为了避免分母为零的情况。
将词频和逆文档频率相乘,得到每个词的TF-IDF权重。这个权重表示了词在当前文本中的重要性,以及相对于整个文本集合的独特性。
(11)
根据计算得到的TF-IDF权重,选取权重较高的词语作为关键词,这些关键词通常反映了文本的主题和热点,帮助理解舆情事件的重要性。通过文本词频分析,可以系统性地了解文本中各个词的重要性,有助于从海量信息中筛选出关键信息,理清舆情事件的脉络,提高分析的深度和广度。
2.5 LDA主题建模分析
LDA(Latent Dirichlet Allocation)主题建模技术在网络舆情分析中广泛应用,通过对文本进行主题划分,可以深入理解舆情事件的内涵和相关因素。LDA的核心思想是每个文档都是由多个主题组成的,而每个主题又由多个词组成,在LDA中,每篇文章都被看作主题的一个混合,而每个主题又以一定的概率生成文档中的词语,通过对文本中的词语进行统计和建模,LDA可以自动地发现主题,并确定每篇文档中各个主题的权重。确定主题数目(K),即在使用LDA进行分析时,需要指定主题的数目K,即研究人员希望从数据中发现的主题个数。对每个文档中的每个词随机分配一个主题,不断迭代优化参数,包括每篇文档的主题分布和每个主题的词分布,可以使用Gibbs采样等方法,最终得到每篇文档的主题分布,以及每个主题中词语的权重。LDA输出的结果包括每篇文档的主题分布和每个主题中词语的权重,通过分析这些结果可以深入理解舆情事件的内涵和相关因素。
3 结束语
本文揭示了在网络舆情研究中充分利用文本挖掘技术的重要性,可以更好地理解和应对复杂的信息环境,未来的研究方向可以聚焦于优化分词算法、改进主题模型以适应多模态文本,以及结合深度学习等前沿技术,不断提升网络舆情分析的精度和实用性,从而更全面地理解和应对动态变化的舆情环境。
参考文献
[1] 赵瑞丹,朱旭.基于爬虫技术和语义分析的网络舆情采集系统设计[J].电子设计工程,2021,29(14):56-60.
[2] 林选妙.网络舆情采集系统在游客满意度调查中的应用研究[J].西部旅游,2021(7):13-15.
[3] 杜锦绣,蔡静.网络舆情监测的数据采集与文本分类技术分析[J].无线互联科技,2019,16(15):123-124.