面向网络舆情监控的热点话题发现技术研究

2020-12-10 06:46崇阳
公关世界 2020年22期
关键词:热点话题

崇阳

摘要:随着我国科学技术的不断发展,互联网信息技术也得到了飞速的发展和进步,我国的网民的数量直线上升,互联网的相關资源,如新闻、视频、论坛、课程等正在呈现飞速的增长,网络在人们的正常生活中展现着很多的优势,例如传达社情民意,已经成为传统的主流媒体形式之后的主要地位,承载着反应社会舆情的主要责任,在反应社会舆情方面正在发挥着极其重要的作用。本文就互联网入手,简单谈谈网络舆情与监控的相关概述和意义,并提出几种热点话题发现的技术,以期为能够更好的管理互联网的秩序和安全提供一定的帮助。

关键词:网络舆情监控 热点话题 发现技术研究

引言

随着我国社会经济与科学技术的不断发展,互联网的发展也十分迅速,国民对于网络也越来越依赖,网络已经逐渐形成了自己的特有文化,也产生了一定的网络舆论,舆论演化的形式也从纯粹的的人类社会网络演化成为向以人为主、人类与机器结合,形成了一个十分杂乱的网络系统。但是在实际的网络运行过程中,网络的引入也会加速网络舆情在人们之间的传播,并且正在突破原有仪器和技术的限制,传播的范围更加广泛,速度更加快。因此,如果相关的部门和工作人员不能对这些舆情进行有效的管理和监控,不利的网络话题和舆情会对正常的社会秩序出现一定的影响。

1.网络舆情的相关概述

网络舆情,即针对网络中出现的反应现实生活中的具有偏向性和针对性的观点和相关的言论,国民对其进行关注和讨论并且已经成为热点话题的相关言论。网络舆情涉及到的范围比较广泛,但是对社会热点问题的关注还是十分集中的,这种关注度比较集中的实践就称为话题。在网络飞速发展的情况下,网络舆情涉及到的热点话题在很短时间内发生,也会快速地随着时间的发展被新的话题压下来,就发生在某特定的时间、地点,可能是一场活动、一场比赛等由一个核心事件或活动和与之相关的事件和活动。

2.网络舆情监控的必要性

网络环境具有一定的复杂性,主要表现在两个方面,首先第一个方面,随着我国互联网的不断发展,国民对于互联网越来越依赖,在网络上对于网民发表和讨论的社会中的某些事件中,会有大量的言论和看法的表达,甚至会推动着网络舆情的风向发展,也在很大程度上影响着社会舆论的演化和发展;在另一方面,互联网的发展十分迅速,已经深入国民的正常的生活和工作中,但是互联网在发展过程中不可避免的会出现杂乱无章,虚拟性很强,很多违法的东西隐蔽在其中,难以完全进行监管,使得很多时候网络上一直不可避免的掺杂着正面和负面的言论,一些负面的话题甚至会严重影响到我国的正常的社会安全。很多犯罪分子往往会利用网络针对国民传播虚假的信息,误导舆论走向,更有甚者为了分裂我国,扩散一些反动的评论或话题。因此,针对网络舆情进行监控和管理是十分必要的。

另外,传统的舆情监控系统在处理网络舆情的时候,如果在管理过程中发现违规的内容或者敏感问题或者言论的话,直接采取对言论删除,对用户进行强行注销,甚至拉入黑名单,避免这些言论对社会和公共事业造成严重的影响。但是上述已经谈到,互联网是具有很强的隐蔽性和复杂性的,采用传统的舆情监控技术在工作效率方面还是有很多的不足的。首先,网络上的东西很复杂,纷乱无章,即使网站中的大量网页经过舆情系统处理之后,话题出现的速度还是很快,敏感问题等很难进行逐一的排查和监控,网络用户还是经常会被这些大量的信息给迷惑,分散了精力和注意力;另外,很多时候,关于同一事件会同时又很多网站的若干网页进行同时讲述,报道不断的更新,很容易造成纷乱的现象,这样的话就会穿插着杂乱无序的和不相关的报道,不利于相关部门对事件进行集中处理和考量;最后,在舆情事件大量的摆在用户面前,系统中不能及时对舆情事件的重要程度进行度量化,对于十分紧急的舆情信息不能与一般重要程度的信息有明显的的区分,显得信息轻重不明,对于重要程度高的,影响力强的事件不能及时分散相关的精力和时间,不能很好的控制舆情态势。

3.热点话题发现的相关技术研究

3.1 经典 single-pass 算法

热点话题发现与话题追踪的技术研究简称为TDT评测,是最原始公开和通用的话题发现与追踪的技术之一,具有良好的作用。在使用过程中根据发生的事件对文本信息进行相关的语言组织和分析,然后检验各种聚类和分类算法的功能和性能。Single-Pass算法就是TDT评测中使用最多的算法。该算法计算方式简单,运算速度相对比较快,根据这样的优势,该算法比较适用于大数据量的应用或者动态的数据源,并且在计算过程中可以保证具有良好的聚类精度;对于以向量空间模型的高维度文本来说,该计算方法也能够处理一些高维的数据,另外,对于网络新闻报道的大数量的及时性新闻对于算法提出的相关的要求该算法也是具有优势的。但是特殊的一点就是当算法对相关语料输入的顺序比较敏感的时候,语料的输入顺序对于聚类算法的结果就会有很大的不同,这是该算法的一个小的缺点,但是该缺点对于整体的情况的影响并不会太大,因为对于互联网新闻报道的话题发现在实际应用中对于输入的顺序是确定的,因为事件发生是有事件顺序的。Single-pass算法在计算的时候首先是将网络上的文本或者语料进行累计,然后将累计的结果使用动态聚类方法进行聚合处理,第一次可以用发表的第一篇语料作为对之后文本处理的话题模型,然后设定一个相似度的阈值,之后输入的文本和语料和之前的模型进行相似度比较,根据之前设定的阈值对不同的话题或者文本加以区分。

3.2 基于层次的聚类算法

基于层次的聚类算法被认为是随着类簇层次的变化,使得类簇中的相关对象也相应发生变化的一种算法。典型的层次聚类算法主要包括BIRCH算法和CURE 算法这两种,BIRCH算法在使用过程中,将簇认为是树,并且将对象的划分按照平常见到的大树的样子,然后结合其他的聚类的算法对聚类形式进行优化;而CURE算法则是将相应的聚用一定数目的对象进行表现,然后对各聚类向之前设定好的聚类中心进行汇聚。层次聚类法有很多的优点,譬如,层次聚类法相比于其他的计算方法来说,聚类的粒度比较灵活,在话题发现和舆情的监督方面有广泛的适用性,对于各种形状的对象形成的簇,不同的相似度和不同的对象的距离的代表形式等的适用性都很广泛。除此之外也有一些不足之处,在很多情况下需要发现和监控的语料、话题等数据的规模都比较大,而且根据新闻话题的时效性来说,数据更新速度比较快,在数据处理的时候应该使用动态聚集的方式。对于层次聚类法来说,虽然使用范围很广,但是对于以上说到的大规模或者动态的数据情况还是有一定的不足的。类簇是有一定层次的,随着类簇层次的变化,类簇中的相关对象也会发生相应的变化,在计算过程中可以将层次聚类法的计算结果变成一个类簇树,将每个类结点都包含若干子结点,在不同的粒度上对相应数据进行类簇划分。

3.3 基于密度的聚类算法

基于密度的聚类算法是一种需要考虑多边形分段区域和数据的空间密度、与外界的连通性和边界的算法,减少了搜索的复杂度,而且,在基于密度的聚类方法适用于发现的各种形状的簇,在噪声数据的处理过程中有很好的作用和效果,对噪声数据有天然的抵制和限制作用,这是基于密度的聚类方法的优势。但是还有一定的不足,在使用该算法的时候,很多用户并不十分理解相关参数的含义和表达意义。

3.4 基于網格的聚类算法

在基于网格的聚类算法中,为了减少搜索的复杂度,是利用划分空间的方法进行聚类的,一个区域就是在空间中划分出的一个个小的超立方体。在基于网络的聚类算法中,对网络语料或者文本数据的处理首先是将数据进行分割,但是网络聚类就是将分割方式由二维分割转变为三维分割,也就是在输入数据或者语料并进行累计的过程中的空间小立方体中进行的,而数据的分割就是在基于数据点之间的关系导致空间的分割,所以本质上在基于网络的聚类算法就是不直接对输入的数据进行处理,而是相应的转换和变化,然后进行切割,这样也会有一定的优势,可以增加网格的数量,提高数据的承受空间,提升对话题的发现速度。在基于网格的聚类算法中,根据算法的不同也有很多的种类区别,其中最具代表性的算法有STING算法、Wave Cluster,其中STING 算法是一种使用小波转换的方法对聚类进行数据处理的多分辨聚类技术;Wave Cluster算法是一种在高维数据空间中基于网格和密度的多分辨聚类方法。

结语

在网络世界如此发达的现在,网络上的信息纷繁不清,多种多样,一些话题的出现甚至会将社会舆论和网络舆论进行错误的引导,对国家和社会的安定以及国民的生活质量产生十分恶劣的威胁和影响。因此,国家和政府有必要采取一定的研究技术,将话题发现研究投入到舆情监控的实际应用中,对网络上的热点话题和及时新闻话题进行严格的监管和控制,合理的控制舆论的导向,促进国家公共事业的发展和进步,对构建和谐的具有中国特色的社会主义社会有十分重要的作用,同时也是现阶段创建健康安全的互联网舆情工作中面临的一个很重要的课题。

参考文献:

[1]中国互联网络发展状况统计报告.http://www.Cnnic.net.cn/index/0E/00/l1/. 2010.07.

[2]骆卫华,刘群,程学旗.话题检测与跟踪技术的发展与研究[A].全国计算语言学联合学术会议(J SCL 2003)论文集[C].北京:清华大学出版社,2013,560-566.

[3]李保利,俞士汶.话题识别与跟踪研究[J].计算机工程与应用,2015,39 (17):6-10.

猜你喜欢
热点话题
读者来信
读者来信
读者来信
读者来信
读者来信
读者来信
读者来信
读者来信
读者来信
园宝 风采Show