周展利 郭治豪
摘要:网络已成为公众表达意见,讨论公共事务,参与经济、社会和政治生活的重要公共平台。随着信息的传播,网络舆论呈几何级数增长,有必要对网络舆论进行监测和分析,以便政府管理舆论信息,及时发现热点,正确引导舆论走向。因此,网络舆情监测与分析成为近年来的热点问题。目前主要成熟的技术是基于关键词的统计分析。然而,在提高其有效性方面仍有很大的空间。文章描述了一个基于语义内容识别的网络舆情监测与分析系统框架,以解决舆情的一些关键问题。
关键词:语义内容识别;网络舆论监测;系统框架
中图分类号:G642 文献标识码:A
文章编号:1009-3044(2024)09-0035-04
开放科学(资源服务)标识码(OSID)
0 引言
随着互联网的普及和发展,人们可以更加方便地获取和传播信息。但是,一些不良信息也借助互联网的便利性得以迅速传播,可能会对社会稳定和人民生命财产安全构成威胁。因此,需要采取措施保护公众的利益和安全。在国家层面,立法的法规应更加重视网络舆论焦点和公众关注的问题。制定合理的法律法规可以规范网络行为,保护公众免受不良信息的侵害。此外,政府应承担重要责任,特别是加强对网络舆论的监测和引导,积极引导公众正确看待敏感信息,避免对社会稳定和人民生命财产安全构成威胁。
1 网络舆论的特点与研究目的
根据共研产业研究院统计,2021年中国舆情大数据市场规模达134.38亿元,同比增长13.26%,如图1所示。由近年来我国舆情大数据市场规模的增长趋势可知,网络舆论监测与分析已成为迫切的市场需求。网络舆情分析最重要的技术包括文本过滤、文本分类、观点倾向性识别、话题跟踪、自动总结等,这些技术一直受到国内外工作者的关注[1]。网络舆论信息具有多样性、数量大和突然性等特点,这也使得对网络舆论信息的监测和分析变得更加困难和复杂。以下是对网络舆论信息特点的进一步阐述:
首先,网络舆论信息具有多样性,来源渠道多样化。与传统媒体相比,网络舆论信息的来源更为广泛,包括门户网站、博客、微博、贴吧等多种形式。这些来源渠道的多样性使得舆论信息的监测和分析更加困难,需要采用多种手段和方法进行分析。
其次,网络舆论信息数量庞大。随着互联网的普及,网络舆论信息呈现出爆炸式增长的趋势。要想对这些信息进行监测和分析,需要投入大量的人力和物力,采用先进的技术手段和分析方法。否则,就很难从这些信息中提取出有用的信息。
最后,网络舆论信息具有突然性。网络舆论信息的产生往往与突发事件有关,例如突发公共事件或网络热点事件。在这种情况下,需要迅速采取措施,对事件的信息进行监测和分析,以便更好地了解事件的发展趋势和公众的态度,为政府决策提供参考。这也使得对网络舆论信息的监测和分析变得更加困难和复杂。政府和企业需要投入更多的人力和物力,采用先进的技术手段和分析方法,才能更好地了解公众的态度和需求。
舆论信息的相关性。突发事件引发的舆论信息相互关联,这意味着在分析事件时,需要考虑其在时间和空间上的相关性。具体来说,从时间和空间两个维度去发现事件的相关性可以有助于更好地了解事件的发展规律和趋势,理解事件发生的总体视角,以及预测事件的发展趋势。为了更有效地控制信息,本文描述了一个基于语义内容识别的网络舆情监测与分析系统框架。
2 关于网络舆论监测系统的研究现状
来自DARPA、CMU、马萨诸塞大学和Inc的研究人员已经开始定义主题检测和跟踪研究,并开发了TDT。该项目的重要技术是信息的内容分类,解决了实时监控的处理速度和安全监控之间的矛盾,使其可行。国外对其进行了一些研究,如W3C的PICS已成为WWW的分类标准。有两个国际通用分类标准:SACi和Safesurf,它们都符合PICS。一方面,分类技术用于网页的分类和过滤;另一方面,由于各种原因,国外政策和标准不完全适合中国的国情。
在我国,方正研究院设计的方正智思舆论预警DSS是成功的。该系统成功实现了对海量舆情的自动实时监控和分析。政府对公共选项的监控比传统的手动模式更有效。DSS提供了对互联网信息的监管,尤其对网络突发事件的管理起到了重要作用。该系统具备全文检索、自动排序、自动分类、主题检查/追踪等功能,并提供相关推荐和趋势分析、自动摘要和关键词提取、内容分析、生成统计数据等特点[2]。
谷歌网络民意和信息监控系统结合了互联网搜索技术;信息智能化处理技術和知识管理方法。通过自动采集、自动分类组合、主题采集、焦点专题,实现了网络舆论监测和专题新闻对简报、报道等的跟踪。因此,谷歌可以掌握民意,达成适当的共识,并提供报告分析。
还有基于人机结合设计了一个内容安全监控系统的框架。该框架是一个层次结构,分成3个层次:数据采集层、内容分析层、输出层。DSS的主要功能是通过内容分析检查基于内容的信息,识别不良信息。同时,该系统还可以记录信息的来源和内容,并通过有效的审计分析进行跟踪,为信息的不良使用提供电子证据[3]。
虽然国内有很多单位致力于研究互联网内容过滤方向,试图达到净化网络环境的目的,但仍存在很多挑战和难点。但这些技术还处于萌芽状态,在“语义信息过滤”方面还存在一些不足。
3 基于语义内容识别的网络舆论监测系统框架
该系统的目的是通过测试、获取主题、热点话题和事件跟踪、实验监测等方式,实现对网络舆情的监测和分析,可以形成简报、报告、图表等多种分析结果的表示模式,达成适当的共识并提供报告分析[4]。网络舆情监测系统模块功能框图如图2所示。分为5个阶段,包括资源发现、信息选择、信息整理、信息提取、舆情处理[5]。
系统工作流程系统包括以下5个数据库:
1) 舆论策划信息库:收集网络新闻、社交门户网站、社交软件、博客、聚合新闻等舆论需求信息。2) 建立民意分析信息数据库:通过分类聚类、关键词提取、去重过滤、命名实体识别、语义计算等方式收集存储数据,构建信息数据库。3) 民意数据库:对公众的观点和态度进行分析的重要工具,可以帮助决策者更好地了解公众对政策、事件和产品等方面的看法,从而制定更加符合公众需求的决策。4) 语义词典:本体知识等。5) HNC知识:百度学问等。
在该系统中,各个模块之间的交互方式不同。数据交互主要是基于资源发现模块和选择信息模块之间的文件传输。选择信息模块则负责处理从文本到向量或本体的信息。在模式发现模块中,使用GATE进行命名实体识别,并确定实体之间的关系,然后发现事件模式或主题模式[6]。信息提取模块主要进行语义計算,将模式转换为模板,将非结构化信息转换为结构化信息。民意处理模块需要根据用户的查询进行处理,并将结果以合适的表现形式提供给用户。同时,该系统可以拥有多个用户,每个用户都可以连接到服务器。服务器可以通过网络相互共享数据和交换信息,网络连接场景可以是P2P或客户端服务器,未来也将不断修改和优化。
4 基于语义内容识别的网络舆论监测系统的工作流程
首先基于潜在语义分析的资源发现,然后进行信息选择,基于选择信息模块的数据,通过数据挖掘和语义计算,实现对热点话题的检测和对事件跟踪和方向分析的关注,从而进行信息提取,最后对大众信息进行处理。
4.1 基于潜在语义分析的资源发现
资源发现模块通过整合和映射不同的网络信息模式,实现对数据的自动收集和处理,是检索必要的网络资源。资源之间有不同的检索工具和检索策略。
社交门户网站、社交软件及电子邮件等渠道通常承载着大量简短且非正式的信息交流。此过程首先通过DTS向导实现数据文档的导入与导出操作,接着运用基于潜在语义分析(Latent Semantic Analysis, LSA) 的算法来有效解决环境因素导致的误解及同义词误判问题,同时采用奇异值分解(Singular Value Decomposition, SVD) 技术进行信息过滤与噪声消除处理[7]。依据文档相似度计算与聚类分析的内容,我们能够高效、及时地探测到主题漂移现象,从而更好地满足公共监控的需求[8]。
4.2 选择信息
选择信息模块会自动筛选和预处理网络中的专业信息。首先,它会过滤无效的信息,识别命名实体,提取主题和事件。接下来,它会根据主题或事件对文本进行分类、着色、过滤;最后,区分文本。
1) 基于半监督学习的文本分类。传统文本分类算法是一种监督学习,因为短文本携带大量信息数据,通过确定的类别标签来学习校准样本,并根据文本语义内容确定其类别。它需要一个大的标签样本训练成一个好的分类器。访问大量未标记的数据很容易,但对标记的数据来说成本高且不切实际,这将在传统文本分类处理大量数据时造成瓶颈。我们使用基于半监督学习的文本分类来克服短文本的稀疏性,提高短文本分类算法的准确性,并且为了增加算法的鲁棒性,更好地避免陷入局部最优解,Bagging算法集成到半监督学习中。
2) 不良信息检测。网站内容监控系统中,不良信息检测是关键因素之一。传统的网络检测系统仅依靠关键词来识别和过滤网络信息。但这种方法容易被钻空子,比如把邪教网站隐藏在其他类型的网站中,那些批评邪教的人会被过滤掉。因此,我们提出了一种基于HNC的方法来测试较差的信息内容,而不是通过匹配关键词的方式,并根据句子的含义来判断文本信息过滤需要什么。
4.3 模式发现
模式发现将基于选择信息模块的数据,通过数据挖掘和语义计算,实现对热点话题的检测和对事件跟踪和方向分析的关注。该模块是系统的核心,模式发现如下所示。
1) 数据标注。使用中国科学院计算机软件研究的ICTCLAS获得4个表,以实现分词和词性标注。
①主题表(ID、标题、文本、作者、时间、原文链接、涉及词、文本向量)
②评论表(ID、标题、话题ID、文本、作者、时间、倾向性值、转发数)
③话题表(ID,关键词,参与人数,时间,极性,观点对立,注释)
④话题-主题映射表(话题ID,主题ID)
在插入数据库时,主题ID将是渐进分布的,第四个表保存了所包含的每个集群的主题,该集群是主题的核心。
2) 趋势分析。首先为趋势词典做好准备,在How-Net中实现第一个基于标记极性的词典,并通过人工标记方法进行增强,然后手动添加一些常见单词。我们应该使用Java语言提供的哈希表来建立一个良好的趋势字典,因为需要快速检查倾向。接下来,阅读文本,逐句处理,去除每个句子的无效词,逐词查询趋势词典,计算其上下文极性和单词极性的强度。然后,将所有极性成分相加,接收句子密度情况除以评论数量的平方根。最后,根据分布态势划分,用趋势值表示评论趋势和排名。
3) 热门关键点分析。基于时间单位(例如:天)上的基本累积单位选择初始点,然后通过只计算时间点之前的评论、后者的反对意见来计算主题视图的时间点,通过将某一时间点的值减去前一时间值,可以得出与这次增加值相反的意见以及事件的趋势。
4.4 信息提取
该模块的主要功能是获取结构化数据,并从多个数据库中进行分析,以确认或展示挖掘出的模式。GATE可以用于实体识别、实体关系识别、事件识别、摘要生成等任务[9]。
4.5 大众信息处理
1) 警告。舆情预警模块通过收集网络信息、发现问题和反馈等手段实现对舆情的预警。一旦触发预设的阈值或条件,警报便会在指定时间段内被激活,显示与主题相关的事件,即趋势的主题。
2) 过滤。过滤大量没有营养的信息。网络管理模块通过实时监控来清除负面新闻。它会收集敏感短语的不同领域,为每个短语设置权重值,并使用智能软件来匹配权重,找到匹配的敏感短语。超过一定的阈值时,信息将被屏蔽。
3) 计数器。首先获取其IP,然后锁定。我们可以使用各种有效的攻击方法对Hub网站的不安全信息进行定点攻击传播(如信息渗透技术、病毒技术、先进的黑客攻击技术等)。
4) 监测。监测和预警不同,前者是被动监测,预警是主动监测。
5) 决策。一个完整的决策往往是不可能的,而是一个迭代的过程。在此过程中,政策制定者可以在不同选项和替代方案的参数中使用人機交互。
5 结束语
随着互联网和信息化建设的快速发展,政府在舆论引导方面也提出了更高的要求。政府在掌握网络舆论趋势并引导其朝着积极方向发展方面承担着至关重要的责任。正如我们所知,互联网上信息的大量涌现使得信息管理成为一个巨大的挑战。传统基于人工和搜索引擎的方法往往存在搜索结果不准确、相关敏感信息无法优化等问题,无法满足政府对于舆论应对的需求。此外,繁重的重复工作大大消耗了管理层的效率和人力资源,而传统方法难以应对互联网信息快速发展的变化。为解决这些问题,建立一个集收集、监测和预警于一体的互联网舆论系统是最佳选择。该系统利用技术和专门的搜索引擎,在最短时间内获取相关网络服务信息,建立统一的信息索引数据库,并对网络媒体反映的舆论进行自动分类、排名和聚类[10]。系统在可视化界面中展示热点新闻和专题,监控网络敏感信息等,形成预警,从而实现对网络信息的有效管理。该系统能够使当局快速掌握和了解民意,并对相关的民意趋势提出适当的解决方案,以满足国家各部门的需求。传统的机器学习方法工作量很大,需要手动标记与分类网民。本文应用基于语义的内容识别技术,针对评论中相对简短和宽泛的情感词汇,设计了一个分析和监控网络舆论系统的框架。
参考文献:
[1] 许鹏,耿藤森,郭鑫涛,等.基于非结构数据搜索处理的网络舆情调控研究[J].中阿科技论坛(中英文),2022(4):128-131.
[2] 刘德鹏.互联网舆情监控分析系统的研究与实现[D].成都:电子科技大学,2011.
[3] 成睿,唐超.基于语义分析的官方网络舆论风险监测系统的构建研究[J].贵州警官职业学院学报,2018,30(2):74-79,85.
[4] 郑军.网络舆情监控的热点发现算法研究[D].哈尔滨:哈尔滨工程大学,2007.
[5] 郝宇飞.网络舆情监测分析系统的研究[J].通讯世界,2015(12):272.
[6] 苟元琴.基于Web挖掘的网络舆情监测系统设计[J].信息技术与信息化,2022(1):64-67.
[7] 苟元琴.基于Web挖掘的网络舆情监测系统设计[J].信息技术与信息化,2022(1):64-67.
[8] 袁健聪.互联网舆情发展与监控分析[J].广西师范学院学报(哲学社会科学版),2010,31(S2):71-73.
[9] 苟元琴.基于Web挖掘的网络舆情监测系统设计[J].信息技术与信息化,2022(1):64-67.
[10] 刘德鹏.互联网舆情监控分析系统的研究与实现[D].成都:电子科技大学,2011.
【通联编辑:王 力】