互联网舆情音视听节目监测技术研究

2020-01-01 09:14
数字通信世界 2020年8期
关键词:知识库账号舆情

李 峰

(山西省广播电视局监管中心,山西 太原 030001)

互联网舆情音视听节目监测系统是面向全国主流网站,利用互联网搜索引擎技术、挖掘技术、语音识别和视频分析技术等,针对互联网海量信息,采取自动获取、自动聚类、专题聚焦,敏感词汇过滤、主题检测、关键帧智能分析[1]等,进而能够主动发现与推送互联网舆情热点,全面掌握舆情动态,提供充分详实的分析依据,进而作出正确的舆论引导。

1 互联网舆情关键技术

知识库的建立,必须对原来的信息进行一次大规模的收集和重整,需要提取一些重要的特征,但是这些特征往往隐藏于众多杂乱无章的信息中,因此需要借助信息过滤、文本处理以及人物组织抽取等技术从众多的信息中找到有用的、有特征的信息,从而建立所需的知识库。

1.1 垃圾文本信息过滤

垃圾数据清理属于信息过滤的范畴之一,综合了知识论、人工智能、自然语言理解等领域的原理和技术,在信息服务与管理中起着很大的作用,指依据用户的需求,利用一定的工具从巨量的动态信息流中屏蔽无用信息的过程。垃圾信息过滤实质是对信息进行垃圾信息(Spam)或者合法信息(Ham)进行二值判别,并依据判别结果去掉垃圾信息。它所面临的难题是二值分类问题,传统的二值分类问题目前有两种解决办法:第一种基于规则,这个方法要求相关专家制定分类规则;第二种基于统计,不要求专家制定分类规则,但是要求一定数量样本(标注类别),用机器学习算法从标注了类别的领域样本中自动学习出分类知识。

本项目所应用的多源垃圾信息迁移过滤,它的原理是建立一个多源垃圾信息过滤的整体框架,应用统一的表示模型以及统一的过滤模型实现对多源问题的抽象建模。该框架中的统一模型有统一表示模型、统一过滤模型,这些都是在多源信息的共同特性之上构建的。该框架中包含了文本分析模块、迁移过滤模块、模型学习模块。文本分析抽取多源文本信息,依据统一的表示模型针对文本进行抽象表示;模型学习针对已标注语料采取机器学习,生成过滤模型;迁移过滤主要负责在不同的信息来源间执行模型和文本的匹配。

1.2 大规模文本排重

在舆情分析中,重复信息及其背后隐含的内容是被关注的重点。利用好这些信息,对于舆情的分析研判,以及最终的决策都能够提供很大帮助。因此,如何能够准确地发现重复信息,挖掘出其中的丰富语义,并用尽可能少的资源储存这些信息,尽可能直观地表达这些信息,是面向舆情分析的数据预处理的关键步骤。

本项目考虑文本巨量性、简短性的基础上,同时兼顾中英文间的差别,以特征码提取为基本算法,用BloomFilterz和改良的Trie树开展中文短文本查重的算法设计,同时在时间复杂度、精确度,还有内存分配取得了最优解。同时,引入了SimHash算法,解决了数据集中仍然存在少部分的相似文本去重的问题。总体思路为:一是建立中文短文本数据集,进行数据预处理。二是采用BloomFilter或者Trie树对数据集进行完全重复查重。三是使用SimHash算法进行相似重复查重。四是得到查重后结果集。

1.3 人物、组织抽取技术

实体提取是识别语料中地名、人名以及组织机构名等命名实体。命名实体数量会持续增加,所以,很难在词典中穷尽列出,依据构成方法的规律,可以把对这些词的识别从词汇形态处理任务单列出来,叫做实体提取。命名实体为未登录词里数量最多、对分词效果影响最大、识别难度最大的问题。

汉语实体提取作为汉语切分任务的延续,是中文信息处理领域的一个基础任务,被广泛运用于信息抽取、信息推荐、信息检索和机器翻译等。

本项目应用最广泛的是基于条件随机场(CRF)的命名实体识别方法。该方法简单易执行,能够获得不错的性能,所以被广泛地应用于地名、人名以及组织机构等各类型命名实体识别中,加上后期具体应用中不断改进,能算得上命名实体识别中最成功的方法。

1.4 领域知识库自动构建

系统能够根据业务工作的需求,构建业务关注的重点网站、意见领袖、重点网络虚拟身份、重点组织等领域知识库[2],支持数据采集,并构建人物网络行为言论库支持特定用户数据分析。领域知识的主要来源是领域专家、有关的专业技术文献和丰富的互联网领域资源。领域知识库的构建,依赖于专家知识和领域资源的获取。基于ASKE(面向应用领域的知识库构建与应用的有效机制)机制,通过配置网络领域知识文件将领域专家和互联网领域资源有机结合,准确获取领域资源,应用机器学习、文本挖掘和模式识别技术,抽取领域知识概念,学习概念关联关系,构建领域知识的层次结构和基于本体建模方法的概念网络,形成领域知识库。

首先在有监督学习机制下,从大量的多媒体文本文件中提取语义特征知识向量;应用自动向量识别技术进行语义特征向量分类,在人机结合的少量干预下形成分类的语义特征向量列表;然后应用机器学习和有监督的统计学习方法学习语义特征向量之间的关联关系,经过自动的语义特征向量的语义总结,形成以加权有向属性图表示的语义特征知识库。垃圾文本信息过滤技术、大规模文本排重技术、人物组织抽取技术以及领域知识库自动构建等,只是互联网音视听节目监测的前期准备,还需要借助云计算、大数据、人工智能等新一代高新技术的深度融合应用,才能实现更快、更准确找到舆论的焦点,进而能够对舆论进行正确的引导。

1.5 键入信息记录技术

大数据技术的使用,为键入信息的记录技术实现和创造提供了可能,在该项技术的使用过程,可以对于一些重点监测的账号,在信息的输入方面进行全面性的记录,从而分析该账号在一段时间之内,对已经发布的信息内容进行全面的分析。另外,在当前自媒体大行其道的情况下,其发布的各类信息虽然从表面上来看可以覆盖多个领域,但是其实质的内容性上,基本上都会呈现一定的套路化特点,则在键入信息的监管过程,要通过对这类信息的全面调查和分析,为后续的监管账号确定过程和信息的收集过程提供帮助。在该方法的具体使用过程中,对原有的垃圾文本监管技术、关键词的提取和识别技术来说,由于这类文章通常情况下具有一定的可阅读性,所以只单纯采用这两种方法,实际上难以全面分析这类文章中所涵盖的信息内容,所以可以采用人工排除方法,当发现某一篇文章中含有恶意引导网民思维的信息时,要对其进行处理,同时将该账号纳入到舆论监管范围内,而之后,将该账号所发布的各类信息,都需要经过专门人员的管理和审查,并对相关结果进行处理。

1.6 转发信息排查技术

在转发信息的排查技术中,可以使用的方法是通过对当前各类传媒渠道相关全部节点的分析,了解在目前的网络平台运行过程中,相关信息的实际转发情况,尤其是对于一些具有较大影响范围的账号。该过程中要合理使用相关的软件,对关键词进行提取,但是在关键词的数量方面不可采用原有的词汇收集方式,而是要使用其中的某一个特定语句,或者整篇文章为分析对象,研究当前相关不实信息或者具有煽动性言论的实际转发量。同时在信息的取得过程,要做好证据的收集工作,可以直接以形成档案或者固定格式文档的方式,对所有取得的信息都记录到相关的表格内,尤其是对于转发量信息以及实际造成的影响信息。

1.7 信息渠道优化技术

信息渠道的优化技术是指,要能够加强对于各类信息的审查质量,同时在其后续的转发、评论以及传递过程进行全面性的分析,从而让最终建立的信息传递渠道,具有主动删除不实信息的甄别能力和消除能力。在具体使用过程中,可以根据对于评论关键词的设置,分析这类关键词的出现频率,当发现认为该信息中关于不实类的评论占比超过70%到80%时,则可确定该信息基本属于不实信息,则平台方可以对其进行删除处理。需要注意的是,该过程要能够防范大批量恶意评论现象,这就要求在渠道的建筑中,要能够分析所有账号的活跃状态、账号日常的信息发布情况、该账号的来源等,从而提高对信息的处理科学程度。

2 结束语

随着互联网的快速发展,网络媒体已经是普遍存在的信息传播形式,网友言论非常活跃,国内外重大事件,都能够在网上迅速传播,形成网上热点,进而对相关单位和部门产生较大的舆论压力。作为高度重视意识形态责任制的单位,对于作为思想文化信息的集散地和社会舆论放大器的互联网,要加大人工智能[3]、大数据的深入融合,从而加强监测监管。

猜你喜欢
知识库账号舆情
汉语近义词辨析知识库构建研究
彤彤的聊天账号
施诈计骗走游戏账号
数字舆情
数字舆情
消费舆情
Google Play游戏取消账号绑定没有Google账号也能玩
机构知识库建设的动力研究
我国联合虚拟参考咨询系统知识库现状研究*
——基于与QuestionPoint的对比
给骗子汇款