何顺兰,王兴起,胡宏宇,姜 明
(1.杭州小灵通通信技术有限公司,浙江 杭州310001;2.杭州电子科技大学计算机学院,浙江杭州310018)
目前网络舆情分析已经成为众多国内外专家研究的一个热点和重点,已有一些实际的系统投入使用[1]。麻省理工大学和卡耐基梅隆大学等大学以及IBM Watson研究中心等研究机构纷纷开展了相关研究工作。美国有一个研究项目被称为主题检测与追踪(Topic Detection and Tracking,TDT),它采用了一种开放式的评估方法,提供了测试需要的文本集,并给出了测试的衡量标准:错误正确率。TDT项目中主要涉及到了5个研究内容:连续文本的分割(针对广播新闻)、主题跟踪、主题发现、新事件发现和相关发现[2]。国内方面主要有方正智思舆情监测分析系统、谷尼舆情监测分析系统等。方正智思舆情系统作为舆情的监测分析工具辅助舆情监控部门对舆论信息进行评估,分析规划舆情监控内容,形成舆情预警信息,同时根据舆情的监控级别规划新的监控内容,开始新的监控周期,形成一个具有生命特征的周期往复的社情民意反馈系统。谷尼网络舆情信息监控是以信息采集技术为核心,应用信息采集技术、内容管理技术、知识管理技术、信息分类技术,实现网络舆情监测和新闻热点追踪、新闻监管等功能需求[3]。中国科学院计算所和清华大学等高校也开展了类似的研究工作[4]。在视频摘要方面,美国MIT实验室、德国Mannheim大学,国内的亚洲微软研究院、清华大学等都进行了此领域的研究[5]。随着音视频内容分析技术、视频摘要技术、数据挖掘技术等日益成熟,从理论与技术上来说,研发多媒体舆情分析系统是可行的,也是非常迫切的。
舆情分析的技术手段与舆论的传播渠道有密切关系。传统上,报纸等大众媒体是舆论传播的主要渠道,而随着最近十多年来互联网的飞速发展,人们参与社会生活的方式也发生了重大变化,网络媒体成为反应社会舆情的主要载体之一。但目前的网络舆情分析研究及产品主要是针对网络新闻评论、BBS论坛等途径形成的舆情,其本质是在对文本进行语义分析的基础上进行数据挖掘。而对多媒体舆情分析的研究及产品相对较少。随着网络多媒体应用越来越丰富、越来越普及,尤其是“三网融合”时代的逐步到来,对多媒体舆情进行分析监测,以及时有效地发现热点舆情及其形成和发展规律、正确引导舆情发展方向,使得政府部门能做出及时反馈,从而对有效化解舆论危机、保持社会稳定发展、构建社会主义和谐社会具有十分重要的现实意义。本文研发多媒体舆情数据分析系统,系统具体流程如图1所示。
图1 多媒体舆情分析系统流程结构图
首先用户需要构建多媒体数据样本库和舆情知识库,系统在使用过程中会自动更新和完善样本库和知识库,在舆情知识库更新时,需要同步更新多媒体数据样本库。系统新获取多媒体数据时,这些数据以文件的形式存储到原始数据库中。保存到原始数据库中的数据要经过特征提取引擎进行特征提取,提取后的特征存储到元数据库中。元数据库中的数据是底层的描述数据,不适合直接用于舆情分析,因此需要对多媒体元数据进行语义分析,生成多媒体语义信息库。系统在上述数据获取之后便可以通过舆情分析引擎进行舆情分析,生成系统的最终结果舆情信息和预警信息。系统具体研究内容如下。
(1)舆情知识数据库构建及更新
主要包含用于舆情分析的知识,包括:舆情类别知识谱系和类别谱系与样本库的关联索引,而舆情知识数据库研究内容又包括舆情知识数据库构建和舆情知识数据库更新。
(2)多媒体舆情分析样本库构建及更新
主要包括建立多媒体舆情分析样本库,研究多媒体数据样本选取方法,研究多媒体舆情数据库索引方法和存储技术,研究多媒体数据库样本增量式更新方法。
(3)多媒体特征抽取引擎
主要研究各种多媒体数据特征提取方法,如音频特征提取方法、视频特征提取方法等等,如纹理、轮廓、几何、形状、颜色等视频特征提取方法,短时能量、频谱质心等音频特征提取方法。这些方法为后续多媒体数据元数据数据库的构建提供有效工具。
(4)元数据数据库构建
主要研究通过调用多媒体特征抽取引擎中提供的方法或方法组合,提取多媒体数据的特征,并将与音视频相对应的音频、视频元数据(即特征)存储到元数据数据库中。
(5)多媒体数据分析引擎
主要研究内容为面向多媒体的数据挖掘传统技术实现和面向多媒体的特定技术实现。
(6)舆情内容分析
本部分分为5个研究子内容,即热点话题及敏感话题识别、趋势分析、音视频自动摘要、主题追踪、舆情预警。
(7)系统前台设计开发
主要研究内容主要包括两个方面,即舆情信息展示和系统操作、维护与管理。
本文系统主要功能是对音视频内容进行分析以获得舆情结果,并通知相关责任人。系统体系结构设计遵循如下原则:(1)体系结构的松耦合性;(2)平台的可视化操作;(3)数据处理的灵活性;(4)可移植性。基于此,系统体系结构拟采用3层架构:数据资源层、系统分析层和应用层,如图2所示。
图2 多媒体舆情分析系统体系结构图
本部分包括3个子层:原始数据子层、音视频特征抽取子层和特征数据子层。原始数据资源子层由各种格式类型的音视频文件库构成,并与数据库进行关联。为了提高处理效率,需通过音视频特征抽取子层对视频原始数据进行处理生成元数据;特征数据子层由元数据数据库、舆情知识库和音视频样本库构成,提供舆情分析的特征信息和知识信息。
该层由舆情分析工具子层及舆情内容分析子层两部分构成。舆情分析工具子层由聚类分析、分析预测、音视频摘要、关键帧提取等主要功能模块组成;内容分析子层则根据不同舆情内容分析的需求,动态组合工具子层的不同功能模块以得到舆情分析结果。
实现管理员对多媒体舆情分析系统的可视化操作、舆情分析结果对用户的可视化展示。管理员通过该层对系统进行相关配置和管理,舆情分析结果以可视化的形式展现给用户。同时系统提供用户相关信息检索、个性化设置等功能。
本系统的软件实现方案拟采用跨平台Java语言;平台软件的实现机制,拟采用B/S的实现方案;整个软件拟采用面向对象的组件开发,系统数据库拟采用Oracle数据库。
本文提出了一个多媒体舆情分析系统解决方案,本文从具体研究内容、系统体系结构、关键技术几个方面加以详细讨论。下一步工作是实现该解决方案提出的多媒体舆情分析系统,并通过在广播电视监测单位进行测试分析对系统存在的问题加以改进和完善。
[1]张超.文本倾向性分析在舆情监控系统中的应用研究[D].北京:北京邮电大学,2008.
[2]Yang Yiming,Zhang Jian.Topic-conditioned Novelty Detection[C].New York:In proceedingsof the International Conference on Knowledge Discovery and Data Mining,2002:688-693.
[3]寿黎但.互联网热点主题相关性挖掘方法[S].发明专利CN101158957A,2008.
[4]雷震,吴玲达,雷蕾.初始化类中心的增量K均值法及其在新闻时间探测中的应用[J].情报学报,2006,25(3):289-295.
[5]Ngo C W,Ma Y F,Zhang H J.Video summarization and scene detection by graph modeling[J].IEEE Transaction on Circuits System for Video Technology,2005,15(2):196-305.