桑蕊
摘要:随着新媒体的不断发展,对热点舆情监测的需求越来越紧迫,根据水利部门工作特点和辽宁省水利信息化建设的实际情况,开发了利用搜索引擎技术、文本处理技术、知识管理方法,通过对互联网海量信息自动获取、提取、分类、聚类、主题监测、专题聚焦,实现用户对辽宁水利网络舆情监测和热点事件专题追踪的水利舆情信息监控系统。
关键词:水利舆情;实时监控;搜索引擎
1背景
随互联网技术不断发展,继报纸、广播、电视之后网络媒体已被公认为第四大媒体,更有赶超和替代前者之趋势成为反映社会舆情的主要载体之一。网络舆情形成迅速,传播范围广泛,其中一些舆情带有网民的主观性,未经验证直接发布于网络上对社会影响巨大。水利部门作为服务性行业与大众生活息息相关,其新闻一直都是网络舆论关注的焦点,及时发现并处理好水利舆隋信息是对新时期水利工作的新要求。
本着对国家和人民负责的态度,辽宁省水利舆隋信息监控系统应运而生,以此建立高标准、起点高的全天候全方位网络信息监控,以先进的技术手段对境内外互联网网站的内容进行监测,变事后处理为事前控制,为决策层全面掌握舆情动态,做出正确舆论引导,提供分析依据。
2系统建设目标
本系统以信息采集为核心,运用内容管理、知识管理、信息分类,完成水利舆情监控和热点追踪等功能需求,实现对互联网舆情中辽宁水利方面信息的监管、监测,即时、实时发现信息。
建设目标包含以下几个方面:
1)监测整个互联网内关于辽宁水利的相关报道,及时发现不良信息。
2)监测地方媒体关于辽宁水利的评论或负面报道。
3)及时了解掌握最新重大事件。准确收集关注需要的舆情信息。
4)借助技术手段,为早发现、早知道提供帮助。
5)追溯查询网络重点消息内容的传播途径。
3系统工作流程
通过系统的采集与分析功能对互联网有关报道或评论辽宁水利的各个方面的新闻或敏感言论做到及时返现、及时处理。
1)信息采集:完成互联网中水利舆情的信息实时监测、采集、内容提取及排重;
2)信息处理:实现对从互联网中抓取的水利舆情信息进行自动分类聚类、主题检测、专题聚焦等;
3)信息服务:将采集并分析整理后的舆情信息提供辅助处理信息服务,如提供舆情信息简报服务、追踪已发现的舆情焦点等。
系统既支持指定网站新闻、博客、论坛、贴吧的采集监控,又支持通过关键词对整个互联网进行监控。(包括论坛、博客、贴吧)
4系统关键技术
1)信息抽取技术
网页是组成互联网的基本数据单位元,是各种面向互联网的应用系统最原始的数据源。网页内部含有大量噪音信息,如何从网页中有效地提取有价值的内容成为影响数据处理效果的关键。
2)重复识别技术
采用动态词典,将词编码成数字ID序列,为了控制动态词典容易膨胀,又设计了词典溶解技术,保证很高的访问效率。
3)内存池技术
采用了内存池,先在内存中建索引,再写至磁盘,数据在内存中进行二次压缩,保证了内存新能优化。
4)超链分析技术
采集最主要的依据就是URL,而任何一个网页中又包含了若干互相的链接,这就对URL寻址带来了很大程度上的干扰性,所以系统采集到第一个页面后就把相关的信息进行了智能识别。
5)智能化处理技术
智能化处理技术要解决的核心问题是计算机对信息“内容”的理解。
5系统组成结构
整个系统分为四个主要子系统。分别是信息采集系统,智能分析系统,信息检索系统,数据发布系统。
1)信息采集系统
主要用于实时监控指定互联网上各类新闻站点的敏感信息、以及有害信息的网站。模块可以自动执行,无须人工干预。根据网站的特点,将网站分为重点监控和普通监控,对于重点监控系统采取循环搜索的方式,对于普通监控只要在模块中,设定好启动、结束的时间,时间一到搜索引擎服务器会自行启动搜索任务。搜索引擎将按照多种搜索策略并提供各种方式各种逻辑组合查询(包含“and”、“or”、“not”、“(”、“)”的组合逻辑关系及“一”、“%”等通配符)统计和处理。系统支持简体和繁体同时查询系统,提供各种报表打印功能。系统支持新闻、博客、论坛、贴吧的采集及监控。
2)智能分析系统
智能分析系统是整个系统的关键组成部分,其主要作用是对信息采集系统采集下来的数据,进行自动智能分析。自动分析功能包括:自动生成热点,自动区分正负面信息,自动分类,自动标记重复(转载)文章,自动生成统计图表等功能。可以根据发表内容出处权威度、时间、密集程度等参数,判断出给定时间段内的热门话题。使用内容主题词组和回帖数进行综合语义分析,识别敏感话题。判断新采集到的文章、帖子的话题是否与已有内容相同,根据文档内容间的相关程度进行分组归并。
3)信息检索系统
对采集后的信息进行加工处理,按内容分类、关键词(查询方式又分为标题查询、关键词查询、正文查询),时间范围进行检索查询,以便获取最需要的关键信息。
4)数据发布系统
数据发布系统为整个系统的发布界面,也就是对智能分析系统生成的数据进行发布。主要包括:采集数据统计,领导人(名人)信息,地区信息,趋势统计,热点新闻,热点帖子,热点博客,分类信息,个性化追踪,简报系统,文章细览页面,系统管理等等。
6结束语
本套系统区别于公众搜索引擎采用覆盖所有中文搜索引擎,批量自动更新,系统配备自动过滤功能对海量信息进行预处理,达到近似用户所要的内容,只需在一个界面中就可以浏览自己所需的内容,从而对用户关心的突發事件进行及时处置,为决策者提供有力的支持,该系统的开发使用对辽宁省水利舆情监管工作具有重要意义。