网络舆情智能分析系统的总体设计

2015-06-15 18:49李璀
关键词:全文检索舆情数据库

李璀

(河南师范大学计算机与信息工程学院,河南新乡453007)

网络舆情智能分析系统的总体设计

李璀

(河南师范大学计算机与信息工程学院,河南新乡453007)

采用多服务器集群与分布式管理、网络爬虫与全文检索等技术,设计完成一套网络舆情智能分析系统.按照软件工程原理,完成需求分析.对系统总体结构进行设计,分为网络舆情数据采集模块、智能全文检索模块、用户界面模块.最后对系统进行仿真,结果表明系统能够达到对网络舆情进行搜索采集分析的要求.

网络舆情;智能分析;系统设计

互联网舆情分析系统主要针对互联网上海量的数据信息,自动地进行收集和处理,并及时对互联网舆情进行预测和监控.系统最终要实现对网络舆情信息进行及时有效的分析和监控,并将分析结果以多种直观简洁的方式反映给用户[1-7].同时系统的设计还需要考虑对各种不同网站页面结构的适应性,以及作为系统的可扩展性和可维护性.

本文设计的网络舆情智能分析系统可以实现对网络舆情数据快速抓取、分析,及通过二次搜索方式对舆情结果中的虚假信息进行甄别、对重点内容进行关注、有害信息进行分析预警等.

1 需求分析

网络舆情分析系统需要满足下列功能:①跨平台,支持当前多数操作系统,如:Windows/Unix/Linux;②面对网页信息的不同编码格式能够实现自主识别下载功能,并且可以人工设置解析格式,支持对多国语言的网站解析;③能够实现对网页上各类网络舆情数据资源的下载,例如各种格式的图片、音乐、视频等;④针对那些需要输入用户名、密码才能登录采集数据的网站,如人人网、微博等,可以自动输入用户名与密码进行登录;⑤支持大数据的数据挖掘、信息采集、存储,服务器的管理模式使用分布式的配置,尤其要求能够实现多台服务器通过共同协作、配置为服务器集群;⑥多个数据挖掘任务在同一个数据采集服务器下可以同时并行运行;⑦每个搜情专题能够配置多个可采集的信息源,即同时可以从多个网站采集信息;⑧信息采集自动更新策略.当被采集的网络原始信息发生变化时,系统能够自主识别并对已采集到的信息进行更新;⑨严格整个舆情分析系统的权限管理.尤其是对数据挖掘服务器与用户配置使用平台之间分配不同的管理权限,用以加强数据挖掘服务器的整体安全措施;⑩自主发现获取网络信息中的图片.能够自动对图片进行下载,并将网络信息中的图片URL替换为本地的URL.系统后台运行监测平台可以对每台数据挖掘服务器的详细运行情况及系统资源是否得到合理配置使用等情况进行监控,从而得出系统是否正常运行的结论,并形成报告.

2 总体设计

通过上述功能需求分析,系统功能主要包括舆情数据采集、全文检索及用户界面.系统流程如图1所示.舆情数据采集采用网络爬虫技术,把用户监控的网络网站中的文字信息抓取下来存储到舆情数据库,对舆情数据库中的数据进行预处理,主要是把各类非结构化的舆情数据结构化并分类提取出标题、全文、网址、时间等信息,把结构化的数据结果存储到预处理数据库中,输出到全文检索系统.全文检索系统首先对网页文字信息进行分词、分类、文本挖掘、创建索引并存储在索引数据库中,然后按照用户采集指令对索引数据库中的数据进行检索形成全文检索数据库中.通过全文检索API,对全文检索数据库数据进行分析处理,根据用户需要,还可以对全文检索数据库中的数据进行二次检索,之后把结果反馈到用户界面.通过界面完成系统配置、管理,并把结果展示给用户.

图1 网络舆情智能分析系统流程Fig.1 Internet public opinion intelligent analysis system flow

系统开发过程包括系统需求分析、系统总体设计、系统模块具体设计、系统编程实现、软件运行测试、系统改进完善、系统完成及编写用户使用手册等环节.具体流程及生成的相应文档如图2所示.

图2 网络舆情智能分析系统设计实现流程Fig.2 Internet public opinion intelligent analysis system design implementation flow

3 系统设计

3.1 舆情数据采集模块

舆情数据采集部件通过爬虫把符合条件的舆情信息,如网页中的文字、图片、图表等等,进行预处理并存储到数据采集数据库中.首先搜索并处理舆情数据,然后进行解析,对解析后资源进行修正,最后输出任务要求结果.如图3所示,舆情数据采集模块数据流程如下:配置信息主要包括釆集数据的保存路径、采集循环的时间间隔、采集数据的预处理结果保存格式(包括文件格式和编码信息等)[8].

图3 舆情数据采集模块流程Fig.3 Public opinion data acquisition module flowchart

3.2 全文检索模块

全文检索模块主要分为两个部分,索引部分和检索部分,如图4所示.模块接收到舆情资源采集模块获取的舆情信息后,首先在索引部分内对网页正文、标题等内容进行分词、建立索引.然后将索引结果输出到检索部分.第三,根据用户查询的关键词信息等进行检索,将符合条件的结果输出到用户界面.

本模块把智能自动处理器插入普通的文件索引系统中,这样的文件索引系统即能够对采集到的数据信息主题和相关目的进行判断、理解、学习、联想等,并能通过修改配置等方法操控这个自动化处理过程.对爬虫系统捕捉到的网络舆情信息的意思,完成自主研判、识别、理解、区分等操作.该部件可以自动将不同来源和不同处理方式的网络舆情信息进行关联处理,并能进行检索.全文检索部件能根据聚类、分类策略,通过不同的分词算法,把网页等包含文字信息的文件推送到全文检索数据库中进行存储.

图4 智能全文检索模块结构Fig.4 Intelligent full-text search module structure diagram

全文检索系统的核心是动态智能分析引擎,如图5所示.智能分析引擎对信息所含概念进行理解和分析,自动判断分类,不需要人工参与,这样就消除了所有手工成本.另外,智能分析引擎为应用提供了理解概念信息的能力,这意味着来源迥异并且采用不同方案标记的传统数据,可以自动被关联和检索.智能分析引擎将文档、网页、邮件等文件,按照不同的分词,通过聚类、分类,插入到全文检索数据库中.可以解决因为手工创建索引任务所引起的低效率及主要失败原因.

图5 智能全文检索模块流程Fig.5 Intelligent full-text search module flowchart

3.3 用户界面模块

通过用户界面可完成系统管理、配置及分析结果展示.基于界面结构采用B/S结构,不需要安装及维护客户端,方便使用.界面展示主要分为两部分,一部分是配置界面,配置舆情专题相关信息,如名称、开始搜索时间、采集目标、关键词等;另一部分是对获得的舆情结果进行分类显示、对重点舆情信息进行预警等.

4 系统仿真

对系统使用的全文检索算法进行编程实现后,通过实验对构建的全文检索模块进行功能验证.仿真环境使用JVM 5.0版本,Windows7旗舰版操作系统,系统主要基于JAVA代码开发,存储数据库使用MySQL数据库,用户交互界面展示通过Apache Tomcat平台实现.

将一篇文章输入到系统检索入口,对文章进行分词、创建索引表、全文检索,如图6所示.

图6 创建索引输出界面Fig.6 Create an index output interface

索引端对文章进行了分词,并按照权值大小对词进行了排列,形成索引链表.图7表示使用预置的关键词组,对检测的网站群进行全文检索,可以指定检索结果中摘要的显示字数,可以得到符合要求网页数量及网页具体内容.

图7 关键词检索输出界面Fig.7 Keyword search output interface

5 小结

分析了网络舆情分析系统所应满足的相应功能,结合总体设计需求构建了新型网络舆情分析系统,并对其系统功能进行了详细的介绍,对设计的网络舆情分析系统进行了仿真实现,基本达到了设计要求.

[1]殷卫东,朱晓华,赵俊凯.网络舆情技术浅析[J].信息网络安全,2012(3):5-9.

[2]张玉珠.基于K-means聚类的网络舆情监控系统[J].通信技术,2013,46(1):57-59.

[3]张焕明.网络舆情分析系统的研究与设计[J].微计算机信息,2010(18):119-121.

[4]黄敏,胡学钢.网络舆情分析技术及系统构建[J].山东理工大学学报:自然科学版,2013,27(1):25-29.

[5]吴静.网络舆情信息采集系统的设计与实现[D].成都:电子科技大学,2011.

[6]喻思远.网络舆情系统的分析与设计[J].计算机光盘软件与应用,2014,27(5):60-62.

[7]李海燕.网络舆情爬虫系统的设计与实现[D].厦门:厦门大学,2014.

[8]王剑.舆情监控系统的设计与实现[D].济南:山东大学,2012.

(责任编辑:卢奇)

The overall design of the intelligent analysis system of network public opinion

Li Cui
(College of Computer&Information Engineering,Henan Normal University,Xinxiang 453007,China)

Intelligent design was completed by Internet public opinion analysis system,multi-server clusters and distributed management,web crawlers and full-text retrieval technology.In accordance with the principles of software engineering,requirements analysis was completed.The overall system architecture is divided into data acquisition module into the network public opinion,intelligent full-text search module,the user interface module.The simulation results showed that the system can achieve the network search collect public opinion analysis.

network public opinion;intelligent analysis;system design

TP393

A

1008-7516(2015)03-0061-06

10.3969/j.issn.1008-7516.2015.03.013

2015-04-28

李璀(1990―),男,河南滑县人,硕士生.主要从事网络舆情分析研究.

猜你喜欢
全文检索舆情数据库
数据库
消费舆情
Oracle数据库全文检索性能研究
舆情
舆情
数据库
数据库
数据库
舆情
全文检索引擎Lucene系统模型与应用研究